从“会说”到“会做”:一文读懂AI应用开发的完整技术栈

0 阅读6分钟

——聊聊Agent、RAG、MCP这些概念到底在做什么

你有没有这样的感觉:每天都能看到一堆AI新概念冒出来——Agent、RAG、MCP、Prompt Engineering、Skill……它们听起来都很厉害,但彼此之间到底是什么关系?如果你想做一个真正的AI应用,到底该从哪里入手?

别急。这篇文章就是帮你把这些概念串起来,画一张完整的“AI应用开发技术地图”。


一、一切从“与模型对话”开始

任何AI应用,最底层的动作都是:给模型写一段话(Prompt),然后模型给你一段回答

这就是Prompt Engineering(提示工程)

它看似简单,却是整个AI应用的基础。你可以把它理解为“与AI沟通的语言学”——同样的意图,用不同的措辞、结构、示例去表达,效果可能天差地别。

  • 基础版:“请总结这篇文章。”
  • 进阶版:“你是一位资深的商业分析师。请用三点总结下面这篇文章的核心观点,每点不超过50字。文章内容:……”

通过角色设定、思维链、格式约束等技巧,Prompt Engineering 能以最低成本、最快速度大幅提升模型输出的质量。它是所有上层建筑的“地基”。


二、当模型需要“知识外挂”

模型虽然强大,但它有一个致命短板:它的知识截止于训练时。你没法让它回答公司内部文档的内容,它也不知道今天早上的新闻。

于是有了RAG(检索增强生成)

RAG的核心理念是:让模型“开卷考试”。在模型回答问题之前,先从你的知识库(文档、数据库、网页)中检索出相关信息,连同问题一起塞给模型,让它基于这些信息回答。

这样一来:

  • 知识可以随时更新
  • 答案可以溯源到具体文档
  • 模型“幻觉”大幅减少

一个典型的RAG系统包括:文档切分、Embedding模型、向量数据库、检索策略等组件。它是目前企业级AI应用最主流的知识接入方式。


三、让模型不再“纸上谈兵”

有了知识,模型能回答了。但如果我们想让模型动手做事呢?比如发一封邮件、查询一下天气、操作一下Excel?

这时就需要Skill(技能)

Skill是对一个原子能力的封装——它是一个函数,有一段描述,模型“知道”这个Skill能做什么,当它判断需要时,就会调用它。

比如:

  • send_email(recipient, subject, body)
  • get_weather(city)
  • query_database(sql)

Skill让模型从“只会说”变成了“能动手”。而多个Skill组合起来,就能完成复杂任务。


四、标准化:让“手”可以即插即用

问题来了:每个AI应用都自己定义一套Skill的调用方式,太混乱了。能不能有一个统一的标准协议,让任何AI应用都能发现和调用任何工具?

这就是MCP(Model Context Protocol),由Anthropic推出的开放标准。

你可以把它理解为AI领域的“USB接口”。MCP定义了工具如何描述自己、AI如何发现工具、如何发起调用、如何返回结果。有了它,一个Agent可以动态接入文件系统、数据库、浏览器、第三方API等任何能力,而无需为每个工具写死代码。

MCP让AI应用的能力真正实现了“可插拔”。


五、统筹全局的“大脑”

上面有了知识(RAG)、有了手脚(Skill)、有了统一接口(MCP),但还缺一个统筹者——谁来规划任务、决定先做什么后做什么、处理异常情况?

这就是Agent(智能体)

Agent是一个完整的智能系统,它具备:

  • 自主决策:把用户的模糊目标拆解成具体步骤
  • 工具调用:通过MCP调用各种Skill
  • 记忆管理:记住之前的对话和操作,支持长期记忆
  • 循环执行:观察→思考→行动→观察,直到任务完成

如果说Skill是“手”,RAG是“知识库”,那么Agent就是“大脑+执行系统”的完整组合。


六、支撑这一切的“基础设施”

一个真正的生产级AI应用,光有上面这些还不够。还需要一层“基础设施”来保障它的可靠、安全、可维护。

  • 编排框架:像LangGraph、Semantic Kernel这样的框架,帮你快速搭建Agent和RAG流水线。
  • 评估体系:用RAGAS、LLM-as-a-Judge等方式,持续测试你的Prompt和检索策略是否有效。
  • 可观测性:追踪每一次模型调用、消耗的token、延迟、成本,防止失控。
  • 安全与治理:内容过滤、PII脱敏、权限控制,确保AI应用合规。
  • 模型路由与缓存:简单问题用小模型、缓存相似问题,控制成本。
  • 推理优化:用vLLM、量化技术加速模型响应,降低资源消耗。

这些虽然不那么“性感”,但恰恰是决定一个AI项目能否从Demo走向生产的关键。


七、它们如何协作?一个例子

假设你要开发一个“智能会议纪要助手”:

  1. Prompt Engineering:设计系统提示词,定义助手的行为规范(“你是一个专业的会议助理,输出需包含决策、待办、待讨论三项”)。
  2. RAG:将历史会议记录存入向量库,当用户问“上周关于预算的讨论结论是什么”时,检索相关记录。
  3. Skill:封装“创建会议纪要文档”“发送邮件”“添加日历事件”等能力。
  4. MCP:用MCP协议暴露这些Skill,让Agent可以统一调用。
  5. Agent:用户上传录音文件后,Agent先转写,然后分析内容,调用Skill生成纪要文档,再发邮件给参会者。如果过程中发现需要补充信息,Agent会主动提问。
  6. 基础设施:用LangGraph编排流程;用LangSmith追踪执行轨迹;用RAGAS评估纪要质量;用内容安全过滤敏感信息;用量化模型降低转写成本。

八、学习路径建议

如果你刚入门,可以按这个顺序逐步深入:

  1. 起点Prompt Engineering。花一两周时间,掌握基础技巧,这是成本最低、见效最快的切入点。
  2. 第一座山RAG。做一个简单的文档问答系统,理解知识如何外挂。
  3. 能力扩展Skill封装 + Agent基础(ReAct模式)。让模型能调用工具,完成多步任务。
  4. 标准化MCP协议。学习如何用MCP Server暴露工具,接入生态。
  5. 工程化:选择一个框架(LangGraph或Semantic Kernel),搭建完整项目。
  6. 生产准备:引入评估、可观测性、安全、模型优化,让应用可交付。

写在最后

这些概念看似繁多,但其实有一条清晰的逻辑线:

  • Prompt Engineering:与模型对话的“语言学”
  • RAG:模型的知识外挂
  • Skill:模型的“手脚”
  • MCP:连接手脚的“标准化接口”
  • Agent:统筹全局的“大脑”
  • 基础设施:让整个系统跑稳的“地基”

当你理解了这一层嵌套关系,再看那些复杂的AI框架、层出不穷的新名词时,就不会再感到迷茫。AI应用开发正处于“从原型到产品”的关键转折期,掌握这套技术栈,你就能真正驾驭大模型,而不只是它的观众。

希望这篇文章能帮你理清思路。如果你对某个环节特别感兴趣,欢迎留言,我们可以继续深入。