RAG、MCP与智能体:大模型落地的三道关

0 阅读5分钟

大模型能力越来越强,但落地没那么快。从单次对话到多步任务,中间隔着系统工程。这篇文章聊三个绕不开的技术方向:RAG、MCP和智能体。

一、RAG:让模型学会翻资料

大模型的知识截止于训练时刻,这是天生局限。RAG的思路很简单:用户提问时,先从知识库里检索相关内容,再让模型基于这些资料生成答案。

数据分片是关键第一步。文档切太碎,上下文割裂;切太整,检索不精准。技术手册按章节切,问答对按条目切,不同类型策略不同。分片后生成向量,存入向量数据库。

检索不是终点。召回的片段需要排序筛选。两阶段检索常见:先用向量召回一批,再用重排模型精排。重排能更细粒度判断相关性,但计算成本高。

指令理解很关键。“怎么配”和“配错了怎么办”指向不同文档。只匹配关键词容易跑偏,有的系统会在检索前加一层意图识别。

进阶方向是GraphRAG——用知识图谱组织信息。实体关系预先抽取,检索时沿着图谱走,能回答更复杂的问题。比如“A和B合作过哪些项目”,文档片段难拼凑,图谱能直接列出来。

二、MCP:让模型学会用工具

大模型不能直接操作外部系统,这是硬伤。不能查数据库,不能调API,不能执行代码。MCP这类协议解决的,就是模型与外部世界交互的问题。

MCP定义客户端-服务器架构。模型作为客户端,通过标准协议调用各种工具服务器。工具服务器封装数据库查询、代码执行、API调用等能力。模型只需知道“有什么工具、怎么调用”,实现由服务器完成。

工具描述要规范。每个工具需清晰的名称、描述、参数列表。模型根据问题判断调用哪个、填什么参数,描述不清容易选错。有的团队会写few-shot样例帮助理解。

多步骤任务要管理。复杂问题常需多次工具调用,且后面依赖前面。“查某公司去年营收,再和同行比”,需先查数据库拿到数据,再调分析工具对比。MCP支持任务链式调用,中间结果可在上下文传递。

安全是底线。工具调用可能带来风险。协议通常支持沙盒隔离、权限控制。敏感操作需用户二次确认,或限定特定环境执行。

Google新推出的A2A协议也值得关注,它关注多智能体协作:一个智能体可把子任务委派给另一个,任务状态可同步,为构建复杂多智能体系统提供了标准化基础。

三、智能体:从回答问题到完成任务

RAG让模型能查资料,MCP让模型能调工具,两者结合,就能做出真正干活的智能体。

智能体与问答系统的区别在于:它有状态,能规划,能执行多步骤任务。“帮我订下周去上海的机票”需要查时间、比价格、填信息、下单支付。每一步可能调用不同工具,过程中可能要追问用户。

任务规划是核心。模型需把大目标拆解成可执行子任务。有的用CoT提示工程让模型一步步想,有的用专门规划器把拆解和调用分离。规划质量直接影响成功率。

记忆管理要分层。多轮对话里,用户可能中途修改需求,或同一个智能体处理多个任务。短期记忆缓存最近几轮,长期记忆存储用户偏好。MemGPT等框架把记忆做成层级结构,重要信息持久化,临时信息随对话过期。

多模态支持很实用。用户可能发截图问“这按钮为什么点不了”,或语音描述故障。多模态智能体需对齐文本、图像、音频信息,跨模态理解后统一决策。模态对齐和融合是底层关键技术。

群体智能是更高阶形态。单个智能体能力有限,复杂任务需多角色协作。AutoGen等框架支持多智能体协同:一个负责计划,一个执行,一个质检,互相讨论修正。多智能体通信需高效消息传递和任务状态同步,集中训练、分散执行是常见范式。

四、从原型到产品还有多远

RAG、MCP、智能体,每项单看都不陌生,但整合到产品里会碰到一连串工程问题。

速度。多步推理意味着多次模型调用,延迟累加。缓存策略、负载均衡、推理加速,每一层都得优化。

稳定性。模型生成不稳定,同样输入可能不同输出。用在自动化流程需加校验和兜底。置信度低于阈值时触发人工接管,关键操作后让用户确认。

成本。模型调用次数多,API开销不小。蒸馏模型、本地部署、小型模型处理常规任务、复杂问题交给大模型,都是控制成本的手段。

评估。怎么判断智能体做得好不好?不能只看单次回答质量,要看任务完成率、多轮对话成功率、资源消耗。领域不同,指标需定制。

大模型的能力边界还在扩展,但技术关注点正从“模型多强”转向“系统多稳”。RAG让知识库活起来,MCP让工具链打通,智能体让自动化升级。这三块拼图拼起来,才可能做出真正落地的应用。

工程师高培觉得理论是骨架,落地才是血肉。

A3-02.jpg