在ai agent中,什么是memory,rag,mcp,skill?

4 阅读6分钟

在AI Agent(智能体)体系中,Memory(记忆)、RAG(检索增强生成)、MCP(模型控制平面)、Skill(技能) 是四大核心组件,分别解决“记什么、用什么知识、怎么调度、做什么动作”的问题,共同支撑Agent实现“自主感知-决策-执行-迭代”的闭环能力。下面逐一拆解定义、作用、核心逻辑及相互关系。


一、Memory(记忆):Agent的“大脑存储”

1. 定义

Memory是AI Agent用于存储、管理、复用历史信息的模块,相当于人类的“短期记忆+长期记忆+工作记忆”,让Agent摆脱“无状态交互”,实现上下文连贯、个性化适配和任务迭代。

2. 核心分类(按存储时效/用途)

类型存储内容时效作用
短期记忆(上下文记忆)单轮/多轮对话历史、当前任务的临时状态(如“已完成步骤1,待执行步骤2”)会话级/任务级保证交互连贯性,避免遗忘当前上下文(比如对话中记住用户之前说“要订明天的机票”)
长期记忆用户偏好(如“喜欢靠窗座位”)、任务历史(如“每周一分析销售数据”)、知识沉淀(如“客户A的需求是低价优先”)持久化(数据库/向量库存储)实现个性化服务,复用历史经验,减少重复决策
工作记忆执行任务时的中间结果、临时推理逻辑(如“计算销售额时,先筛选华东区域数据”)任务执行中支撑复杂任务的分步推理,避免中间状态丢失

3. 关键价值

  • 解决大模型“上下文窗口有限”的问题,通过结构化记忆突破长度限制;
  • 让Agent具备“经验复用能力”,越用越贴合用户需求;
  • 支撑多步骤复杂任务的状态追踪(如“自动化报销流程”中记住已提交的材料)。

二、RAG(检索增强生成):Agent的“外部知识源”

1. 定义

RAG(Retrieval-Augmented Generation)是一种通过“检索外部知识+生成回答” 增强大模型能力的技术,核心是解决大模型“知识过时、幻觉、无法访问私有数据”的痛点,让Agent调用实时/私有知识,而非仅依赖模型预训练参数。

2. 核心流程

  1. 索引构建:将私有文档、数据库、实时数据(如企业财报、行业报告、产品手册)向量化,存入向量库;
  2. 检索匹配:Agent接收任务后,从向量库中检索与问题相关的知识片段;
  3. 增强生成:将检索到的知识作为“上下文”输入大模型,模型基于真实知识生成回答/决策。

3. 与Memory的区别

  • Memory:存储Agent自身的交互历史、状态、经验(“我记得你之前要过华东数据”);
  • RAG:调用外部的客观知识/数据(“从企业数据库里查上周的华东销售数据”);
  • 两者可协同:RAG检索的知识可存入Memory,避免重复检索,提升效率。

4. 典型场景

  • 企业客服Agent:检索产品手册回答用户问题;
  • 数据分析Agent:检索数据库中的实时业务数据;
  • 法律Agent:检索法条/案例支撑法律意见。

三、MCP(Model Control Plane,模型控制平面):Agent的“中枢大脑”

1. 定义

MCP是AI Agent的核心调度与决策模块,负责统筹Memory、RAG、Skill等所有组件,决定“什么时候用记忆、什么时候查知识、调用哪个技能、用哪个模型”,是Agent实现“自主决策”的关键。

2. 核心功能

  1. 任务解析:将用户自然语言指令(如“帮我分析上周销售数据并发邮件”)拆解为可执行的子任务;
  2. 模块调度
    • 从Memory读取用户偏好/历史任务;
    • 触发RAG检索所需知识/数据;
    • 选择并调用对应的Skill执行动作;
  3. 流程控制:追踪任务执行状态,处理异常(如“数据检索失败”时重新调用RAG);
  4. 模型适配:根据任务复杂度选择模型(简单任务用轻量模型,复杂推理用大模型)。

3. 关键价值

没有MCP,Agent只是“零散的功能集合”;有了MCP,才能实现端到端的自主任务执行,无需人工干预步骤。


四、Skill(技能/工具):Agent的“执行手脚”

1. 定义

Skill是Agent能实际执行的具体动作或调用的外部能力,是Agent从“思考”到“行动”的桥梁,解决大模型“只能生成文本,无法操作现实世界/外部系统”的问题。

2. 核心分类

类型示例作用
基础通用技能网络搜索、计算器、代码执行(Python)、文档读写(Word/Excel)支撑通用任务,覆盖大部分基础需求
专业领域技能数据分析(Pandas)、图表生成(Matplotlib)、API调用(订票/查天气)适配垂直领域,实现专业动作
自定义业务技能企业CRM查询、报销审批、订单创建(对接内部系统)贴合业务场景,实现私有化操作

3. 关键价值

让Agent从“对话机器人”升级为“行动机器人”,能完成可落地的实际任务(而非仅生成文字),比如:

  • 调用“订票Skill”完成机票预订;
  • 调用“报表Skill”生成Excel并发送邮件;
  • 调用“代码Skill”自动分析数据并输出结论。

五、四者协同:Agent执行任务的完整流程

以“帮我分析上周华东区域销售数据,生成报表并发给领导”为例,四者的配合逻辑:

  1. MCP(中枢) 接收任务,拆解为:查数据→分析数据→生成报表→发邮件;
  2. Memory(记忆) 读取历史:用户偏好“华东区域、Excel格式”,领导邮箱为xxx;
  3. RAG(知识) 从企业数据库检索“上周华东销售原始数据”;
  4. Skill(执行) 依次调用:
    • 数据分析Skill(处理数据,计算同比/环比);
    • 报表生成Skill(生成Excel报表);
    • 邮件发送Skill(将报表发送至领导邮箱);
  5. Memory(记忆) 存储本次任务结果(“已完成2024年5月华东数据报表,发送至xxx”),下次可直接复用。

六、核心定位总结(表格)

组件核心定位解决问题关键特征
Memory存储模块记历史、保状态、提个性有状态、可持久化、经验复用
RAG知识模块补知识、防幻觉、用私有数据外部检索、实时性强、知识准确
MCP调度模块做决策、控流程、统资源自主决策、模块协同、任务闭环
Skill执行模块做动作、联外部、落任务可调用、可扩展、行动落地

七、常见误区澄清

  1. Memory≠RAG:前者存“自身历史”,后者调“外部知识”,不是替代关系,是互补关系;
  2. Skill不是模型能力:Skill是外部工具/API,模型负责“思考用哪个Skill”,Skill负责“实际执行”;
  3. MCP不是模型本身:MCP是调度逻辑,可基于大模型(如GPT-4o)实现决策,也可结合规则引擎提升效率。

如果需要,我可以帮你画一张Mermaid架构图,直观展示四者的交互关系,或者结合具体场景(如企业客服Agent、数据分析Agent)拆解落地细节~