这两年 AI 真正的变化,不是“更会聊天了”,而是开始从一个回答问题的模型,变成一个能思考、能查资料、能连工具、能操作电脑、能协作干活的行动系统。
Agent、MCP、RAG、A2A这些词看起来很新,但它们其实都在描述同一条主线。
这两年,AI 发展快到什么程度?
以前我们聊 AI,大家最常说的是:
- 大模型
- ChatGPT
- 生成式 AI
从 2024 年开始,网上开始集中刷屏一批 AI 热词。
不过这里要先说明白:
它们并不都是这两年才“新发明”出来的词。
有些确实是最近两年才正式出现或大规模传播,比如 MCP、A2A、Computer Use、Deep Research。
也有些其实更早就有了,只是这两年在 Agent 浪潮里重新爆火,比如 RAG、Multimodal、Agent。
但无论它们是不是“全新的词”,对大多数普通读者来说,确实都是从这两年开始被反复刷屏、频繁碰到的。
最常见的一批,大概包括:
AgentMCPSkillsRAGA2AReasoning ModelMultimodalComputer UseDeep Research
很多人第一次看到这些词,第一反应都一样:
每个字都认识,连起来完全不知道在说什么。
这篇文章我不准备堆术语,也不准备讲太学院派的定义。
我只想做一件事:
把最近两年最常见、最火、也最容易把人绕晕的 AI 名词,用人话讲清楚。
你可以先记住一句总纲:
这两年的 AI,本质上是在从“会聊天”,升级成“会理解、会查资料、会调用工具、会自己干活”。
如果把 AI 比作一个刚入职的实习生,那最近这些新名词,其实分别在回答 4 个问题:
- 它是不是更聪明了?
- 它能不能看到、听到、操作更多东西?
- 它能不能接公司里的工具和数据?
- 它能不能不只回答问题,而是真的把事情做完?
下面我们一个个拆开说。
一、Agent:AI 不只是陪聊了,它开始“打工”了
Agent 这两年绝对是最核心的词,没有之一。
如果把早期的大模型理解成一个“你问一句,它答一句”的聊天机器人,那 Agent 更像一个接到任务后,能自己拆步骤、查信息、调用工具、持续执行的 AI 助手。
比如你跟普通聊天 AI 说:
帮我整理一下最近 3 个月的竞品动态。
它大概率会立刻给你一段总结,很多内容还可能是“凭印象”说的。
但如果是 Agent,它更像会这样干:
- 先理解任务
- 再决定去哪些地方查
- 然后调用搜索、文档、网页、数据库等工具
- 查到一半发现信息不够,还会继续补查
- 最后再把结果整理成结构化输出
Anthropic 在 2024 年 12 月 19 日 发布的《Building effective agents》里,把 workflow 和 agent 区分得很清楚。
简单说:
workflow更像按预设流程跑agent更像模型自己决定下一步怎么做
如图所示,你可以把它理解成:
聊天机器人 = 你问它答
Agent = 你派它干活
这也是为什么从 2024 年下半年开始,整个 AI 圈的关键词开始从 chat 慢慢转向 agentic AI。
二、MCP:AI 世界的 USB-C 接口
如果最近一年你经常刷 AI 资讯,那一定见过 MCP。
它的全称是 Model Context Protocol。
这个名字很学术,但官方给了一个非常好懂的比喻:
MCP 就像 AI 世界里的 USB-C。
这个比喻来自 MCP 官方文档。文档对它的定位非常明确:它是一个开放标准,用来把 AI 应用和外部的数据源、工具、工作流连接起来。
说白了,MCP 解决的是一个很现实的问题:
AI 再聪明,如果接不到你的文件、数据库、Notion、日历、GitHub、设计稿,它也干不了太多正事。
以前每接一个外部工具,开发者都要单独适配一遍,像每个电器都要配一根不同的线。
现在 MCP 想做的,就是把这件事标准化。
你可以把它想象成:
- AI 是电脑
- Notion、GitHub、数据库、浏览器等是外设
- MCP 是统一接口
有了这个接口,AI 才更像一个真正能接入工作环境的助手,而不是悬在空中的“聪明聊天框”。
所以 MCP 火,不是因为它听起来高级,而是因为它解决了 AI 落地最关键的一步:
让 AI 真正接上外部世界。
三、Skills:给 Agent 装“技能包”和固定做事方法
如果你最近经常接触 Claude Code、Codex、各种 AI 编程 Agent 或工作流 Agent,那大概率还会看到另一个词:
Skills
这个词不像 MCP、RAG 那样属于非常底层、非常统一的行业标准,但在最近一年里,它在开发者圈里明显越来越常见。
你可以把它直接理解成:
给 Agent 装技能包。
什么叫技能包?
就是把一类经常重复出现的任务,提前整理成:
- 一套固定做法
- 一组清晰步骤
- 一份上下文说明
- 一些该调用什么工具、该遵守什么规则的约束
这样当 Agent 再遇到类似任务时,就不用每次都从零开始理解。
比如一个“代码评审 skill”,里面可能会提前告诉 Agent:
- 重点看安全问题
- 重点看边界条件
- 重点看有没有行为回归
- 输出要包含文件位置、风险等级和修复建议
这时候它就不只是“一个很聪明的通用模型”,而更像一个学过公司内部 SOP 的同事。
所以 skills 和 MCP 很不一样。
MCP解决的是:AI 怎么接外部工具和数据skills解决的是:AI 接到任务后,应该按什么经验和方法去做
你也可以把它理解成:
MCP是给 AI 接上手和脚skills是给 AI 补上岗位经验和做事套路
为什么这个词这两年开始变热?
因为大家慢慢发现,真正有用的 Agent,不只是“模型够强”。
还要满足另外一个条件:
它得知道这类事情平时应该怎么做。
也就是说,很多 Agent 不是缺能力,而是缺“稳定可复用的方法”。
skills 本质上就是把这些方法沉淀下来,变成可复用的能力模块。
四、RAG:AI 不再只靠“脑补”,而是先查再答
RAG 也是这两年企业场景里最常见的词之一。
它的全称是 Retrieval-Augmented Generation。
翻成人话就是:
生成答案之前,先去检索资料,再结合资料回答。
IBM 对 RAG 的解释很直白:它把信息检索和生成式 AI 结合起来,让模型在回答前先拿到相关上下文。
为什么这件事重要?
因为普通大模型有个老毛病:
会一本正经地胡说八道。
比如你问它公司内部某个制度、某份文档、某个产品的最新规则,它可能根本没见过,或者见过的版本已经过时了。
于是它就开始“合理想象”。
而 RAG 的思路是:
别猜,先查。
就像你问一个靠谱同事问题,他不是立刻拍脑袋回答,而是先打开飞书、Confluence、知识库搜一下,再回来告诉你结论。
所以你可以把 RAG 理解成:
给 AI 配了一个开卷考试的能力。
它不是变得更“有天赋”了,而是变得更“有依据”了。
五、A2A:让不同 AI 之间也能互相配合
如果说 MCP 解决的是“AI 怎么接工具”,那 A2A 解决的就是:
AI 怎么跟另一个 AI 协作。
A2A 的全称是 Agent2Agent Protocol。
Google 在 2025 年 4 月 9 日 正式发布这个协议,核心目标就是让不同系统、不同厂商、不同框架下的 Agent,能够互相通信、派任务、同步状态。
这个概念听起来抽象,但生活里很好理解。
你可以把它想成公司协作:
- 一个 AI 负责招聘
- 一个 AI 负责排期
- 一个 AI 负责查内部数据库
- 一个 AI 负责发邮件和通知
如果它们彼此完全不认识,那每个 Agent 都像单兵作战,效率很低。
而 A2A 想做的是:
给这些 AI 一个统一的“同事沟通协议”。
Google 在官方文章里提到,A2A 支持能力发现、任务管理、消息协作和长任务状态同步。
翻译成人话就是:
你能知道另一个 AI 会什么,把任务交给它,跟它对齐进度,最后再把结果接回来。
一句话总结:
MCP 是 AI 连工具,A2A 是 AI 连 AI。
这两个词特别容易混,但你这么记就不容易乱。
六、Reasoning Model:AI 开始“先想一会儿,再回答”
从 2024 年下半年开始,另一个特别火的词是 Reasoning Model,中文常被叫做“推理模型”或“会思考的模型”。
这个词为什么突然爆火?
因为大家发现,很多难题不是“知道多少资料”的问题,而是“能不能一步步想清楚”的问题。
OpenAI 在 2024 年 9 月 12 日 发布 o1 时,官方定位非常明确:这类模型会在回答前花更多时间思考,更适合处理科学、代码和数学中的复杂任务。
你可以把以前的大模型理解成:
反应很快,但有时候容易抢答。
而 reasoning model 更像:
先停一下,列思路,试几种办法,发现错了还能往回退。
这种能力特别适合:
- 数学题
- 复杂编程任务
- 多步骤逻辑题
- 需要规划和拆解的工作
所以它不是“知道更多”,而是“想得更稳”。
这也是为什么最近很多 AI 产品都会强调自己是 thinking model、reasoning-first,因为这几乎决定了它能不能从“会说”跨到“会做”。
七、Multimodal:AI 不只会看字,它开始“耳聪目明”了
Multimodal,中文一般叫“多模态”。
这个词其实不难,意思就是:
AI 不只处理文字,还能同时处理图片、音频、视频,甚至自己输出语音和图像。
OpenAI 在 2024 年 5 月 13 日 发布 GPT-4o 时,明确写到它可以对文本、音频、图像和视频进行实时推理。
这件事为什么重要?
因为过去很多 AI 工具,本质上还是“文本机器人”。
你只能打字给它,它也主要打字回你。
但多模态 AI 出现后,交互方式突然变得更像真人了:
- 你可以拍张图让它解释
- 你可以直接开口问它
- 它可以听你语气
- 它可以看屏幕内容
- 它还可以实时语音回复
所以 multimodal 不只是“多了几种输入方式”,它真正改变的是:
AI 开始从“文字世界”走进真实世界。
八、Computer Use:AI 真的会点鼠标、开网页、填表了
如果说多模态让 AI “看得见、听得到”,那 Computer Use 就是让 AI 开始真的能动手操作电脑。
Anthropic 在 2024 年 10 月 22 日 发布 computer use 时,描述得很清楚:开发者可以让 Claude 像人一样使用电脑,看屏幕、移动鼠标、点击按钮、输入文字。
这个概念一出来,很多人第一次真正感受到:
AI 不只是回答问题,它开始能替你执行界面操作了。
比如这些动作:
- 打开网页
- 登录后台
- 找菜单
- 复制粘贴
- 填写表单
- 切换页面
- 按流程完成任务
以前你说“帮我把这件事做完”,AI 最多告诉你“你应该怎么做”。
现在它开始有机会直接帮你做。
所以 Computer Use 可以理解成:
AI 从“军师”变成了“会操作电脑的助理”。
这也是后面一大批爆款产品出现的基础。
九、Deep Research:AI 从“秒回”变成“认真查半小时再回”
最后一个这两年特别有代表性的词,是 Deep Research。
这个词最容易被误解。
很多人以为它只是“搜索增强版”,其实不是。
OpenAI 在 2025 年 2 月 2 日 发布 deep research 时,官方描述是:这是一个能在互联网进行多步骤研究的 agentic 能力,可以在几十分钟里完成原本需要人类花很多小时的研究工作,并分析整合大量在线资料。
你可以把普通 AI 搜索理解成:
你问,它查一下,马上回。
而 Deep Research 更像:
你给它一个复杂课题,它会自己跑去查很多网页、文档、PDF,边查边筛,边筛边补,最后交给你一份像研究助理整理出来的报告。
它适合的问题通常不是一句话能讲清的,而是像这样:
- 最近两年 AI Agent 协议有哪些主流方向?
- 适合小团队的开源 Coding Agent 方案有哪些?
- 某个行业的竞品趋势、价格、优缺点分别是什么?
所以 Deep Research 本质上是:
把“会推理”和“会查资料”结合起来,形成一个能持续研究的 AI。
十、把这 9 个词串起来,你就看懂这两年 AI 的主线了
如果只记一个结论,我建议你记这个:
Reasoning Model:让 AI 更会想Multimodal:让 AI 看得更多、听得更多RAG:让 AI 回答前先查资料MCP:让 AI 接上工具和数据Skills:让 AI 做事更像一个有经验的岗位助手Computer Use:让 AI 能直接操作电脑A2A:让多个 AI 之间开始协作Deep Research:让 AI 长时间做复杂调研Agent:把上面这些能力组合起来,最终变成“能干活的 AI”
所以,最近两年 AI 真正的变化,并不是“更会聊天了”。
而是它正在一步步变成一个更像同事、更像助理、甚至更像执行者的系统。
这也是为什么最近会冒出越来越多你看上去很新的词。
它们并不是凭空发明出来的黑话,而是在描述同一件事:
AI 正在从一个回答问题的模型,变成一个能接环境、能调工具、能做任务的行动系统。
十一、写在最后
如果你最近也被这些 AI 名词反复刷屏,希望这篇文章至少能帮你做到一件事:
以后再看到这些词,不会再觉得“每个字都认识,连起来像天书”。
下一篇我会继续把最近特别火的几个现象讲清楚,比如:
Vibe Coding到底是什么- 为什么
OpenClaw、OpenCode这类项目会突然爆火 AI Coding Agent和传统代码补全到底有什么区别
如果你也在关注这波变化,欢迎一起交流。
参考资料
- Anthropic, Building effective agents, 2024-12-19 www.anthropic.com/engineering…
- Model Context Protocol Docs, Introduction modelcontextprotocol.io/docs/gettin…
- Google Developers Blog, A2A: A New Era of Agent Interoperability, 2025-04-09 developers.googleblog.com/en/a2a-a-ne…
- IBM, What is retrieval-augmented generation (RAG)? www.ibm.com/think/topic…
- OpenAI, Introducing OpenAI o1-preview, 2024-09-12 openai.com/index/intro…
- OpenAI, Hello GPT-4o, 2024-05-13 openai.com/zh-Hans-CN/…
- Anthropic, Introducing computer use, a new Claude 3.5 Sonnet, and Claude 3.5 Haiku, 2024-10-22 www.anthropic.com/news/3-5-mo…
- OpenAI, Introducing deep research, 2025-02-02 openai.com/index/intro…