AI 编程新范式:一文彻底搞懂 LLM、Agent、MCP、Skill 是怎么协作的

107 阅读12分钟

如果你最近在使用 CursorWindsurfAntigravityKiroCopilotTrae,或者在关注「AI + IDE」的前沿进展,你大概率会被几个词反复轰炸:LLM、Agent、MCP、Skill

它们看起来都很“高大上”,但很多文章要么偏学术,要么堆砌概念,看完依然一头雾水。

这篇文章试图用 工程师能真正落地的方式,配合通俗易懂的“三国演义”比喻,带你彻底厘清这套正在重塑软件开发的 AI 编程新架构。


一、核心结论:AI 编程进入「分工时代」

传统的 LLM 交互模式非常简单:

  • 你问一句
  • 它回一句

而今天的 AI 编程(如 Cursor 的 Agent 模式),工作流已经变成了:

你下目标 → AI 拆任务 → 调工具 → 真正把事干完

这背后,靠的就是一套精密的“三件套”分工:

  1. Agent(智能体): 负责“想”
  2. Skill(技能): 负责“做”
  3. MCP(协议): 负责“连”

理解了它们的分工,你就理解了下一代 IDE 在干什么。下面我们将逐一拆解这些角色。


二、LLM 与 Agent 🔥

1. LLM(大语言模型)

定位:纯粹的推理引擎(大脑) 这是很多人的误区:LLM 不等于 Agent。

  • 本质:LLM 是一个静态的、无状态的函数。给它一段文本,它预测下一个字。
  • 局限:它本身是**“无手无脚”**的。它运行在云端的显卡上,无法直接触碰你的本地文件,无法联网,也没有记忆(除非你把历史记录发给它)。

2. Agent(智能体)

定位:会思考的工程经理 Agent 是在 LLM 身上包裹的一层“系统架构”。

  • 核心能力
    • Reasoning(推理):理解你的目标。
    • Planning(规划):将大目标拆解为 Step 1, Step 2, Step 3。
    • Tool Calling(工具调用):判断“现在该用什么工具”。

3. 对比

  • LLM 是 Agent 的一个核心组件,Agent ≠ LLM
  • LLM 是 Agent 的“认知内核”,Agent 是“能把事做完的系统”
  • LLM 是 Agent 的核心组成部分之一,但 Agent 远不止 LLM
  • Agent > LLM
Agent
├── LLM(推理 / 生成 / 决策建议)   // LLM 只是其中一个模块,而且不是负责“执行”的那个
├── Memory(短 / 中 / 长期)
├── Planner(任务拆解)
├── Tool Interface(API / MCP)
├── Executor / Controller(循环与调度)
└── Feedback Loop(校验与修正)

为了让你秒懂,我们来看这个终极对比表:

4. 🧠人脑 vs AI Agent 🤖

生物大脑层级具体脑区 / 机制生物功能AI Agent 对应组件在 IDE / 工程系统中的体现(Windsurf / Cursor 等)
高级认知中枢前额叶皮层(Prefrontal Cortex)逻辑推理、规划、决策、目标保持LLM(Reasoning Core)分析需求、理解代码、生成方案、给出决策建议
感知系统枕叶 / 颞叶 / 顶叶视觉、听觉、感知整合多模态输入(Vision / Audio / Text)读取当前代码文件、Diff、日志、截图、用户输入
短期工作记忆前额叶工作记忆区临时信息保持与操作Context Window(上下文窗口)当前对话内容、选中文件、即时指令
长期记忆系统海马体 / 神经突触网络知识存储与检索Memory(RAG / Vector DB)代码索引、项目级搜索、历史知识召回
行为选择中枢基底节行为选择、策略控制Planner / Policy决定下一步是改代码、查资料还是调用工具
执行与校验系统小脑精细执行、误差修正Executor / Verifier多步执行、结果校验、失败重试
运动控制系统运动皮层(Motor Cortex)发出动作指令Tools / Actions终端命令、文件写入、代码修改、API 调用
神经连接网络白质 / 神经通路各脑区协同Orchestration / ControllerMCP、Agent 框架,负责 LLM、工具、记忆之间的调度
整体大脑全脑协同系统感知 → 思考 → 行动 → 反馈Agent一个能自主完成任务的 AI 系统

可以把 LLM 类比为前额叶皮层,负责高层认知与推理 Agent 则更像完整的大脑系统 在 LLM 之上,整合记忆、感知、执行与反馈闭环

  1. “LLM = 前额叶皮层 (PFC)”
    • 关键词: 静止、无状态、纯推理。

    • 核心特征:

      • 它就像是一个被切除下来的大脑切片,虽然依然有极高的智商,能算微积分、能写诗,但它没有时间概念(不知道刚才发生了什么),也没有空间概念(不知道自己在哪里)。
      • 它只负责处理你给它的那一瞬间的信息片段(Input Tokens)。

.

  1. “Agent = 完整的大脑系统”
    • 关键词: 动态、有状态、闭环。

    • 核心特征:

      • 它是活的。它通过感知 (Perception) 和 执行 (Action) 与物理世界(你的代码库)建立连接。
      • 最关键的是你提到的 “反馈闭环” (Feedback Loop):这是智能体产生“自主性”的灵魂。

5. 映射图

Gemini_Generated_Image_h0q0zrh0q0zrh0q0.jpg


三、MCP 与 Skill 🔥

1. MCP:神经系统协议(神经信号标准、信号如何传递)- 协议

不管你是控制手、控制脚,还是控制眼珠子,神经传导的电信号(Action Potential)格式是一样的。

MCP 就是这个标准,它规定了 JSON 怎么传,让大脑不用为每一种器官单独发明一种语言。

2. MCP Server:肢体/器官(真正干活的执行实体)- 服务

MCP Server 是干活的实体。

一个 Agent(人脑)可以同时连接、调度多个 MCP Server(多个器官)

人体就像是多个 MCP Server 并行挂载的 Agent 系统

就像大脑(Agent),可以用同一种语言(MCP),同时控制手、脚、眼、胃、肺(多个Server)一样。

人体天然就是多 Server 架构

MCP Server人体器官类比职责
GitHub MCP Server操作代码 / 文件
Postgres MCP Server消化 / 查询数据
Filesystem MCP Server眼睛读取信息
Browser MCP Server眼 + 手看网页 + 操作
Shell MCP Server神经-肌肉系统执行底层动作

器官(MCP Server)是并存的、并行的、可组合的

3. Skill:器官的本能动作(Server本能动作)- 内置能力

在 MCP 里,Skill 是写死在 Server 里的代码,Skill 是 Server 自带,Agent 不“学习” Skill。

Agent (大脑) 需要“习得”的是:在什么情况下 应该去调用“抓取”这个动作,但“抓取”这个动作本身是 Server 自带的本能。

手(Server) → 抓(skill1) / 放(skill2) / 推(skill3) 胃(Server2) → 消化(skill1) / 分解(skill2) 眼(Server3) → 看(skill1) / 聚焦(skill2)

4. 总结

Agent 就像人脑,通过统一的 MCP 神经协议,同时调度多个 MCP Server(器官),每个 Server 内置若干 Skill(本能动作),智能体真正的能力来自对多个器官与动作的规划与组合。

智能不在于器官有多强,而在于大脑如何组合、编排多个器官完成复杂目标。

例如一个复杂任务, 「我饿了,想点个外卖」:

  • 在人体里:

    • 眼睛(Server A)看菜单
    • 大脑决策
    • 手(Server B)下单
    • 胃(Server C)消化 .
  • 在 Agent 里:

    • Browser MCP Server 看页面
    • Planner 决策
    • GitHub / API MCP Server 操作
    • DB MCP Server 处理数据

.

以上这套类比天然解释了 MCP 的三个设计哲学:

  1. 多 Server 并行(手脚并用)
  2. Server 可替换 / 可新增(换了一只义肢手)
  3. Agent 不需要知道 Server 内部实现(大脑不用重学“怎么发指令”)

5. 映射图

微信图片_20260203173547_82_2.png


四、用「三国」打个比方(真的很贴)🔥

如果你觉得概念太抽象,我们换个方式,可以将其比作一场三国战役部署:

技术概念三国角色/物品核心职责
User (用户)刘备 (主公)发号施令。只负责提出大目标(如“阻断曹兵”),不关心具体战术,不懂打仗细节。
Agent (智能体)诸葛亮 (军师)LLM:诸葛亮的脑子(只负责思考)。LLM 无法直接联网/改代码
Agent:诸葛亮的手(负责调度:拿出令箭交给将军)
负责思考、拆解目标,查看手里的牌,决定派谁去、用什么计策并不亲自上阵杀敌。
MCP (协议)令箭(通信标准)通信标准(统一规格的“令箭”。见令箭如见军师)
无论调遣关羽还是张飞,诸葛亮用的都是统一规格的令箭。见到令箭,将军们就知道该干活了。
MCP Server关羽/张飞 (将军)他们是独立的实体(进程),手里握着武器(资源),随时待命。
一个将军(Server)通常掌握多种招式(Skills)。
他们平时就在那挂起(Listening),等着诸葛亮发指令
Skill (工具)拖刀计/狮子吼这是将军能干的具体事情( 具体的招式)。
诸葛亮下令时会说:“张飞(Server),使出‘狮子吼’(Skill)!”
Agent 最终调用的就是这些具体的 Skill。

在刘备发号施令之前,诸葛亮(Agent) 其实做了一个关键的初始化动作:“查看手里的牌”

  • 早在刘备 (主公)发号施令前,诸葛亮(Agent/LLM)就会通过武将们(MCP Server)拿到一份“武将技能清单”(Schema)。
  • 诸葛亮的脑子(LLM)会把这些清单记住(注入 System Prompt)。
  • 等到刘备下令时(用户提问),诸葛亮才能想起来:“哦,阻断曹兵适合用张飞的狮子吼,而不是关羽的拖刀计。”

LLM 思考后通知 Agent,Agent 通过 MCP 调用 MCP Server,MCP Server 利用 Skill 处理问题。

Gemini_Generated_Image_4tkzmk4tkzmk4tkz (1).png


五、深度解析:一条完整的“剧情”串联

为了让你更透彻地理解这套架构的精妙之处,我们把所有技术细节映射回三国的完整剧情中。

1. 详细对照表

为了补充上述比喻,这里有一份更硬核的对照表:

AI 概念三国类比对应技术说明
User刘备提出业务目标
Agent诸葛亮负责 Planning (规划) 和 Reasoning (推理) 的总指挥
Prompt任命诏书System Prompt,定义了诸葛亮的人设(“你是军师,要稳重”)
Mode作战状态当前上下文模式(如:Code Review 模式 vs. Debug 模式)
Rules军法上下文约束(如:禁止修改配置文件的 Rule)
Command虎符口令触发特定行为的指令(如 /fix
MCP军令系统标准化的 JSON-RPC 通信协议
MCP Server关羽/张飞本地运行的服务进程(Local Process)
Skill具体招式Server 暴露的具体 Function
Resource粮草/兵马Server 管理的数据资源(文件、数据库记录)
Hook斥候回报事件监听(如 onFileChange),触发 Agent 重新思考

2. 剧情演练:从“夺回荆州”看 AI 执行流

让我们看一次完整的交互,是如何在 AI 和“三国”之间对应的:

① 刘备下令(User Request)

用户:“帮我修复这个页面的布局错误。” 三国:刘备:“夺回荆州。”

② 诸葛亮进入状态(Agent Initialization)

技术:Agent 读取 System Prompt,确认当前处于“Debug 模式”。 三国:诸葛亮接过诏书,进入“战略模式”,确立基调:稳健、不冒进。

③ 军法约束(Rules Check)

技术:Agent 检查 .cursorrules 或项目规范,确认“不能修改全局配置文件”。 三国:诸葛亮回顾军法:不许屠城,不许伤百姓。

④ 决策与调度(Reasoning & Command)

技术:Agent 思考后,通过 MCP 协议发送指令。 三国:诸葛亮决定:此战需猛将。拿出“令箭”(MCP),下达“虎符”(Command)。

⑤ 调兵遣将(MCP Server & Skill)

技术:Agent 调用 FileSystem Server (张飞) 的 read_file (狮子吼) 能力,读取 CSS 文件。 三国:诸葛亮传令:“张飞(Server),使出‘狮子吼’(Skill)震慑敌军!”

⑥ 资源消耗与执行(Resource & Action)

技术:Server 读取本地磁盘文件,消耗 I/O 资源,返回文件内容。 三国:张飞领命,消耗粮草战马(Resource),执行战术。

⑦ 斥候回报与战果(Hook & Response)

技术:Agent 收到文件内容,生成修复代码,再次通过 Skill 写入文件。IDE 监测到文件变更(Hook)。 三国:斥候来报:“敌军已退。”诸葛亮(Agent)向刘备(User)汇报:“荆州已定。”


六、 用「电脑」打个比方(超白话版)🔥

AI 概念硬件比喻核心职责理解一句话
LLMCPU算力与决策它负责纯粹的逻辑推理和指令生成
它像 CPU 一样是无状态的(Stateless)
只处理当前的计算任务,不负责永久存储
负责“想”和“算”,但不记事,也不直接干活
Agent主板 + 内存调度与记忆主板连接一切(CPU 与外设)
内存(RAM)维持运行时的上下文(Context)
它是系统的底座,没有它,CPU 无法与外界交互
负责记住上下文、安排步骤、指挥谁去干活
MCPUSB 协议连接标准它不是硬件,是一套规则
有了它,不需要为每个外设写专门的驱动(硬编码)
实现了“即插即用”的标准化连接
统一插口,插什么都能用,不用重新学
MCP Server外接设备
(如打印机)
能力容器这是通过 USB 线插在主板上的“盒子”
它包含了所有的硬件和功能,是一个独立的单元
插在电脑上的东西,本身有完整能力
Skill设备的功能
(如打印、扫描)
具体执行这是设备能做的具体动作
Agent (主板) 发送指令给 Printer (Server)
要求执行“打印” (Skill)
“彩印、黑白印、扫描”这种具体动作

通过这个表格,我们可以清晰地看到 MCP 架构的最大价值:

  • CPU (LLM) 可替换: 只要插槽兼容,你可以随时把 Intel (GPT-4) 换成 AMD (Claude 3.5),不用换外设。

  • 外设 (Server) 可独立开发: 制造打印机的人(工具开发者)不需要知道你会把它插在什么品牌的主板上,只要符合 USB (MCP) 标准即可。

  • 主板 (Agent) 更轻量: Agent 不需要预先内置几千种设备的驱动程序,它只需要支持 USB 协议,就能连接全世界。

Gemini_Generated_Image_42657u42657u4265.jpg


七、终极心智模型

如果你记不住复杂的技术名词,请记住这一段“心法”:

Agent 是大脑,负责决策与指挥; MCP 是神经,负责连接大脑与肢体; Server 是肢体,Skill 是手指; User 只需要说一句话:“我要在这个杯子里喝水。”

这套 Agent + MCP + Skill 的架构,正是为了实现软件工程领域的“关注点分离”:

  • Agent 专心变聪明(模型越来越强);
  • Skill 专心干脏活累活(工具越来越丰富);
  • MCP 专心把两者连起来(生态越来越统一)。

这就是为什么 CursorWindsurfAntigravityKiroCopilotTrae 都在走向同一条路。这不是遥远的未来,而是正在发生的现在