编排已死,路由当立:从 RAG + LangChain 到 MCP + Tool Use 的 AI 应用架构变迁

7 阅读17分钟

2024 年你在调 Chunk Size,2025 年你在拼 LangChain 的 DAG,2026 年你发现——模型自己就是最好的编排器,你要做的只剩「给它递工具」。

写在前面

如果你在 2024 年做过 AI 应用开发,你大概率经历过这样一条路径:

搭一个向量数据库 → 接一个 Embedding 模型 → 写一套 Chunking 策略 → 用 LangChain 编排 Retrieval Chain → 调 Prompt Template → 上线 → 用户一问就幻觉 → 调参 → 换切片策略 → 加 Rerank → 还是幻觉 → 怀疑人生。

这条路径有一个统一的名字:RAG(Retrieval-Augmented Generation)。它在 2023-2024 年间几乎是 AI 应用的「标准答案」,LangChain 则是这套答案的「标准工具箱」。

但时间拨到 2026 年 3 月,站在今天回头看,这套技术栈正在经历一场深刻的生态位重组。不是因为它们「不好」,而是因为底层的游戏规则变了。

本文将从一个在 AI 工程领域深耕多年的架构师视角,拆解三代技术范式的核心矛盾,比较它们的真实生态位,并给出选型建议和趋势判断。


第一章:回顾——RAG + LangChain 时代做对了什么

1.1 RAG:给大模型「外挂」一个知识库

RAG 的核心思想非常优雅:大模型训练数据有截止日期、不了解你的私有数据,那就在推理时把相关知识「检索」出来塞进 Prompt,让模型基于检索结果生成回答。

用户提问 → 向量检索(召回相关文档片段)→ 拼入 Prompt → LLM 生成回答

这个架构在 2023 年解决了一个真实痛点:让大模型能「说」企业私有知识。当时的 GPT-3.5 只有 4K 上下文窗口,不用 RAG 几乎什么都干不了。

1.2 LangChain:AI 应用的「Spring Boot」

LangChain 的贡献是提供了一套标准化的组件抽象——Chain、Agent、Tool、Memory、Retriever——让开发者可以像搭积木一样组装 AI 应用。它在巅峰时期(2024 年中)拿到了 GitHub 100K+ Stars,几乎所有 AI 教程的第一步都是 pip install langchain

LangChain 的核心理念是编排(Orchestration)

开发者定义工作流(DAG/Graph)→ 框架按流程调度 LLM + 工具 → 输出结果

这在当时是合理的——因为 2024 年的模型还不够「聪明」,它们没法可靠地自己决定下一步该干什么,需要开发者用代码把路径写死。

1.3 它们当时解决了什么问题?

技术解决的核心问题适用场景
RAGLLM 不具备私有/实时知识知识库问答、文档搜索、客服系统
LangChain缺乏 AI 应用开发的标准范式快速原型、PoC 验证、教学
向量数据库语义检索基础设施缺失非结构化数据的近似搜索

公平地说,这套技术栈在它的历史窗口期内是有价值的。问题在于——这个窗口期比所有人预想的都短


第二章:裂缝——这套范式是怎么崩的

2.1 RAG 的三重幻觉困境

RAG 的核心承诺是「用检索消灭幻觉」,但生产环境的残酷现实是:RAG 自己就在制造幻觉

第一重:检索失败幻觉

向量检索不是精确匹配,它基于 Embedding 空间的余弦相似度。当用户的问题和文档的表述方式存在语义鸿沟时,检索直接召回错误片段,模型基于错误上下文自信地胡说八道。比搜不到更危险的是——搜到了,但搜错了。

第二重:合成幻觉

即使召回了正确的文档片段,模型在「合成」答案时仍然可能编造细节。因为 LLM 本质上是概率性的 Token 预测器,不是事实查找引擎。多个 Chunk 拼在一起后,模型会「脑补」它们之间的逻辑关系,生成看起来合理但实际上不存在于任何 Chunk 中的信息。

第三重:上下文稀释幻觉

更反直觉的发现来自 2025-2026 年的研究:更大的上下文窗口让 RAG 变得更差了。模型的注意力机制集中在输入的头部和尾部(Lost-in-the-Middle 效应),当你塞进去 20 个 Chunk 试图「提供更多上下文」时,中间的关键信息反而被淹没了。

"RAG 系统本质上是一堆脆弱的启发式规则,靠 Chunk Size 的玄学调参维持运转。" —— 《RAG is Not Enough》, Towards AI, 2026.02

2.2 上下文窗口的「军备竞赛」悖论

2024 年底到 2025 年,大模型的上下文窗口从 32K 飙升到 200K,再到 1M+。很多人以为这会「杀死 RAG」——把文档全塞进去不就行了?

现实是:塞得进去,但用不好

  • Token 竞争:System Prompt 吃掉数千 Token,RAG 检索结果吃掉数千,对话历史持续增长,留给模型真正「思考」的空间被不断挤压
  • 上下文衰减:模型在超长上下文中的指令遵循能力显著下降,性能在远达到 Token 上限之前就开始退化
  • 成本爆炸:100K Token 的输入在 GPT-4 级模型上单次调用就是几毛到几块钱,乘以生产环境的并发量,账单不忍直视

上下文窗口的扩大没有消灭 RAG 的问题,反而暴露了一个更深层的矛盾:把所有信息塞进 Prompt 是一种笨办法,真正的解法是让模型按需获取信息

2.3 LangChain 的「抽象税」

LangChain 的问题在 2025 年集中爆发。核心矛盾是——框架的抽象层级远超它所管理的复杂度

一个用 OpenAI SDK 10 行代码就能完成的翻译任务,在 LangChain 里需要定义 Chain、配 Parser、设 Template、挂 Callback,最后写出 50 行代码,而且一旦出错,报错信息指向框架内部的某个你看不懂的中间层。

生产环境的问题更加致命:

LangChain 生产环境常见投诉:
├── 响应延迟 8-23 秒(框架序列化/反序列化开销)
├── 错误堆栈指向框架内部,无法定位业务逻辑问题
├── 版本升级频繁破坏 API,迁移成本高
├── 120+ 数据源集成的依赖 bloat
└── 链式调用的隐式状态导致不可预期的 Token 泄漏

LangChain 在 Notebook 里跑 Demo 很漂亮,但放到生产环境就变成了调试的噩梦。不止一个团队在博客中记录了「用 LangChain 原型验证通过,然后花 3 倍时间用原生 SDK 重写」的故事。

"LangChain 让我们的 AI 应用变慢了。我们删掉了它,重写了一遍。" —— Stackademic, 2026.01

2.4 编排框架的根本矛盾

把 RAG + LangChain 的问题抽象一层,你会看到一个更本质的矛盾:

旧范式假设「模型是傻的,需要开发者用代码告诉它每一步该干什么」。

所以你需要:

  • 手动设计检索策略(因为模型不知道该找什么)
  • 手动编排工作流(因为模型不知道该按什么顺序做)
  • 手动管理上下文(因为模型不知道该记什么忘什么)
  • 手动处理异常(因为模型不知道失败了该怎么恢复)

但 2025-2026 年发生的事情是——模型变聪明了,而且聪明得足够快


第三章:新范式——当模型成为编排器

3.1 Tool Use:编排权从开发者转移到模型

2025 年是 Tool Use 爆发的一年。以 Claude 为代表的新一代模型展现出了惊人的工具使用能力:你不用告诉它「先搜索再总结」,你只需要告诉它「这里有一个搜索工具和一个总结工具」,它自己决定什么时候调、怎么调、调几次。

旧范式(开发者编排):
开发者写代码定义:Step1 → 检索 → Step2 → 重排 → Step3 → 生成 → Step4 → 校验

新范式(模型编排):
开发者声明工具集 → 模型根据用户意图自主决策调用链路 → 持续循环直到任务完成

这就是从**编排(Orchestration)路由(Routing)**的范式转变。开发者的角色从「写工作流」变成了「提供工具并定义权限边界」。

3.2 MCP:AI 时代的 USB-C

2025 年 12 月,Anthropic 将 MCP(Model Context Protocol)捐赠给 Linux 基金会的 Agentic AI Foundation,MCP 正式成为行业标准。截至 2026 年 2 月,MCP 的 SDK 月下载量已达 9700 万次,OpenAI、Google、Microsoft、Amazon 全部接入。

MCP 解决的是工具集成的标准化问题。在 MCP 之前,每个 AI 提供商有自己的工具接入方式:OpenAI 的 Function Calling、Anthropic 的 Tool Use、Google 的 Function Declaration——开发者每换一个模型就要重写一次集成。

MCP 的架构非常清晰:

┌─────────────┐     MCP 协议      ┌──────────────┐
│  AI 模型     │ ◄──────────────► │  MCP Server   │
│ (任何厂商)   │   (标准化接口)    │ (工具/数据源)  │
└─────────────┘                   └──────────────┘
                                        │
                              ┌─────────┼─────────┐
                              │         │         │
                           数据库    API 服务   文件系统

MCP 提供三种传输层:Stdio(本地进程间通信)、Streamable HTTP(生产标准)、SSE(遗留兼容),支持工具动态发现、实时更新、参数 Schema 约束(有效减少幻觉)、审计日志等企业级能力。

MCP 最大的意义不在于协议本身,而在于它宣告了一个事实:AI 应用的核心不再是「编排模型」,而是「连接工具」。

3.3 AI CLI 工具:从 Copilot 到 Agent

2025-2026 年涌现出的 AI CLI 开源工具群——Claude Code、Cursor、Aider、Continue、OpenCode、Gemini CLI——代表了一个全新的开发范式:

AI 不再是你的「副驾驶」(Copilot),而是「自主驾驶员」(Agent)。

以 Claude Code 为例,它的架构设计完美体现了「工具集成 + 路由」的新范式:

┌─────────────────────────────────────────────┐
│              Claude Code Agent               │
├─────────────────────────────────────────────┤
│                                             │
│  核心循环:                                  │
│  用户意图 → 模型推理 → 工具调用 → 结果反馈    │
│       ↑                         │           │
│       └─────────────────────────┘           │
│                                             │
│  工具集:                                    │
│  ├── 文件读写(Read / Write / Edit)         │
│  ├── 终端执行(Shell / Bash)                │
│  ├── 代码搜索(Grep / Glob / Semantic)      │
│  ├── 浏览器操作(Browser MCP)               │
│  ├── Git 操作(Git CLI)                     │
│  └── 自定义 MCP Server(无限扩展)            │
│                                             │
│  关键特征:                                  │
│  模型从不直接执行任何操作                      │
│  它只「请求」工具调用,由 Harness 决定是否执行  │
└─────────────────────────────────────────────┘

注意这里的架构哲学:没有 Chain,没有 DAG,没有预定义的工作流。模型基于当前上下文和用户意图,动态决策下一步调用什么工具。每次工具返回结果后,模型重新评估局势,决定继续、转向、还是完成。

这就是「模型即编排器」的最纯粹形态。开发者的工作从「写编排逻辑」变成了:

  1. 定义工具集——给模型提供什么能力
  2. 设置权限边界——模型能做什么、不能做什么
  3. 优化 System Prompt——告诉模型它的角色和约束
  4. 管理上下文策略——什么信息该保留,什么该丢弃

3.4 从编排复杂性到工具复杂性

这不意味着复杂性消失了——它转移了。

维度旧范式(LangChain 编排)新范式(Tool Use 路由)
复杂性所在工作流定义与维护工具设计与集成
调试难点链式调用的隐式状态工具返回值的质量控制
核心能力DAG 设计、状态管理API/MCP 封装、权限管理
扩展方式写新的 Chain / Graph注册新的 Tool / MCP Server
失败模式框架内部异常,难以定位工具调用失败,日志清晰

第四章:生态位重组——谁该用在哪

4.1 技术栈生态位全景图

                    控制精度
                      ↑
                      │
        LangGraph ●   │
                      │       ● 自研编排引擎
                      │
    LangChain ●       │
                      │
                      │           ● MCP + Tool Use
                      │
        RAG ●         │       ● AI CLI Agent
                      │
                      │
    ──────────────────┼──────────────────→ 开发效率
                      │

4.2 各技术的真实生态位

RAG:从「通用方案」降级为「特定场景组件」

RAG 没有死,但它的定位已经从「AI 应用的标准架构」变成了「特定场景下的检索组件」。

RAG 仍然适合的场景:

  • 海量文档库(超过模型上下文窗口的知识体量)
  • 需要精确溯源(法律、合规、审计场景)
  • 数据高频更新(模型训练跟不上的实时性需求)

RAG 不再适合的场景:

  • 中小规模知识库(直接塞进上下文窗口)
  • 对话式问答(模型原生能力已经足够好)
  • 需要复杂推理的场景(检索拼接的碎片化上下文反而干扰推理)

LangChain / LangGraph:从「必选项」变为「可选项」

LangChain 的价值回归到两个特定场景:

  1. 快速原型验证:当你需要在 1 天内验证一个 AI 应用 idea,LangChain 的组件化确实能加速 PoC
  2. 复杂确定性流程:当你的业务流程有严格的步骤依赖、分支条件、错误恢复策略——这类场景需要显式的图编排,LangGraph 比「全交给模型」更可控

但对于大多数 AI 应用来说——如果你的场景可以用一句话描述给模型,你不需要 LangChain

MCP + Tool Use:新的默认选择

对于 2026 年开始新建的 AI 应用,MCP + Tool Use 正在成为默认架构:

  • 开发成本低:定义工具 Schema,写工具实现函数,完成
  • 可维护性强:每个工具独立,新增/删除工具不影响其他部分
  • 可观测性好:每次工具调用都有清晰的输入/输出日志
  • 跨平台兼容:一个 MCP Server 同时服务 Claude、GPT、Gemini

AI CLI 开源生态:开发者的新生产力工具

Claude Code、Cursor、Aider 这类工具不是在和 LangChain 竞争——它们代表的是一种全新的人机协作模式。它们的意义在于验证了一个架构理念:

大模型 + 工具集 + 循环反馈 = 强大的自主 Agent,不需要框架层的编排

4.3 选型决策树

你在 2026 年要构建一个 AI 应用
│
├─ 你的核心需求是「知识问答」?
│  ├─ 知识体量 < 200K Token?
│  │  └─ 直接塞进上下文,不需要 RAG
│  ├─ 知识体量 > 200K Token 且需要溯源?
│  │  └─ RAG + 向量数据库(经典方案)
│  └─ 知识高频更新 + 需要精确搜索?
│     └─ RAG + 混合检索(向量 + 关键词 + 图谱)
│
├─ 你的核心需求是「任务自动化」?
│  ├─ 流程固定、步骤确定、需要严格合规?
│  │  └─ LangGraph / 自研状态机
│  ├─ 流程灵活、目标驱动、容忍探索性行为?
│  │  └─ MCP + Tool Use(模型自主编排)
│  └─ 纯开发领域(代码生成/修改/审查)?
│     └─ AI CLI 工具(Claude Code / Cursor / Aider)
│
└─ 你的核心需求是「多 Agent 协作」?
   ├─ 需要严格的分工和通信协议?
   │  └─ CrewAI / LangGraph + A2A 协议
   └─ 需要灵活的子任务委派?
      └─ 模型原生的 Sub-Agent 模式(Claude Code 的 Task 工具)

第五章:趋势判断——未来 12 个月会发生什么

5.1 确定性趋势

1. MCP 成为基础设施层

MCP 已经被捐给 Linux 基金会,五大模型厂商全部接入,1000+ MCP Server 已上线。这不是「火不火」的问题,而是「什么时候变成 HTTP 级别的基础设施」的问题。未来 12 个月,MCP 会从「AI 圈的热门话题」变成「API 开发的标配」。

2. 编排框架向「高价值场景」收缩

LangChain/LangGraph 不会消亡,但会从「通用 AI 应用框架」收缩为「复杂流程编排专用工具」——类似于 Apache Airflow 在数据工程领域的定位。大多数简单到中等复杂度的 AI 应用不再需要它们。

3. RAG 从「架构」降级为「技术手段」

RAG 未来的存在形式会类似于「数据库索引」——你知道它在那里,在需要的时候使用,但它不再是你架构设计的中心。更多场景会被长上下文 + 实时搜索工具组合替代。

5.2 值得关注的演化方向

1. A2A(Agent-to-Agent Protocol)+ MCP 的协议栈融合

MCP 解决的是「Agent 到工具」的连接,Google 提出的 A2A 协议解决的是「Agent 到 Agent」的连接。两者互补而非竞争,2026 年下半年可能出现统一的 Agent 通信协议栈。

2. 模型原生的 Agent 能力持续进化

从 Claude 3.5 到 Claude 4 系列,模型的 Tool Use 可靠性和多步推理能力在快速提升。模型越强,对外部编排框架的依赖越低。这是一个不可逆的趋势。

3. 「工具工程师」成为新角色

当编排交给模型、检索交给工具之后,AI 应用开发的核心能力变成了:如何设计好用的工具 Schema、如何管理工具权限、如何优化工具返回值的结构化质量。「Tool Engineering」可能会成为一个独立的工程子领域。

5.3 一张表总结

维度RAGLangChain/LangGraphMCP + Tool UseAI CLI Agent
核心理念检索增强生成框架化编排标准化工具集成模型自主驾驶
诞生年代2020(论文)/ 2023(爆发)2022(发布)/ 2024(巅峰)2024(发布)/ 2025(标准化)2025(爆发)
解决的问题LLM 缺乏外部知识AI 应用缺乏开发范式工具集成缺乏标准开发者缺乏 AI Agent
2026 生态位特定场景组件复杂流程编排工具AI 应用默认基础设施开发者生产力工具
学习曲线中(需理解 Embedding/检索)高(框架抽象层级多)低(定义 Schema 即可)极低(自然语言交互)
生产可维护性中(调参玄学)低(调试困难)高(工具独立解耦)中(依赖模型能力)
未来 12 个月稳定但收缩活跃但利基化快速增长为基础设施爆发式增长

第六章:给不同角色的建议

给技术负责人

如果你在 2026 年启动一个新的 AI 项目,默认方案应该是 MCP + Tool Use,除非你有明确的理由需要 RAG 或编排框架。RAG 和 LangGraph 应该作为「按需引入的组件」而非「架构出发点」。

给 AI 应用开发者

停止在 LangChain 的抽象层里打转。花时间学习三件事:

  1. MCP Server 的开发——这是 2026 年最有价值的 AI 工程技能
  2. Tool Schema 设计——好的工具描述直接决定模型能不能正确调用
  3. Prompt Engineering for Agents——从单轮对话的 Prompt 升级到 Agent 场景的 System Prompt

给正在维护 RAG 系统的团队

不要急着推翻重来,但要开始规划迁移路径:

  1. 评估哪些场景可以用长上下文 + 搜索工具替代 RAG
  2. 将 RAG 系统中的检索能力封装为 MCP Tool,为未来架构迁移做准备
  3. 关注模型上下文窗口和推理能力的提升,定期重新评估 RAG 的 ROI

结语:技术选型的底层逻辑

每一次技术范式的更迭,本质上都是复杂性的重新分配

RAG 时代,复杂性在「检索策略」里。LangChain 时代,复杂性在「编排逻辑」里。Tool Use 时代,复杂性在「工具设计」里。

没有一种技术是万能的,但理解复杂性的迁移方向,就能做出更好的选型决策。

2026 年的 AI 应用开发,核心心法只有一句:

不要教模型怎么走路——给它一双好鞋,告诉它去哪。


作者注:本文基于截至 2026 年 3 月的技术现状撰写。AI 领域变化极快,文中的趋势判断存在时效性,建议读者结合最新发展动态做出独立判断。