从 RAG 到 Skill：AI Agent 架构演进的技术本质与工程实践引言：范式转移正在发生 2024-2025 年

当 LLM 的 Context Window 突破 200K，当 Skill/Tool 成为 Agent 开发的主流范式，我们需要重新理解 AI Agent 的架构设计哲学。

引言：范式转移正在发生

2024-2025 年，如果你在学习 AI Agent 开发，RAG（检索增强生成）几乎是绕不开的话题。向量数据库、Embedding 模型、文档切片策略、相似度阈值调优……这些概念构成了当时 Agent 开发的知识体系。

但进入 2026 年，情况发生了根本性变化。

打开 Claude Code、OpenClaw、Cursor 等主流 Agent 开发平台的文档，你会发现 RAG 的出现频率越来越低。取而代之的是一套全新的词汇体系：Skills、Tools、MCP、Memory、Context Files、Cron、Channels。

这不是简单的技术替换，而是 AI Agent 架构范式的深层演进。本文将从技术本质出发，解析这场范式转移背后的逻辑，并给出工程实践建议。

一、RAG 的兴起与局限：一个历史视角

1.1 RAG 解决了什么问题？

RAG 诞生的背景是早期 LLM 的两个核心局限：

局限一：Context Window 太小

GPT-3 时代：4K tokens
早期 GPT-4：8K tokens
问题：无法容纳完整的知识库，必须先筛选再输入

局限二：知识截止与幻觉

模型训练数据有明确截止日期
无法获取实时信息
容易产生事实性幻觉

RAG 的核心逻辑是：先用向量检索从大规模知识库中筛选出最相关的片段，再将这些片段作为上下文喂给 LLM。

1.2 RAG 的技术栈复杂度

一个完整的 RAG Pipeline 包含：

文档加载 → 文本分割 → Embedding → 向量存储 → 相似度检索 → 重排序 → 上下文组装 → LLM 生成

涉及的技术组件：

向量数据库（Pinecone、Weaviate、Chroma、Milvus）
Embedding 模型（OpenAI text-embedding、BGE、M3E）
文档处理（PDF 解析、HTML 清洗、分块策略）
检索优化（相似度算法、重排序模型、查询扩展）

工程成本：

搭建周期：1-2 天
维护成本：文档更新需重新 Embedding
运营成本：向量存储 + API 调用费用

1.3 RAG 的隐性成本

除了显性的技术复杂度，RAG 还有三个隐性成本：

信息损失：文档切片破坏了知识的完整性和上下文关联 延迟增加：检索环节增加了响应时间 调试困难：检索质量直接影响生成质量，问题定位复杂

二、Skill/Tool 范式：更简单，更强大

2.1 什么是 Skill/Tool？

Tool（工具）：LLM 可以调用的外部功能，通常是一个函数或 API 调用。

Skill（技能）：更高层次的抽象，是一组相关工具的集合，加上使用说明和上下文。

示例：一个 "代码审查" Skill 可能包含：

读取文件工具
静态分析工具
代码对比工具
使用说明（何时使用、输入输出格式、注意事项）

2.2 Skill/Tool 的核心优势

优势一：传播成本极低

一个 Skill 文件就是一段 Markdown 或 JSON：

# Skill: Code Review

## 描述
对代码变更进行审查，检查潜在问题

## 使用场景
- 提交代码前自检
- Code Review 辅助
- 学习优秀代码实践

## 工具
- read_file: 读取代码文件
- run_linter: 运行静态检查
- diff_files: 对比文件差异

## 示例
输入: /review src/auth.js
输出: 审查报告...

通过 GitHub 分享，别人下载即可使用，零配置。

优势二：效果直观可预期

Tool 的执行结果是确定的：

调用 web_search，返回搜索结果
调用 read_file，返回文件内容
调用 run_code，返回执行输出

没有 RAG 中"检索是否准确"的不确定性。

优势三：与 LLM 能力自然契合

现代 LLM（GPT-4、Claude 3.5+、GLM-5.1）具备：

128K-200K+ Context Window
强大的长文本理解能力
优秀的指令遵循能力

这让"直接处理完整信息"比"先检索再处理"更可靠。

2.3 技术对比：RAG vs Skill/Tool

维度	RAG	Skill/Tool
核心逻辑	先检索，再生成	直接调用，确定执行
复杂度	高（多组件 Pipeline）	低（函数/API 调用）
延迟	较高（检索耗时）	低（直接调用）
可解释性	低（黑盒检索）	高（明确输入输出）
维护成本	高（需维护向量库）	低（工具接口稳定）
适用场景	大规模知识库查询	任务执行、工具调用
传播性	低（配置复杂）	高（文件分享即可）

三、架构演进的底层逻辑

3.1 LLM 能力的摩尔定律

LLM 能力的提升速度远超预期：

Context Window 增长：

2023：4K-8K
2024：32K-128K
2025-2026：200K-1M

能力边界扩展：

从"文本生成"到"复杂推理"
从"单轮对话"到"长程上下文理解"
从"静态知识"到"工具使用学习"

3.2 技术栈的简化趋势

当底层基础设施足够强大时，中间层会被自然简化：

2019: 传统 NLP Pipeline（分词→词性标注→句法分析→语义理解）
2023: LLM 统一了 NLP 任务

2023: RAG Pipeline（复杂的多阶段检索）
2026: Skill/Tool 直接调用（LLM 原生能力足够强大）

这不是 RAG 技术本身的问题，而是技术栈自然演进的结果。

3.3 工程哲学的转变

从"预处理思维"到"原生能力思维"：

旧思维：数据必须预处理（切片、Embedding、索引）才能被使用
新思维：LLM 可以直接处理原始数据，预处理是可选优化而非必需

从"检索增强"到"能力扩展"：

旧范式：RAG 增强 LLM 的知识获取能力
新范式：Tool/Skill 扩展 LLM 的行动能力

四、工程实践：如何设计有效的 Skill

4.1 Skill 设计原则

原则一：单一职责

一个 Skill 只做一件事，做好一件事。

❌ 不好的设计：一个 Skill 既做代码审查又做文档生成
✅ 好的设计：CodeReview Skill + DocGen Skill

原则二：明确边界

清晰定义 Skill 的：

输入格式
输出格式
适用场景
限制条件

原则三：可组合性

Skill 应该可以像乐高积木一样组合：

需求分析 Skill → 架构设计 Skill → 代码实现 Skill → 测试验证 Skill

4.2 Skill 文件结构建议

# Skill: [名称]

## 元信息
- 版本: 1.0.0
- 作者: [作者]
- 更新日期: 2026-04-26

## 功能描述
[一句话描述核心功能]

## 使用场景
- [场景1]
- [场景2]

## 工具清单
| 工具名 | 功能 | 必需/可选 |
|-------|------|----------|
| tool1 | 功能1 | 必需 |
| tool2 | 功能2 | 可选 |

## 使用示例
### 示例1: [场景]
输入: [具体输入]
输出: [预期输出]

## 注意事项
- [注意点1]
- [注意点2]

## 相关 Skill
- [相关Skill1]: [说明]
- [相关Skill2]: [说明]

4.3 Skill 生态系统

观察当前主流平台的 Skill 生态：

Claude Code Skills:

代码相关：review、refactor、debug、test
文件操作：organize、search、analyze
项目管理：plan、track、document

OpenClaw Skills:

自动化：cron、webhook、workflow
集成：slack、discord、telegram
开发：git、docker、deploy

Cursor Skills:

代码生成：component、api、test
代码理解：explain、diagram、flow

五、RAG 的退场与重生

5.1 RAG 并未消失

虽然 RAG 不再是"必学技能"，但在特定场景仍有不可替代的价值：

场景一：超大规模知识库

当知识库规模超过 LLM Context Window（如企业级文档系统、法律案例库）：

需要预筛选缩小范围
RAG 的检索环节仍有必要

场景二：精确匹配需求

需要精确检索特定条款、代码片段、数据记录时：

Embedding 的语义匹配 + 关键词过滤
比 LLM 直接扫描更可靠

场景三：成本敏感场景

当频繁处理大量长文档时：

RAG 先筛选再调用 LLM
比直接喂完整文档更经济

5.2 RAG 的新定位

RAG 正在从"通用方案"转变为"特定优化手段"：

2024: RAG 是 Agent 开发的必修课
2026: RAG 是工具箱中的一个可选工具

对于开发者：

了解 RAG 原理仍有价值
但不必作为入门门槛
按需使用，而非标配

六、未来展望：Agent 架构的下一个阶段

6.1 短期趋势（6-12个月）

MCP 协议的普及

Model Context Protocol（模型上下文协议）正在成为 Skill/Tool 的标准接口：

统一的工具调用规范
跨平台 Skill 互操作
降低生态碎片化

Skill Marketplace 的成熟

类似 VS Code Extension 的 Skill 市场：

官方 curated 高质量 Skill
社区贡献的多样化 Skill
一键安装，即装即用

6.2 中期展望（1-2年）

Multi-Agent 协作

从单个 Agent 到多 Agent 协作系统：

不同 Skill 的 Agent 分工协作
类似微服务架构的 Agent 编排
需要新的协调协议和通信机制

Agent 自主进化

Agent 能够：

自主学习新 Skill
根据反馈优化行为
形成个性化的工作流

6.3 对开发者的建议

技能栈调整：

减少投入：
- 向量数据库深度调优
- Embedding 模型选型
- 复杂 RAG Pipeline 搭建

增加投入：
- Skill/Tool 设计能力
- LLM 提示工程
- 多 Agent 协作架构

学习路径：

掌握基础：LLM 原理、API 使用、Prompt Engineering
实践 Skill：从简单工具开始，逐步构建复杂 Skill
理解架构：Multi-Agent 系统、MCP 协议、协调机制
关注生态：主流平台的 Skill 市场、社区最佳实践

结语：拥抱范式转移

从 RAG 到 Skill/Tool 的演进，不是技术的倒退，而是 AI Agent 架构的成熟化。

当底层基础设施（LLM）足够强大时，简单的方案往往比复杂的方案更可靠。Skill/Tool 范式的兴起，正是这种"简单即美"哲学在 AI 工程领域的体现。

对于开发者而言，这意味着：

更低的入门门槛
更高的开发效率
更好的可维护性

技术永远在演进，保持开放心态，拥抱范式转移，才能在这场 AI 革命中持续创造价值。

参考与延伸阅读：

Anthropic: Model Context Protocol Specification
OpenClaw: Skill Development Guide
Claude Code: Official Skills Documentation
掘金社区相关技术文章

本文基于 2026 年 4 月的技术现状撰写，AI 领域发展迅速，建议读者关注最新动态。