零基础入门 | AI Agent 框架是怎样的？有哪些部分？年初火到现在、热度一直没降的OpenClaw，给AI Age

年初火到现在、热度一直没降的OpenClaw，给AI Agent打开了更大的想象空间。如果说2025是AI Agent智能体元年，那2026大概率就是AI Agent真正走向商用化的起点；而AI Agent要想商用落地，前提就是先在各行各业的真实业务场景里跑起来。

作为程序员/工程师，我们平时想得更多的，是怎么把AI Agent真正做出来、用起来。工程框架是做落地应用的基础，选对框架，也是架构师设计和实现AI Agent智能体时最先要搞定的事。

Agent = Reasoning + Acting

1.1 AI Agent 框架基础理论

AI 智能体是使用 AI 来实现目标并代表用户完成任务的软件系统。其表现出了推理、规划和记忆能力，并且具有一定的自主性，能够自主学习、适应和做出决定。 ——Google Cloud

关于AI Agent这里引用了Google Cloud的定义，言简意赅。

1）ReAct 模式

在当下AI Agent的相关理论里，ReAct模式算得上是最基础、也最具代表性的一种。它是由Yao等人在2022年发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出的，核心思路就是把推理（Reasoning）和行动（Acting）结合到一起。

我们都知道，CoT主要是提升大语言模型LLM的推理能力，但它有个明显短板：没办法和外部世界交互，也就得不到外部反馈，没法进一步拓展自己的知识空间。而ReAct正好补上了这个不足。

ReAct智能体的工作原理，其实是一套循环迭代、不断更新的流程，主要分为这三步：

推理（Reasoning）

依托大语言模型LLM，对当前任务状态做分析，形成内部推理逻辑，再确定下一步该做什么。

核心思路就是大家常说的 CoT（Chain of Thought，思维链）。

执行（Acting）

按照上一步推理出来的结论，去完成具体操作。

比如查询信息、调用外部工具（Function Tool、MCP、Shell 命令、代码执行等），具体要依赖宿主机的执行环境和实际应用场景。

观察（Observation）

查看上一步操作的结果，把得到的反馈用在下一轮思考里；如果判断已经得到最终答案，就直接整理并输出结果。

2）Plan-and-Execute 模式

在2023年5月的时候，Langchain团队参考了Lei Wang等人发表的《Plan-and-Solve Prompting》论文，还有开源的BabyAGI Agent项目，提出了Plan-and-Execute 模式。其中《Plan-and-Solve Prompting》的核心思路很简单，就是让LLM先把完整的分步计划制定好，再一步一步去执行，而不是像ReAct那样，边想边做、走一步看一步。

再说说BabyAGI项目，它是第一个火起来的任务驱动型自主Agent，简单说就是实现了“生成任务列表→去执行→根据执行情况再规划”这样一个循环流程。

Plan-and_Execute模式的核心就是先定好多步计划，再逐步落地，属于那种有固定结构的工作流程，具体就是规划→任务1→任务2→任务3→总结，比较适合那种比较复杂、而且各个任务之间关联明确的长期任务。不过它也有缺点，就是太偏向固定的工作流程，缺乏灵活调整的能力。

3）Reflection 模式

最早系统地提出在Agent里加入反思这个概念的，是Noah Shinn、Shunyu Yao（没错，就是ReAct的作者）等人的《Reflexion: Language Agents with Verbal Reinforcement Learning》论文。这篇论文里提出了Reflexion框架，核心就是不用更新权重，而是靠语言反馈来强化语言Agent。简单说就是Agent会对任务的反馈信号进行口头反思，然后把自己的反思内容存在情节记忆缓冲区里，方便后续做决策的时候参考，做得更好。

除此之外，Aman Madaan等人受到人类修改文本的方式启发，在《Self-Refine: Iterative Refinement with Self-Feedback》论文里，提出了一种叫Self-Refine的方法。这种方法就是通过反复的反馈和改进，来提升LLM的初始输出。先让LLM给出一个输出结果，然后根据这个结果给出反馈，再反复优化。而且根据测试，在所有评估的任务里，Self-Refine方法平均能让任务性能提升大概20%。

还有清华大学和微软联合发布的《CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing》论文，这种方法是结合外部工具（比如搜索引擎、代码执行器）来验证LLM的输出结果，再根据验证的情况进行自我修正。

这些里程碑式的论文，都是Reflection模式的理论基础。现在主流的Agent框架虽然有各种不同的演绎和变形，但都是在ReAct提出之后发展出来的扩展和补充，Agent的核心实践还是离不开ReAct的核心逻辑——把推理和执行结合起来。

1.2 主流 AI Agent 框架对比

目前市面上主流的AI Agent框架主要有这些，各有各的专长：

LangChain

目前最成熟、使用最广的框架之一，工具链和集成能力非常丰富，能帮你快速搭建复杂的AI应用。

支持各类大模型、向量数据库和工具调用，文档齐全，社区生态也很成熟。

LlamaIndex

主打数据索引和检索，在RAG（检索增强生成）场景里表现尤其突出。

文档处理、查询效率很高，适合做知识密集型的AI应用。

AutoGPT/AutoGen

微软推出的多Agent协作框架，支持多个智能体之间互相沟通、配合工作。

能把复杂任务拆解执行，处理更大型、更复杂的任务。

CrewAI

专注做“角色扮演型”Agent协作，每个智能体都有清晰的角色和目标。

非常适合模拟真实团队协作的业务场景。

LangGraph

由LangChain团队开发的状态图框架，能实现更精细的流程控制。

适合开发逻辑复杂、需要严格状态管理的Agent应用。

Semantic Kernel

微软推出的轻量级框架，和Azure服务兼容性极好，支持多种编程语言，主打插件化设计。

怎么选？直接看建议

想快速做出Agent原型：优先选 LangChain
做 RAG检索增强类应用：强烈推荐 LlamaIndex
业务是多Agent协同工作：选 AutoGen 或 CrewAI，天生就是为多智能体协作设计的
需要复杂流程控制：用 LangGraph，通用性强，基于状态管理的工作流更灵活
工作环境是 .NET 生态：搭配 Semantic Kernel最合适

另外，随着Anthropic的Claude Cowork这类通用Agent火起来，现在很多基于通用Code Agent SDK开发的套壳Agent也开始流行起来。

比如CodeBuddy团队就用自家CodeBuddy Agent SDK做出了WorkBuddy这类应用。

这类Agent的核心亮点是：能针对不同用户场景，提供更友好的交互设计和更贴合实际的工作流解决方案。

1.3 AI Agent 框架核心

说起Agent应用的发展与落地，有一款产品绝对绕不开——AI初创公司Monica推出的C端产品Manus。它的一夜爆火，直接把Agent从技术圈推向了普通大众视野。

在人机交互上，Manus第一次模糊画出了Agent应用的交互雏形。这就像当年键盘鼠标的诞生、第一代iPhone的发布，回头看都是划时代的变革。

在工程实践上，Manus更是走在了行业前面：

当年MCP技术大火时，Manus首席科学家Peak直接在社交平台表态：Actually, Manus doesn't use MCP。

短短4个月后（2025年7月），Manus官方工程博客发布《AI Agent的上下文工程：构建Manus的经验教训》，公开了关键技术路线：放弃微调（Fine-tuning），专注在通用大模型基础上深耕上下文工程（Context Engineering），其中最核心的一条经验就是：用文件系统做上下文。

仅仅过了3个月，2025年10月Anthropic推出Claude Skills，“用文件系统作为上下文”的思路直接火遍整个行业，成为公认的主流方向。

而那句Actually, Manus doesn't use MCP其实还有后半句：inspired by CodeAct。

CodeAct是一套经典的Agent设计架构，源自UIUC王星尧博士2024年初的论文《Executable Code Actions Elicit Better LLM Agents》。它的核心观点很简单：让LLM Agent生成可执行Python代码，统一行动空间。

这意味着Agent不只靠Function Call、MCP完成任务，直接写代码执行，效果反而更好。

到了2025年11月，Anthropic官方博客也发文《Code execution with MCP: Building more efficient agents》，提出把MCP服务器当成代码API，让Agent自己写代码与之交互，实现按需加载、更高效利用上下文。这和CodeAct的思路完全一致，也印证了Shunyu Yao的那句名言：人类最重要的能力是手，AI最重要的能力可能是代码。

从Manus的发展轨迹，我们能清晰总结出当下Agent工程的两大行业共识：

\1. 用文件系统做上下文：用文件存储Agent长期记忆，比如OpenClaw的SOUL.md/TOOLS.md/MEMORY.md等方案，已成标配。

\2. 编程是通用解题方案：AI最擅长用代码解决问题——提出问题→生成代码→执行代码→循环迭代→直到解决问题。

如今主流Agent框架，已经从传统ReAct模式，慢慢融合进CodeAct模式，但推理+执行的核心逻辑始终没变。

在工程层面来说，推理本质就是LLM Call，执行本质则是Tools Call（代码可认为是Tools的一种），而连接这二者的上下文工程（Context Engineering）则是Agent框架的核心。