年初火到现在、热度一直没降的OpenClaw,给AI Agent打开了更大的想象空间。如果说2025是AI Agent智能体元年,那2026大概率就是AI Agent真正走向商用化的起点;而AI Agent要想商用落地,前提就是先在各行各业的真实业务场景里跑起来。
作为程序员/工程师,我们平时想得更多的,是怎么把AI Agent真正做出来、用起来。工程框架是做落地应用的基础,选对框架,也是架构师设计和实现AI Agent智能体时最先要搞定的事。
Agent = Reasoning + Acting
1.1 AI Agent 框架基础理论
AI 智能体是使用 AI 来实现目标并代表用户完成任务的软件系统。其表现出了推理、规划和记忆能力,并且具有一定的自主性,能够自主学习、适应和做出决定。 ——Google Cloud
关于AI Agent这里引用了Google Cloud的定义,言简意赅。
1)ReAct 模式
在当下AI Agent的相关理论里,ReAct模式算得上是最基础、也最具代表性的一种。它是由Yao等人在2022年发表的论文《ReAct: Synergizing Reasoning and Acting in Language Models》中提出的,核心思路就是把推理(Reasoning)和行动(Acting)结合到一起。
我们都知道,CoT主要是提升大语言模型LLM的推理能力,但它有个明显短板:没办法和外部世界交互,也就得不到外部反馈,没法进一步拓展自己的知识空间。而ReAct正好补上了这个不足。
ReAct智能体的工作原理,其实是一套循环迭代、不断更新的流程,主要分为这三步:
推理(Reasoning)
依托大语言模型LLM,对当前任务状态做分析,形成内部推理逻辑,再确定下一步该做什么。
核心思路就是大家常说的 CoT(Chain of Thought,思维链)。
执行(Acting)
按照上一步推理出来的结论,去完成具体操作。
比如查询信息、调用外部工具(Function Tool、MCP、Shell 命令、代码执行等),具体要依赖宿主机的执行环境和实际应用场景。
观察(Observation)
查看上一步操作的结果,把得到的反馈用在下一轮思考里;如果判断已经得到最终答案,就直接整理并输出结果。
2)Plan-and-Execute 模式
在2023年5月的时候,Langchain团队参考了Lei Wang等人发表的《Plan-and-Solve Prompting》论文,还有开源的BabyAGI Agent项目,提出了Plan-and-Execute 模式。其中《Plan-and-Solve Prompting》的核心思路很简单,就是让LLM先把完整的分步计划制定好,再一步一步去执行,而不是像ReAct那样,边想边做、走一步看一步。
再说说BabyAGI项目,它是第一个火起来的任务驱动型自主Agent,简单说就是实现了“生成任务列表→去执行→根据执行情况再规划”这样一个循环流程。
Plan-and_Execute模式的核心就是先定好多步计划,再逐步落地,属于那种有固定结构的工作流程,具体就是规划→任务1→任务2→任务3→总结,比较适合那种比较复杂、而且各个任务之间关联明确的长期任务。不过它也有缺点,就是太偏向固定的工作流程,缺乏灵活调整的能力。
3)Reflection 模式
最早系统地提出在Agent里加入反思这个概念的,是Noah Shinn、Shunyu Yao(没错,就是ReAct的作者)等人的《Reflexion: Language Agents with Verbal Reinforcement Learning》论文。这篇论文里提出了Reflexion框架,核心就是不用更新权重,而是靠语言反馈来强化语言Agent。简单说就是Agent会对任务的反馈信号进行口头反思,然后把自己的反思内容存在情节记忆缓冲区里,方便后续做决策的时候参考,做得更好。
除此之外,Aman Madaan等人受到人类修改文本的方式启发,在《Self-Refine: Iterative Refinement with Self-Feedback》论文里,提出了一种叫Self-Refine的方法。这种方法就是通过反复的反馈和改进,来提升LLM的初始输出。先让LLM给出一个输出结果,然后根据这个结果给出反馈,再反复优化。而且根据测试,在所有评估的任务里,Self-Refine方法平均能让任务性能提升大概20%。
还有清华大学和微软联合发布的《CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing》论文,这种方法是结合外部工具(比如搜索引擎、代码执行器)来验证LLM的输出结果,再根据验证的情况进行自我修正。
这些里程碑式的论文,都是Reflection模式的理论基础。现在主流的Agent框架虽然有各种不同的演绎和变形,但都是在ReAct提出之后发展出来的扩展和补充,Agent的核心实践还是离不开ReAct的核心逻辑——把推理和执行结合起来。
1.2 主流 AI Agent 框架对比
目前市面上主流的AI Agent框架主要有这些,各有各的专长:
LangChain
目前最成熟、使用最广的框架之一,工具链和集成能力非常丰富,能帮你快速搭建复杂的AI应用。
支持各类大模型、向量数据库和工具调用,文档齐全,社区生态也很成熟。
LlamaIndex
主打数据索引和检索,在RAG(检索增强生成)场景里表现尤其突出。
文档处理、查询效率很高,适合做知识密集型的AI应用。
AutoGPT/AutoGen
微软推出的多Agent协作框架,支持多个智能体之间互相沟通、配合工作。
能把复杂任务拆解执行,处理更大型、更复杂的任务。
CrewAI
专注做“角色扮演型”Agent协作,每个智能体都有清晰的角色和目标。
非常适合模拟真实团队协作的业务场景。
LangGraph
由LangChain团队开发的状态图框架,能实现更精细的流程控制。
适合开发逻辑复杂、需要严格状态管理的Agent应用。
Semantic Kernel
微软推出的轻量级框架,和Azure服务兼容性极好,支持多种编程语言,主打插件化设计。
怎么选?直接看建议
- 想快速做出Agent原型:优先选 LangChain
- 做 RAG检索增强类应用:强烈推荐 LlamaIndex
- 业务是多Agent协同工作:选 AutoGen 或 CrewAI,天生就是为多智能体协作设计的
- 需要复杂流程控制:用 LangGraph,通用性强,基于状态管理的工作流更灵活
- 工作环境是 .NET 生态:搭配 Semantic Kernel最合适
另外,随着Anthropic的Claude Cowork这类通用Agent火起来,现在很多基于通用Code Agent SDK开发的套壳Agent也开始流行起来。
比如CodeBuddy团队就用自家CodeBuddy Agent SDK做出了WorkBuddy这类应用。
这类Agent的核心亮点是:能针对不同用户场景,提供更友好的交互设计和更贴合实际的工作流解决方案。
1.3 AI Agent 框架核心
说起Agent应用的发展与落地,有一款产品绝对绕不开——AI初创公司Monica推出的C端产品Manus。它的一夜爆火,直接把Agent从技术圈推向了普通大众视野。
在人机交互上,Manus第一次模糊画出了Agent应用的交互雏形。这就像当年键盘鼠标的诞生、第一代iPhone的发布,回头看都是划时代的变革。
在工程实践上,Manus更是走在了行业前面:
当年MCP技术大火时,Manus首席科学家Peak直接在社交平台表态:Actually, Manus doesn't use MCP。
短短4个月后(2025年7月),Manus官方工程博客发布《AI Agent的上下文工程:构建Manus的经验教训》,公开了关键技术路线:放弃微调(Fine-tuning),专注在通用大模型基础上深耕上下文工程(Context Engineering),其中最核心的一条经验就是:用文件系统做上下文。
仅仅过了3个月,2025年10月Anthropic推出Claude Skills,“用文件系统作为上下文”的思路直接火遍整个行业,成为公认的主流方向。
而那句Actually, Manus doesn't use MCP其实还有后半句:inspired by CodeAct。
CodeAct是一套经典的Agent设计架构,源自UIUC王星尧博士2024年初的论文《Executable Code Actions Elicit Better LLM Agents》。它的核心观点很简单:让LLM Agent生成可执行Python代码,统一行动空间。
这意味着Agent不只靠Function Call、MCP完成任务,直接写代码执行,效果反而更好。
到了2025年11月,Anthropic官方博客也发文《Code execution with MCP: Building more efficient agents》,提出把MCP服务器当成代码API,让Agent自己写代码与之交互,实现按需加载、更高效利用上下文。这和CodeAct的思路完全一致,也印证了Shunyu Yao的那句名言:人类最重要的能力是手,AI最重要的能力可能是代码。
从Manus的发展轨迹,我们能清晰总结出当下Agent工程的两大行业共识:
\1. 用文件系统做上下文:用文件存储Agent长期记忆,比如OpenClaw的SOUL.md/TOOLS.md/MEMORY.md等方案,已成标配。
\2. 编程是通用解题方案:AI最擅长用代码解决问题——提出问题→生成代码→执行代码→循环迭代→直到解决问题。
如今主流Agent框架,已经从传统ReAct模式,慢慢融合进CodeAct模式,但推理+执行的核心逻辑始终没变。
在工程层面来说,推理本质就是LLM Call,执行本质则是Tools Call(代码可认为是Tools的一种),而连接这二者的上下文工程(Context Engineering)则是Agent框架的核心。