从新认识AI Agent（二）：为什么都在像Agent演进？AI Agent 由哪些组件构成？1、Chatbot 为何都

1、Chatbot 为何都在向 AI Agent 演进，这个过程中，发生了什么？

早期，OpenAI 等基模公司提供的都是 "能说会道" 的 Chatbot，但几乎大家都开始往 "真知实干" 的 AI Agent 演进。两者的区别，我们先来汇总一张基础表格。

LLM Chatbot 本质是概率驱动的文本生成器，通过海量语料的训练掌握语言模式，就像一位博闻强记的图书管理员，能复述书中的知识，却因为缺乏对真实世界的理解和调度能力，难以自主决策和行动。

此后，OpenAI 发布了 Function Call 和 Operator，是技术上向 AI Agent 的探索，而 Devin 和 Manus 则是第一次把 AI Agent 以产品的形态呈现给公众，让大家感受到 AI Agent 到底长什么样，能做些什么。

OpenAI Pro 已经提供深度研究的扩展能力。

QWen 即将推出 MCP 插件。

国产 Chatbot 开源客户端四小龙，Cherry Studio、DeepChat、LobeChat 等，也都正在开发对 MCP 的支持。（Higress 提供了 MCP 市场，支持客户端快速提供 MCP 能力，mcp.higress.ai/）

抽象来讲，能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进，是技术驱动和市场需求的必然。

LLM 能力本身提升了

多工具协作（Tool Use）的成熟

长期记忆和自主性能力发展

规划和推理模块的成熟： 早期 LLM 只能 "回答"，而现在已经可以 "先思考计划"，再执行，更像人类的助理。

用户对效率和自动化的要求更高： 企业、个人用户都希望 AI 可以代替人去做琐碎、复杂的连续任务，而不是每次提问每次回答。

商业模式扩展需求： 仅靠 Chatbot 很难延续收费模式，而基于 Agent 的服务能拓展出 SaaS、B2B 集成、专属 Agent 市场。

竞争环境变化： 几乎所有的一线基模厂商都在发展 AI Agent，以及还有 Manus、AI 编程都在做 AI Agent，预计今年 Q3 会出现很多垂直领域的 AI Agent。

AI Agent 的构成尚无统一的标准。

Anthropic 认为是大模型基于环境反馈去使用工具的一套程序，并区分了 Workflow（LLM 和工具通过预定义代码路径编排）和 Agent（LLM 动态控制流程和工具使用），且多数生产中的 "智能体系统" 是两者的结合。因此他有以下三个核心要素：

模型（Model）： Agent 的 "大脑"，是基座、是引擎。
环境反馈（Context）：定义了模型执行任务时，要用到的信息的总和，包括通过 Tool 拿到的信息、用户输入的信息等等。
工具（Tool）： Agent 的 "手脚"，通过所依赖的外部函数或 API（应用程序接口），与外部系统进行交互，获取信息并执行操作。技术实现方式有 OpenAI 的 Function Calling、Computer Use，以及 Antronic 发起的 MCP 通信协议。Google 发起的 A2A，则是 Agent 和 Agent 之间交互的通信协议。

OpenAI 则是定义为模型、工具和指令，弱化了环境反馈（Context），将其下沉到模型层，使命是让 Agent 产品化，例如 OpenAI 最新发布的 o3 已经内置了很多 tools 的能力。

指令（Instruction）：是指 Agent 的行为准则，有了指令，就能唤醒 Agent。高质量的指令技巧能够减少歧义，提高智能代理的执行效果，而高质量的提示词工程能够提升 Agent 对指令的理解准确度。前者是面向结果，后者是面向过程。如果您对 Instruction 理解依旧不清晰，请参考下方的代码样例。

和 Anthropic 定义的区别是，OpenAI 对外部应用程序的调用和调用效果的优化，即 if/else 的判断，下沉到了模型层，由模型来内化，而非编排层来实现。OpenAI 越来越往上，模型定义一切，Anthropic 越来越往外，生态成就一切。