1、Chatbot 为何都在向 AI Agent 演进,这个过程中,发生了什么?
早期,OpenAI 等基模公司提供的都是 "能说会道" 的 Chatbot,但几乎大家都开始往 "真知实干" 的 AI Agent 演进。两者的区别,我们先来汇总一张基础表格。
从答疑到连接物理世界
LLM Chatbot 本质是概率驱动的文本生成器,通过海量语料的训练掌握语言模式,就像一位博闻强记的图书管理员,能复述书中的知识,却因为缺乏对真实世界的理解和调度能力,难以自主决策和行动。
此后,OpenAI 发布了 Function Call 和 Operator,是技术上向 AI Agent 的探索,而 Devin 和 Manus 则是第一次把 AI Agent 以产品的形态呈现给公众,让大家感受到 AI Agent 到底长什么样,能做些什么。
OpenAI Pro 已经提供深度研究的扩展能力。
QWen 即将推出 MCP 插件。
国产 Chatbot 开源客户端四小龙,Cherry Studio、DeepChat、LobeChat 等,也都正在开发对 MCP 的支持。(Higress 提供了 MCP 市场,支持客户端快速提供 MCP 能力,mcp.higress.ai/)
抽象来讲,能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进,是技术驱动和市场需求的必然。
技术驱动因素
LLM 能力本身提升了
- 部分大语言模型已经可以做复杂推理、链式思考(Chain of Thought),不仅能回答,还能自己拆解问题。
- 单纯的对话,已经无法充分利用大模型的推理和行动潜力。
多工具协作(Tool Use)的成熟
- Agent 可以调用插件、API、浏览器、代码解释器等外部工具,不再只是单一语言生成。
- Chatbot 如果只靠纯语言,很难完成复杂任务(比如订一张机票,需要多步操作)。
长期记忆和自主性能力发展
- 记忆机制让 Agent 能记住用户习惯、历史任务,自动优化策略。
- 自主性支持 Agent 根据反馈调整自身行为,不需要用户的每一步指令。
规划和推理模块的成熟: 早期 LLM 只能 "回答",而现在已经可以 "先思考计划",再执行,更像人类的助理。
市场 / 需求驱动因素
用户对效率和自动化的要求更高: 企业、个人用户都希望 AI 可以代替人去做琐碎、复杂的连续任务,而不是每次提问每次回答。
商业模式扩展需求: 仅靠 Chatbot 很难延续收费模式,而基于 Agent 的服务能拓展出 SaaS、B2B 集成、专属 Agent 市场。
竞争环境变化: 几乎所有的一线基模厂商都在发展 AI Agent,以及还有 Manus、AI 编程都在做 AI Agent,预计今年 Q3 会出现很多垂直领域的 AI Agent。
2、AI Agent 由哪些组件构成?
AI Agent 的构成尚无统一的标准。
Anthropic 认为是大模型基于环境反馈去使用工具的一套程序,并区分了 Workflow(LLM 和工具通过预定义代码路径编排)和 Agent(LLM 动态控制流程和工具使用),且多数生产中的 "智能体系统" 是两者的结合。因此他有以下三个核心要素:
- 模型(Model): Agent 的 "大脑",是基座、是引擎。
- 环境反馈(Context):定义了模型执行任务时,要用到的信息的总和,包括通过 Tool 拿到的信息、用户输入的信息等等。
- 工具(Tool): Agent 的 "手脚",通过所依赖的外部函数或 API(应用程序接口),与外部系统进行交互,获取信息并执行操作。技术实现方式有 OpenAI 的 Function Calling、Computer Use,以及 Antronic 发起的 MCP 通信协议。Google 发起的 A2A,则是 Agent 和 Agent 之间交互的通信协议。
OpenAI 则是定义为模型、工具和指令,弱化了环境反馈(Context),将其下沉到模型层,使命是让 Agent 产品化,例如 OpenAI 最新发布的 o3 已经内置了很多 tools 的能力。
- 指令(Instruction):是指 Agent 的行为准则,有了指令,就能唤醒 Agent。高质量的指令技巧能够减少歧义,提高智能代理的执行效果,而高质量的提示词工程能够提升 Agent 对指令的理解准确度。前者是面向结果,后者是面向过程。如果您对 Instruction 理解依旧不清晰,请参考下方的代码样例。
和 Anthropic 定义的区别是,OpenAI 对外部应用程序的调用和调用效果的优化,即 if/else 的判断,下沉到了模型层,由模型来内化,而非编排层来实现。OpenAI 越来越往上,模型定义一切,Anthropic 越来越往外,生态成就一切。