从新认识AI Agent(二):为什么都在像Agent演进?AI Agent 由哪些组件构成?

0 阅读4分钟

1、Chatbot 为何都在向 AI Agent 演进,这个过程中,发生了什么?

早期,OpenAI 等基模公司提供的都是 "能说会道" 的 Chatbot,但几乎大家都开始往 "真知实干" 的 AI Agent 演进。两者的区别,我们先来汇总一张基础表格。

从答疑到连接物理世界

LLM Chatbot 本质是概率驱动的文本生成器,通过海量语料的训练掌握语言模式,就像一位博闻强记的图书管理员,能复述书中的知识,却因为缺乏对真实世界的理解和调度能力,难以自主决策和行动。

此后,OpenAI 发布了 Function Call 和 Operator,是技术上向 AI Agent 的探索,而 Devin 和 Manus 则是第一次把 AI Agent 以产品的形态呈现给公众,让大家感受到 AI Agent 到底长什么样,能做些什么。

OpenAI Pro 已经提供深度研究的扩展能力。

QWen 即将推出 MCP 插件。

国产 Chatbot 开源客户端四小龙,Cherry Studio、DeepChat、LobeChat 等,也都正在开发对 MCP 的支持。(Higress 提供了 MCP 市场,支持客户端快速提供 MCP 能力,mcp.higress.ai/)

抽象来讲,能力边界是 Chatbot 与 AI Agent 的本质差异。Chatbot 向 AI Agent 演进,是技术驱动和市场需求的必然。

技术驱动因素

LLM 能力本身提升了

  • 部分大语言模型已经可以做复杂推理、链式思考(Chain of Thought),不仅能回答,还能自己拆解问题。
  • 单纯的对话,已经无法充分利用大模型的推理和行动潜力。

多工具协作(Tool Use)的成熟

  • Agent 可以调用插件、API、浏览器、代码解释器等外部工具,不再只是单一语言生成。
  • Chatbot 如果只靠纯语言,很难完成复杂任务(比如订一张机票,需要多步操作)。

长期记忆和自主性能力发展

  • 记忆机制让 Agent 能记住用户习惯、历史任务,自动优化策略。
  • 自主性支持 Agent 根据反馈调整自身行为,不需要用户的每一步指令。

规划和推理模块的成熟:  早期 LLM 只能 "回答",而现在已经可以 "先思考计划",再执行,更像人类的助理。

市场 / 需求驱动因素

用户对效率和自动化的要求更高:  企业、个人用户都希望 AI 可以代替人去做琐碎、复杂的连续任务,而不是每次提问每次回答。

商业模式扩展需求:  仅靠 Chatbot 很难延续收费模式,而基于 Agent 的服务能拓展出 SaaS、B2B 集成、专属 Agent 市场。

竞争环境变化:  几乎所有的一线基模厂商都在发展 AI Agent,以及还有 Manus、AI 编程都在做 AI Agent,预计今年 Q3 会出现很多垂直领域的 AI Agent。

2、AI Agent 由哪些组件构成?

AI Agent 的构成尚无统一的标准。

Anthropic 认为是大模型基于环境反馈去使用工具的一套程序,并区分了 Workflow(LLM 和工具通过预定义代码路径编排)和 Agent(LLM 动态控制流程和工具使用),且多数生产中的 "智能体系统" 是两者的结合。因此他有以下三个核心要素:

  • 模型(Model):  Agent 的 "大脑",是基座、是引擎。
  • 环境反馈(Context):定义了模型执行任务时,要用到的信息的总和,包括通过 Tool 拿到的信息、用户输入的信息等等。
  • 工具(Tool):  Agent 的 "手脚",通过所依赖的外部函数或 API(应用程序接口),与外部系统进行交互,获取信息并执行操作。技术实现方式有 OpenAI 的 Function Calling、Computer Use,以及 Antronic 发起的 MCP 通信协议。Google 发起的 A2A,则是 Agent 和 Agent 之间交互的通信协议。

OpenAI 则是定义为模型、工具和指令,弱化了环境反馈(Context),将其下沉到模型层,使命是让 Agent 产品化,例如 OpenAI 最新发布的 o3 已经内置了很多 tools 的能力。

  • 指令(Instruction):是指 Agent 的行为准则,有了指令,就能唤醒 Agent。高质量的指令技巧能够减少歧义,提高智能代理的执行效果,而高质量的提示词工程能够提升 Agent 对指令的理解准确度。前者是面向结果,后者是面向过程。如果您对 Instruction 理解依旧不清晰,请参考下方的代码样例。

和 Anthropic 定义的区别是,OpenAI 对外部应用程序的调用和调用效果的优化,即 if/else 的判断,下沉到了模型层,由模型来内化,而非编排层来实现。OpenAI 越来越往上,模型定义一切,Anthropic 越来越往外,生态成就一切。