谷歌刚刚发布11月最新Agents白皮书

173 阅读7分钟

谷歌刚刚发布11月最新Agents白皮书

Google《Introduction to Agents》:智能体时代的工程哲学;原文见附录【AI大模型教程】

一、从预测式 AI 到自主智能体

过去的 AI 主要擅长被动任务——回答问题、翻译文本或根据提示生成图片。这种范式虽然强大,但每一步都需要人类的明确指令。如今,AI 正在经历一场范式转变:从“预测或生成内容”转向自主地解决问题与执行任务

这场转变的核心是 AI Agents(智能体)。一个智能体不再是静态工作流中的语言模型,而是一个能制定计划、采取行动、追求目标的完整应用。它结合了语言模型(LM)的推理能力与实际行动能力,能够自主应对复杂的多步骤任务,无需每一步都由人类指导。

二、智能体的五步问题求解循环

Google 在文中提出了智能体的核心循环——Agentic Problem-Solving Process。整个循环由五个步骤组成:

  1. Get the Mission:接收任务与目标。
  2. Scan the Scene:理解场景,分析上下文与环境。
  3. Think it Through:基于知识和数据进行推理与计划。
  4. Take Action:调用工具、执行操作。
  5. Learn & Get Better:观察反馈并持续改进。

图示:智能体问题求解的五步循环,从任务接收到执行与学习的完整闭环。

Google 在文中用一个现实案例说明了这一循环的应用:当客户支持智能体接收到一个问题(例如 “Where is my order #12345?”),它会:

  • 解析请求(Get the Mission);
  • 检索订单系统(Scan the Scene);
  • 判断是否需要人工介入(Think it Through);
  • 执行数据库查询或发送邮件(Take Action);
  • 并在交互中优化后续流程(Learn & Get Better)。

这五步形成了智能体的“感知—推理—行动—反馈—改进”的闭环,使 AI 从一次性响应者转变为持续优化的执行者

三、智能体系统的层级演化

Google 将智能体分为五个层级,从最基础的语言模型到具备自我演化能力的系统:

Level 0:核心推理系统

这一层的智能体其实还不能称为“Agent”。它只是一个孤立的语言模型,只能依靠预训练知识回答问题。它的优势是理解力强,但没有实时感知能力。例如,一个 GPT 模型可以解释“股票是什么”,但不知道今天的纳斯达克行情。

Level 1:连接型问题求解者

当模型可以调用外部 API、搜索网页、或访问数据库,它就具备了行动的能力。例如:通过搜索获取实时天气、调用金融 API 查询股价、访问知识库执行检索。这是第一个真正意义上的 Agent——它能主动获取信息、做出反应。

Level 2:策略型问题求解者

在这一层,智能体可以规划复杂任务、执行多步推理,并拥有记忆与上下文管理能力。Google 将这种能力称为“上下文工程”(Context Engineering),即智能体可以主动选择最有用的信息,维持对任务的全局理解。例如,一个 AI 财务顾问能持续跟踪用户的投资目标,而不仅是一次性回复。

Level 3:协作型多智能体系统

进入 Level 3,AI 开始具备组织结构。一个中央“项目管理智能体”(Project Manager Agent)协调多个专职智能体——如研究智能体、编程智能体、市场智能体——共同完成复杂任务。这一结构与真实世界的团队协作极为相似。关键在于编排(Orchestration)机制:智能体之间如何沟通、分配任务、形成反馈闭环。

四、智能体的核心结构:模型、工具与编排层

Google 在报告中指出,所有智能体系统都由三大组件组成:

  • Model(模型 / 大脑)
    语言模型或基础模型是智能体的推理核心,负责信息处理与决策。模型类型(通用、微调、多模态)决定了智能体的“认知能力”。
  • Tools(工具 / 双手)
    连接智能体与现实世界的接口,使其超越文本生成。工具包括 API、代码函数、数据库或向量存储,用于访问实时、可验证的信息。智能体可以规划工具调用顺序,并把结果嵌入下一轮模型推理中。
  • Orchestration Layer(编排层 / 神经系统)
    管理整个智能体的运行循环,包括规划、状态管理与推理策略执行。它使用提示框架和推理技术(如 Chain-of-Thought 或 Tree-of-Thought)来保持逻辑一致性与动态适应性。

三者结合形成一个可持续迭代的系统:模型提供智能,工具赋予行动力,编排层确保协调与稳定。

五、AgentOps:智能体运维的核心理念

在智能体进入生产环境后,问题从“能不能跑”变成了“跑得稳不稳”。Google 提出了 AgentOps(智能体运维) 框架,用于衡量、监控与优化整个系统:

  1. Measure What Matters:像做 A/B 实验一样定义指标,量化智能体行为。
  2. Use LM-as-Judge:让大型语言模型担任质量裁判,根据事实性、逻辑性、指令遵循性自动评分。
  3. Metrics-Driven Development:通过数据驱动的方式决定是否上线或回滚。
  4. Debug with OpenTelemetry:记录推理链与工具调用轨迹,帮助开发者理解“AI 为什么会错”。
  5. Cherish Human Feedback:引入人类反馈以优化自动化行为。

图示:AgentOps 生命周期,从测量、分析到优化与持续监控的完整闭环。

六、Agent Gym:智能体的离线训练场

Google 在报告中提出了“Agent Gym”的概念——一个模拟平台,让智能体在离线环境中安全地试错与改进。在这个平台中,智能体可以:

  • 模拟复杂环境进行策略学习;
  • 使用合成数据进行红队测试;
  • 通过人类专家反馈提升策略鲁棒性。

AI 可以像飞行员使用训练舱一样反复演练,在沙盒中不断成长。更重要的是,Agent Gym 能与人类专家网络连接,吸收“企业内部经验知识(tribal knowledge)”,在机器学习之外实现知识迁移。

七、Google 的两个标志性案例

1. Co-Scientist(AI 共同研究者)
Co-Scientist 是一个虚拟科研合作者,帮助科学家系统地探索复杂问题空间。它能接收研究目标、规划实验、生成假设并评估结果。系统中包含多个智能体:项目主管、研究员、评审者,形成一个完整的科研协作网络。它们通过循环与“元循环”(meta-loop)不断优化假设与方法。这一结构让科研流程加速,而非被替代。

2. AlphaEvolve(算法进化系统)
AlphaEvolve 是一个能自动发现和优化算法的智能体系统。它采用“演化式”循环:生成候选代码 → 评估性能 → 保留优解 → 生成下一代。它已经在数据中心优化、芯片设计、AI 训练和数学研究中取得突破。它强调“透明代码”和“人机共创”:AI 生成的代码可被人类阅读和修改,专家通过指标指导探索方向。结果是一个与人类洞察共同进化的代码体系。

八、结语:从模型到智能体文明

《Introduction to Agents》不仅是技术报告,更像一篇工程哲学宣言。它描绘了从“语言理解”到“自主行动”、从“单智能体”到“多智能体生态”、从“静态部署”到“持续演化”的完整图景。在这个新范式中:

  • 模型是大脑;
  • 工具是双手;
  • 编排是神经系统;
  • AgentOps 是免疫系统;
  • Agent Gym 是训练场;
  • 而人类,则是导师与伙伴。

未来的 AI 不再只是被动回答的助手,而是能与人并肩合作的数字同事。