谷歌刚刚发布11月最新Agents白皮书
Google《Introduction to Agents》:智能体时代的工程哲学;原文见附录【AI大模型教程】
一、从预测式 AI 到自主智能体
过去的 AI 主要擅长被动任务——回答问题、翻译文本或根据提示生成图片。这种范式虽然强大,但每一步都需要人类的明确指令。如今,AI 正在经历一场范式转变:从“预测或生成内容”转向自主地解决问题与执行任务。
这场转变的核心是 AI Agents(智能体)。一个智能体不再是静态工作流中的语言模型,而是一个能制定计划、采取行动、追求目标的完整应用。它结合了语言模型(LM)的推理能力与实际行动能力,能够自主应对复杂的多步骤任务,无需每一步都由人类指导。
二、智能体的五步问题求解循环
Google 在文中提出了智能体的核心循环——Agentic Problem-Solving Process。整个循环由五个步骤组成:
- Get the Mission:接收任务与目标。
- Scan the Scene:理解场景,分析上下文与环境。
- Think it Through:基于知识和数据进行推理与计划。
- Take Action:调用工具、执行操作。
- Learn & Get Better:观察反馈并持续改进。
图示:智能体问题求解的五步循环,从任务接收到执行与学习的完整闭环。
Google 在文中用一个现实案例说明了这一循环的应用:当客户支持智能体接收到一个问题(例如 “Where is my order #12345?”),它会:
- 解析请求(Get the Mission);
- 检索订单系统(Scan the Scene);
- 判断是否需要人工介入(Think it Through);
- 执行数据库查询或发送邮件(Take Action);
- 并在交互中优化后续流程(Learn & Get Better)。
这五步形成了智能体的“感知—推理—行动—反馈—改进”的闭环,使 AI 从一次性响应者转变为持续优化的执行者。
三、智能体系统的层级演化
Google 将智能体分为五个层级,从最基础的语言模型到具备自我演化能力的系统:
Level 0:核心推理系统
这一层的智能体其实还不能称为“Agent”。它只是一个孤立的语言模型,只能依靠预训练知识回答问题。它的优势是理解力强,但没有实时感知能力。例如,一个 GPT 模型可以解释“股票是什么”,但不知道今天的纳斯达克行情。
Level 1:连接型问题求解者
当模型可以调用外部 API、搜索网页、或访问数据库,它就具备了行动的能力。例如:通过搜索获取实时天气、调用金融 API 查询股价、访问知识库执行检索。这是第一个真正意义上的 Agent——它能主动获取信息、做出反应。
Level 2:策略型问题求解者
在这一层,智能体可以规划复杂任务、执行多步推理,并拥有记忆与上下文管理能力。Google 将这种能力称为“上下文工程”(Context Engineering),即智能体可以主动选择最有用的信息,维持对任务的全局理解。例如,一个 AI 财务顾问能持续跟踪用户的投资目标,而不仅是一次性回复。
Level 3:协作型多智能体系统
进入 Level 3,AI 开始具备组织结构。一个中央“项目管理智能体”(Project Manager Agent)协调多个专职智能体——如研究智能体、编程智能体、市场智能体——共同完成复杂任务。这一结构与真实世界的团队协作极为相似。关键在于编排(Orchestration)机制:智能体之间如何沟通、分配任务、形成反馈闭环。
四、智能体的核心结构:模型、工具与编排层
Google 在报告中指出,所有智能体系统都由三大组件组成:
- Model(模型 / 大脑):
语言模型或基础模型是智能体的推理核心,负责信息处理与决策。模型类型(通用、微调、多模态)决定了智能体的“认知能力”。 - Tools(工具 / 双手):
连接智能体与现实世界的接口,使其超越文本生成。工具包括 API、代码函数、数据库或向量存储,用于访问实时、可验证的信息。智能体可以规划工具调用顺序,并把结果嵌入下一轮模型推理中。 - Orchestration Layer(编排层 / 神经系统):
管理整个智能体的运行循环,包括规划、状态管理与推理策略执行。它使用提示框架和推理技术(如 Chain-of-Thought 或 Tree-of-Thought)来保持逻辑一致性与动态适应性。
三者结合形成一个可持续迭代的系统:模型提供智能,工具赋予行动力,编排层确保协调与稳定。
五、AgentOps:智能体运维的核心理念
在智能体进入生产环境后,问题从“能不能跑”变成了“跑得稳不稳”。Google 提出了 AgentOps(智能体运维) 框架,用于衡量、监控与优化整个系统:
- Measure What Matters:像做 A/B 实验一样定义指标,量化智能体行为。
- Use LM-as-Judge:让大型语言模型担任质量裁判,根据事实性、逻辑性、指令遵循性自动评分。
- Metrics-Driven Development:通过数据驱动的方式决定是否上线或回滚。
- Debug with OpenTelemetry:记录推理链与工具调用轨迹,帮助开发者理解“AI 为什么会错”。
- Cherish Human Feedback:引入人类反馈以优化自动化行为。
图示:AgentOps 生命周期,从测量、分析到优化与持续监控的完整闭环。
六、Agent Gym:智能体的离线训练场
Google 在报告中提出了“Agent Gym”的概念——一个模拟平台,让智能体在离线环境中安全地试错与改进。在这个平台中,智能体可以:
- 模拟复杂环境进行策略学习;
- 使用合成数据进行红队测试;
- 通过人类专家反馈提升策略鲁棒性。
AI 可以像飞行员使用训练舱一样反复演练,在沙盒中不断成长。更重要的是,Agent Gym 能与人类专家网络连接,吸收“企业内部经验知识(tribal knowledge)”,在机器学习之外实现知识迁移。
七、Google 的两个标志性案例
1. Co-Scientist(AI 共同研究者)
Co-Scientist 是一个虚拟科研合作者,帮助科学家系统地探索复杂问题空间。它能接收研究目标、规划实验、生成假设并评估结果。系统中包含多个智能体:项目主管、研究员、评审者,形成一个完整的科研协作网络。它们通过循环与“元循环”(meta-loop)不断优化假设与方法。这一结构让科研流程加速,而非被替代。
2. AlphaEvolve(算法进化系统)
AlphaEvolve 是一个能自动发现和优化算法的智能体系统。它采用“演化式”循环:生成候选代码 → 评估性能 → 保留优解 → 生成下一代。它已经在数据中心优化、芯片设计、AI 训练和数学研究中取得突破。它强调“透明代码”和“人机共创”:AI 生成的代码可被人类阅读和修改,专家通过指标指导探索方向。结果是一个与人类洞察共同进化的代码体系。
八、结语:从模型到智能体文明
《Introduction to Agents》不仅是技术报告,更像一篇工程哲学宣言。它描绘了从“语言理解”到“自主行动”、从“单智能体”到“多智能体生态”、从“静态部署”到“持续演化”的完整图景。在这个新范式中:
- 模型是大脑;
- 工具是双手;
- 编排是神经系统;
- AgentOps 是免疫系统;
- Agent Gym 是训练场;
- 而人类,则是导师与伙伴。
未来的 AI 不再只是被动回答的助手,而是能与人并肩合作的数字同事。