原文:Building effective agents 作者:Erik Schluntz 和 Barry Zhang 发布日期:2024年12月19日
引言
在过去一年中,我们与数十个团队合作构建了各行各业的大语言模型(LLM)代理系统。我们发现,最成功的实现并不是使用复杂的框架或专门的库,而是使用简单、可组合的模式。
在这篇文章中,我们将分享从与客户合作和构建代理系统中获得的经验,并为开发人员提供构建高效代理系统的实用建议。
什么是代理系统?
"代理"(Agent)可以有多种定义方式。一些客户将代理定义为完全自主的系统,能够长期独立运行,使用各种工具完成复杂任务。另一些则用这个术语描述更具规范性的实现,遵循预定义的工作流程。在 Anthropic,我们将所有这些变体都归类为 代理系统,但在架构上区分了 工作流 和 代理 两种类型:
- 工作流 是通过预定义的代码路径来编排 LLM 和工具的系统。
- 代理 则是 LLM 能够动态指导自己的处理过程和工具使用的系统,保持对任务完成方式的控制。
下面,我们将详细探讨这两种代理系统。在附录1("实践中的代理")中,我们描述了客户在使用这些系统时发现特别有价值的两个领域。
何时(不)使用代理系统
在构建 LLM 应用时,我们建议寻找最简单的可能解决方案,只在必要时增加复杂性。这可能意味着完全不构建代理系统。代理系统通常会用延迟和成本换取更好的任务性能,你需要考虑这种权衡是否合理。
当确实需要更复杂的系统时,工作流为定义明确的任务提供可预测性和一致性,而代理则更适合需要大规模灵活性和模型驱动决策的场景。然而,对于许多应用来说,优化单个 LLM 调用(配合检索和上下文示例)通常就足够了。
框架的使用时机和方式
有许多框架可以简化代理系统的实现,包括:
- LangChain 的 LangGraph
- Amazon Bedrock 的 AI Agent 框架
- Rivet,一个拖放式 LLM 工作流构建器
- Vellum,另一个用于构建和测试复杂工作流的 GUI 工具
这些框架通过简化标准的底层任务(如调用 LLM、定义和解析工具、链接调用等)来帮助快速入门。但是,它们往往会创建额外的抽象层,使底层提示和响应变得难以调试。它们也可能诱使你在更简单的设置就足够的情况下增加复杂性。
我们建议开发人员从直接使用 LLM API 开始:许多模式可以用几行代码实现。如果确实使用框架,请确保理解底层代码。对底层机制的错误假设是客户错误的常见来源。
构建模块、工作流和代理
在这一节中,我们将探讨生产环境中常见的代理系统模式。我们从基础构建块——增强型 LLM 开始,逐步增加复杂性,从简单的组合工作流到自主代理。
构建块:增强型 LLM
代理系统的基本构建块是具有检索、工具和记忆等增强功能的 LLM。我们当前的模型可以主动使用这些功能——生成自己的搜索查询、选择适当的工具,并确定要保留哪些信息。
graph LR
LLM[增强型LLM] --> Retrieval[检索系统]
LLM --> Tools[工具集]
LLM --> Memory[记忆系统]
我们建议关注实现的两个关键方面:
- 根据具体用例定制这些功能
- 确保它们为 LLM 提供易用、文档完善的接口
虽然有多种方式实现这些增强功能,一种方法是通过我们最近发布的模型上下文协议,它允许开发人员通过简单的客户端实现与不断增长的第三方工具生态系统集成。
在本文的其余部分,我们假设每个 LLM 调用都可以访问这些增强功能。
工作流:提示链
提示链将任务分解为一系列步骤,每个 LLM 调用处理前一个调用的输出。你可以在任何中间步骤添加程序化检查(见下图中的"gate"),以确保流程仍在正轨上。
graph LR
Input[输入] --> Step1[步骤1]
Step1 --> Gate1{检查点1}
Gate1 -->|通过| Step2[步骤2]
Gate1 -->|失败| Error[错误处理]
Step2 --> Gate2{检查点2}
Gate2 -->|通过| Output[输出]
Gate2 -->|失败| Error
使用场景: 这种工作流最适合可以轻松且清晰地分解为固定子任务的情况。主要目标是通过使每个 LLM 调用成为更简单的任务来用延迟换取更高的准确性。
示例应用:
- 生成营销文案,然后将其翻译成其他语言
- 编写文档大纲,检查大纲是否符合特定标准,然后基于大纲写作文档
工作流:路由
路由工作流对输入进行分类并将其导向专门的后续任务。这种工作流允许关注点分离,并构建更专门化的提示。如果没有这种工作流,为一种输入优化可能会损害对其他输入的性能。
graph TD
Input[输入] --> Classifier[分类器]
Classifier --> Type1[类型1]
Classifier --> Type2[类型2]
Classifier --> Type3[类型3]
Type1 --> Handler1[处理器1]
Type2 --> Handler2[处理器2]
Type3 --> Handler3[处理器3]
Handler1 --> Output[输出]
Handler2 --> Output
Handler3 --> Output
使用场景: 路由适用于有明显不同类别需要分别处理的复杂任务,且分类可以由 LLM 或传统分类模型/算法准确处理的情况。
示例应用:
- 将不同类型的客服查询(一般问题、退款请求、技术支持)导向不同的下游流程、提示和工具
- 将简单/常见问题路由到较小的模型(如 Claude 3.5 Haiku),将困难/不常见的问题路由到更强大的模型(如 Claude 3.5 Sonnet)以优化成本和速度
工作流:并行化
LLM 有时可以同时处理任务,并以编程方式聚合其输出。这种工作流有两个主要变体:
- 分段: 将任务分解为可并行运行的独立子任务
- 投票: 多次运行相同任务以获得不同输出
graph TD
subgraph "分段模式"
Input1[输入] --> Split[任务分解]
Split --> Task1[任务1]
Split --> Task2[任务2]
Split --> Task3[任务3]
Task1 --> Merge[结果合并]
Task2 --> Merge
Task3 --> Merge
Merge --> Output1[输出]
end
subgraph "投票模式"
Input2[输入] --> Run1[运行1]
Input2 --> Run2[运行2]
Input2 --> Run3[运行3]
Run1 --> Vote[投票/聚合]
Run2 --> Vote
Run3 --> Vote
Vote --> Output2[输出]
end
使用场景: 并行化在以下情况下很有效:
- 可以将子任务并行化以提高速度
- 需要多个视角或尝试来获得更高置信度的结果
对于具有多个考虑因素的复杂任务,LLM 在每个考虑因素由单独的 LLM 调用处理时通常表现更好,这允许对每个特定方面进行集中注意。
示例应用:
- 分段:
- 实现防护栏,一个模型实例处理用户查询,而另一个筛选不当内容或请求
- 自动评估 LLM 性能,每个 LLM 调用评估模型在给定提示上的不同方面表现
- 投票:
- 审查代码漏洞,多个提示审查并在发现问题时标记代码
- 评估内容是否不当,多个提示评估不同方面或需要不同投票阈值来平衡误报和漏报
工作流:编排器-工作者
在编排器-工作者工作流中,一个中央 LLM 动态分解任务,将它们委派给工作者 LLM,并综合他们的结果。
graph TD
Input[输入] --> Orchestrator[编排器LLM]
Orchestrator --> Task1[任务1]
Orchestrator --> Task2[任务2]
Orchestrator --> Task3[任务3]
Task1 --> Worker1[工作者LLM 1]
Task2 --> Worker2[工作者LLM 2]
Task3 --> Worker3[工作者LLM 3]
Worker1 --> Synthesis[结果综合]
Worker2 --> Synthesis
Worker3 --> Synthesis
Synthesis --> Output[输出]
使用场景: 这种工作流非常适合无法预测所需子任务的复杂任务(例如,在编码中,需要更改的文件数量和每个文件中的更改性质可能取决于任务)。虽然在拓扑结构上与并行化类似,但关键区别在于其灵活性——子任务不是预定义的,而是由编排器根据具体输入确定的。
示例应用:
- 每次都需要对多个文件进行复杂更改的编码产品
- 涉及从多个来源收集和分析信息以寻找可能相关信息的搜索任务
工作流:评估器-优化器
在评估器-优化器工作流中,一个 LLM 调用生成响应,而另一个提供评估和反馈,形成一个循环。
graph TD
Input[输入] --> Generator[生成器LLM]
Generator --> Response[响应]
Response --> Evaluator[评估器LLM]
Evaluator --> Feedback[反馈]
Feedback --> Generator
Response --> Output[输出]
使用场景: 当我们有明确的评估标准,且迭代改进能提供可衡量的价值时,这种工作流特别有效。判断是否适合使用这种工作流的两个标志是:
- LLM 响应在人类表达反馈时可以明显改进
- LLM 能够提供这样的反馈
这类似于人类作者在产生精炼文档时可能经历的迭代写作过程。
示例应用:
- 文学翻译,其中译者 LLM 可能无法立即捕捉到的细微差别可以通过评估器 LLM 的批评得到改进
- 需要多轮搜索和分析以收集全面信息的复杂搜索任务,评估器决定是否需要进一步搜索
代理
随着 LLM 在关键能力上的成熟——理解复杂输入、进行推理和规划、可靠使用工具、从错误中恢复——代理正在生产环境中崭露头角。代理从人类用户的命令或交互式讨论开始工作。一旦任务明确,代理就会独立规划和操作,可能会返回给人类寻求更多信息或判断。在执行过程中,代理必须在每个步骤从环境中获得"基本事实"(如工具调用结果或代码执行)来评估其进展。代理可以在检查点暂停等待人类反馈,或在遇到障碍时暂停。任务通常在完成时终止,但也常常包括停止条件(如最大迭代次数)以保持控制。
代理可以处理复杂的任务,但其实现往往很简单。它们通常就是基于环境反馈在循环中使用工具的 LLM。因此,清晰、周到地设计工具集及其文档至关重要。我们在附录2("工具的提示工程")中详细讨论了工具开发的最佳实践。
graph TD
Start[开始] --> Input[用户输入]
Input --> Plan[规划]
Plan --> Execute[执行]
Execute --> Check{检查结果}
Check -->|成功| Next{继续?}
Check -->|失败| Recover[错误恢复]
Recover --> Plan
Next -->|是| Plan
Next -->|否| End[结束]
使用场景: 代理适用于难以或无法预测所需步骤数量的开放性问题,且无法硬编码固定路径的情况。LLM 可能需要运行多个回合,你必须对其决策能力有一定信任。代理的自主性使其非常适合在受信任环境中扩展任务。
代理的自主性意味着更高的成本和潜在的错误累积。我们建议在沙箱环境中进行广泛测试,并配备适当的防护措施。
示例应用:
以下是我们自己实现的例子:
- 一个编码代理,可以根据任务描述解决 SWE-bench 任务,涉及对多个文件的编辑
- 我们的"计算机使用"参考实现,Claude 使用计算机完成任务
组合和定制这些模式
这些构建块并非规范性的。它们是开发人员可以根据不同用例塑造和组合的常见模式。与任何 LLM 功能一样,成功的关键是衡量性能并迭代实现。重申一点:只有在能够明显改善结果时才考虑增加复杂性。
总结
在 LLM 领域取得成功不在于构建最复杂的系统,而在于构建最适合你需求的系统。从简单的提示开始,通过全面评估优化它们,只有在更简单的解决方案不足时才添加多步骤代理系统。
在实现代理时,我们遵循三个核心原则:
- 保持代理设计的简单性
- 通过明确展示代理的规划步骤来优先考虑透明性
- 通过彻底的工具文档和测试来精心设计代理-计算机接口(ACI)
框架可以帮助你快速入门,但在转向生产环境时,不要犹豫减少抽象层并使用基本组件构建。遵循这些原则,你可以创建既强大又可靠、可维护、受用户信任的代理。
附录1:实践中的代理
我们与客户的工作揭示了两个特别有前途的 AI 代理应用,展示了上述模式的实际价值。这两个应用都说明了代理在需要对话和行动、有明确成功标准、启用反馈循环并集成有意义的人工监督的任务中最有价值。
A. 客户支持
客户支持将熟悉的聊天机器人界面与通过工具集成的增强功能相结合。这非常适合更开放式的代理,原因如下:
- 支持互动自然地遵循对话流程,同时需要访问外部信息和行动
- 可以集成工具来获取客户数据、订单历史和知识库文章
- 可以以编程方式处理发放退款或更新工单等操作
- 可以通过用户定义的解决方案清晰地衡量成功
一些公司通过基于使用的定价模型展示了这种方法的可行性,只对成功解决的问题收费,显示了他们对代理效果的信心。
B. 编码代理
软件开发领域展示了 LLM 功能的巨大潜力,从代码补全发展到自主问题解决。代理特别有效,原因如下:
- 代码解决方案可以通过自动化测试验证
- 代理可以使用测试结果迭代改进解决方案
- 问题空间定义明确且结构化
- 可以客观衡量输出质量
在我们自己的实现中,代理现在可以仅基于拉取请求描述解决 SWE-bench Verified 基准测试中的真实 GitHub 问题。然而,虽然自动化测试有助于验证功能,但人工审查对确保解决方案符合更广泛的系统要求仍然至关重要。
附录2:工具的提示工程
无论你构建什么样的代理系统,工具很可能是代理的重要组成部分。工具使 Claude 能够通过在我们的 API 中指定其确切结构和定义来与外部服务和 API 交互。当 Claude 响应时,如果它计划调用工具,它会在 API 响应中包含一个工具使用块。工具定义和规范应该得到与整体提示同样多的提示工程关注。在这个简短的附录中,我们描述如何为工具进行提示工程。
通常有几种方式来指定相同的操作。例如,你可以通过编写差异或重写整个文件来指定文件编辑。对于结构化输出,你可以在 markdown 或 JSON 内返回代码。在软件工程中,这些差异是表面的,可以无损地从一种转换到另一种。然而,有些格式对 LLM 来说比其他格式更难写。编写差异需要在写新代码之前知道块头中要更改的行数。在 JSON 中写代码(相比于 markdown)需要额外转义换行符和引号。
我们关于决定工具格式的建议如下:
- 给模型足够的标记来"思考",避免让它陷入困境
- 保持格式接近模型在互联网上自然遇到的文本
- 确保没有格式"开销",比如必须保持准确计数数千行代码,或对它写的任何代码进行字符串转义
一个经验法则是考虑在人机界面(HCI)上投入了多少努力,并计划在创建好的代理-计算机界面(ACI)上投入同样多的努力。以下是一些关于如何做到这一点的想法:
- 站在模型的角度思考。基于描述和参数,使用这个工具是否显而易见,还是需要仔细思考?如果是后者,那么对模型来说可能也是如此。好的工具定义通常包括使用示例、边缘情况、输入格式要求,以及与其他工具的明确界限。
- 如何更改参数名称或描述使事情更明显?把这想象成为团队中的初级开发人员写一个很棒的文档字符串。这在使用许多类似工具时尤其重要。
- 测试模型如何使用你的工具:在我们的工作台中运行许多示例输入,看看模型犯什么错误,然后迭代。
- 防错你的工具。更改参数使其更难犯错误。
在构建我们的 SWE-bench 代理时,我们实际上花在优化工具上的时间比花在整体提示上的时间更多。例如,我们发现模型在代理移出根目录后使用相对文件路径时会出错。为了解决这个问题,我们更改了工具,始终要求绝对文件路径——我们发现模型完美地使用了这种方法。