构建 AI 智能体应用——Agentic AI 的构建模块与设计模式

0 阅读1小时+

引言

在第一章中,我们介绍了 AI 智能体可分为五种类型:简单反射型智能体(simple reflex agents)、基于模型的反射型智能体(model-based reflex agents)、目标驱动型智能体(goal-based agents)、效用驱动型智能体(utility-based agents)以及学习型智能体(learning agents)。基于强化学习(RL)和大语言模型(LLM)的智能体被归类为学习型智能体。学习型智能体的一个关键特征,是能够通过经验获取知识并增强自身行为。

尽管 RL 智能体在游戏和机器人等领域已取得成功,但它们仍面临训练时间长、泛化能力有限等挑战。相比之下,基于 LLM 的智能体利用 LLM 的语言理解与生成能力,仅需较少训练即可执行复杂任务,并能跨领域泛化。然而,基于 LLM 的智能体也可能产生幻觉,并且在特定领域中可能需要微调。

基于 LLM 的智能体可分为单智能体系统和多智能体系统(MAS)。单智能体系统旨在借助规划、记忆、行动和反思等组件处理多样化任务。另一方面,多智能体系统则由多个智能体协作或竞争以解决复杂问题。本章将探讨可独立运行的单智能体系统的架构与核心组件。为了构建高效且具适应性的 AI 系统,理解常见设计模式至关重要。AI 智能体的设计模式为构建能够高效处理复杂任务的智能系统提供了清晰策略。此外,面向 Agentic AI 的用户体验(UX)设计可确保交互友好,使 AI 智能体更易于理解和使用,同时促进透明性与信任。最后,本章最后一节将介绍如何构建并部署可扩展的 AI 智能体。

结构

本章将涵盖以下主题:

  • AI 智能体的核心组件
  • 面向 AI 智能体的 Agentic 设计模式
  • Agentic AI 的 UX 设计策略
  • AI 智能体的扩展与部署

目标

在本章结束时,读者将全面理解支撑 Agentic AI 系统的构建模块与设计策略。读者将能够识别并解释单智能体系统的核心组件,包括 LLM、记忆、规划与推理模块、行动与工具利用、环境交互,以及自我反思。读者还将学习这些组件如何协同工作,使智能体能够在动态环境中感知、推理、行动与适应。

本章还将帮助读者掌握关键的 Agentic 设计模式,如反思(reflection)、工具使用(tool use)、规划(planning)和多智能体(multi-agent)模式,并了解这些模式如何提升 AI 智能体的自主性、准确性与可扩展性。此外,读者还将探索使 Agentic 系统更直观、更易用的 UX 设计策略,例如对话式界面、多模态交互与透明规划。最后,本章还将提供关于 AI 智能体扩展与部署的实践见解,强调模块化、自主性、适应性与可解释性等原则。这些目标将帮助读者具备设计、构建与评估智能体的能力,使其能够解决复杂的现实世界问题。

AI 智能体的核心组件

单智能体系统作为一个独立实体运行:它从环境中接收信息,并据此采取行动以达成特定目标。此类智能体的架构可拆分为若干核心组件,每个组件具有不同功能。图 3.1 描述了基于 LLM 的智能体概览。LLM 作为智能体的大脑,根据当前输入、过往经验和目标进行决策与规划。目标(objective)定义了智能体试图达成的内容,从而引导其规划与行动。记忆(memory)存储智能体的知识与经验,并在每次交互后更新。行动(action)指智能体执行的任务,例如使用工具或发送消息。反思/重思(rethink)是智能体学习、反思自身行动并提供反馈以改进未来决策的能力。此外,智能体在环境中运行,并使用 API、计算器或机械臂等工具与世界交互以完成任务。

image.png

图 3.1:基于 LLM 的智能体概览
来源:Cheng et.al. 2024

基于 LLM 的智能体还可以用若干核心组件来描述,例如 LLM、记忆、规划与推理、行动与工具利用、环境交互,以及重思(rethinking)或自我反思(self-reflection)。LLM 充当智能体的中央大脑,负责生成文本、推理问题并做出决策。它利用 GPT-4、Claude、LLaMA 等强大模型,执行自然语言理解、摘要、翻译等任务。

支撑这一 LLM 核心的是记忆(memory),它通过存储过去交互和相关数据来维持上下文。这种记忆可以是短期记忆(在单次会话内使用),也可以是长期记忆(跨会话持久存在),帮助智能体记住用户偏好或任务中的先前步骤。

规划与推理组件帮助智能体使用思维链(chain-of-thought, CoT)推理(Wei et. al., 2022)、思维树(tree-of-thoughts, ToT)(Yao et. al., 2023)或 ReAct(Reason + Act)(Yao et. al., 2022)等技术,将复杂任务拆解为更小、更可管理的步骤,从而实现结构化决策与多步问题求解。

一旦计划形成,行动与工具利用组件便执行必要操作。为了扩展超越语言本身的能力,智能体可以使用工具,从而执行实时数据检索、代码执行,或与 API 和数据库交互。对于需要外部信息或计算的任务,这些工具至关重要。

这些行动通常通过环境(environment)与外部系统(如浏览器或机器人平台)连接,使智能体能够进行现实世界交互,例如网页自动化或文件系统访问。最后,自我反思机制允许智能体评估并改进自身输出。这种迭代过程有助于提升准确性、减少幻觉,并提高整体响应质量,如 self-refine(Madaan et. al. 2023)、reflection(Shinn, N., et al. 2023)、critic(Gou et al., 2024)等方法所示。以下小节将详细介绍这些核心组件。

大语言模型(Large language models)

LLM 是一个预训练的大语言模型,充当 LLM 智能体的大脑。它作为中心决策者,负责理解输入、进行推理、制定计划,并生成响应或行动。它协调其他组件以满足用户目标。对一个智能体而言,LLM 的选择取决于能力、任务复杂度和运行约束,例如商业模型(GPT-4、Claude 等)或开源替代方案(LLaMA、DeepSeek-R1 等)。智能体的所有高层能力,如回答问题、生成内容、解决问题或做出决策,均来源于 LLM。第一章《Fundamentals of AI Agents》中已对 LLM 做了简要介绍。

记忆(Memory)

记忆组件使 LLM 智能体能够存储和检索信息,这对于维持上下文、从过往经验中学习以及做出有依据的决策至关重要(Luo et al., 2025)。LLM 智能体中的记忆大体可分为两类:短期记忆和长期记忆。

短期记忆(Short-term memory)

短期记忆(STM)是智能体的活动记忆,用于保存与当前任务或交互直接相关的信息。它就像一个临时工作区,智能体在其中跟踪当前正在处理的信息。

  • 上下文窗口(Context window) :LLM 一次只能处理有限数量的文本。这个上下文窗口充当了一种短期记忆形式,使智能体能够记住最近的输入与输出。智能体利用上下文窗口中的信息来理解当前情境、保持对话连贯性,并执行需要参考近期信息的任务。
  • 对话历史(Dialogue history) :在对话型智能体中,对话历史是短期记忆的重要组成部分。它存储用户与智能体之间交换的话语序列。智能体利用对话历史记住用户之前说过的话、回溯先前信息,并维持一致的人设。

让我们看一个例子:在与客服聊天机器人的对话中,智能体的 STM 会包含客户当前的问题、此前对话轮次以及从当前问题中提取的信息。在这种情况下,智能体利用这些 STM 信息理解到客户现在想退货,并且这可能与先前“收到了错误商品”的问题有关。随后它可以使用 STM 中的订单号来发起退货流程。

长期记忆(Long-term memory)

长期记忆(LTM)赋予智能体在较长时间内持久存储和访问信息的能力。这使智能体能够积累知识、从过往经验中学习,并在未来情境中利用这些知识指导自身行为。

  • 知识库(Knowledge bases) :知识库是一个结构化的事实、规则及其他信息的存储库,智能体可以利用它进行推理和决策。知识库可以预先填充通用知识或领域知识,也可以由智能体随时间学习形成。
  • 向量数据库(Vector databases) :向量数据库用于基于语义含义存储和检索信息。信息会被转换为向量嵌入(embeddings),即捕捉语义的数值表示。向量数据库使智能体能够进行相似度搜索,检索与给定查询在语义上相近的信息。RAG 是常见技术之一,它使用向量数据库为 LLM 提供外部上下文,在问答、信息检索和推荐等任务中非常有用。一个典型的 RAG 工作流如下:
    Query | Embedding | Vector DB search | Retrieved context | LLM response
  • 知识图谱(Knowledge graphs) :知识图谱是基于图的知识表示形式,其中实体表示为节点,实体之间的关系表示为边。例如,在一个医学知识图谱中,实体可能包括 diabetes(糖尿病)、insulin(胰岛素)和 pancreas(胰腺),关系则包括 treated by(由…治疗)、produced by(由…产生)或 associated with(与…相关)。知识图谱能够表示实体间复杂关系,使智能体进行更复杂的推理与推断。GraphRAG 是一种非常流行的技术,用于查询此类知识图谱并向 LLM 提供信息。

例如,一个用于提供旅行推荐的 LLM 智能体,可能拥有一个关于不同目的地信息的知识库,其中包含位置、景点和活动等信息;它还可能拥有一个由用户过往交互形成的用户偏好向量数据库;同时它还可以拥有一个表示目的地之间关系的知识图谱,例如 is located in(位于)、is famous for(以…闻名)和 is similar to(与…相似)。当用户询问某个目的地时,智能体可以利用这些 LTM 检索相关信息;也可以识别与用户过去喜欢的目的地相似的地点。

规划与推理(Planning and reasoning)

规划与推理对于使 LLM 智能体能够做出明智决策、解决问题并实现目标至关重要。该模块使 LLM 智能体能够前瞻性思考、拆解任务并做出有依据的决策。智能体不再只是对输入做被动响应,而是利用这一模块来:

  • 理解任务目标
  • 将任务分解为子任务或逻辑步骤
  • 以连贯、目标导向的方式安排行动顺序
  • 根据新信息或反馈调整计划

关键功能(Key functions)

让我们来看看关键功能:

  • 任务分解(Task decomposition) :智能体识别复杂任务的组成部分,并将其拆分为更小、更易管理的部分。
    例如,规划一次度假需要选择目的地、预订航班、寻找酒店和制定行程。
  • 逐步推理(Step-by-step reasoning) :智能体对每一步进行逻辑推理,通常使用思维链等技术显式表达推理过程。
    例如,通过列出每一步算术操作来解决数学题。
  • 决策(Decision-making) :智能体评估多个选项,并基于标准或约束选择最佳行动方案。此处可采用类似思维树(ToT)的提示策略。
    例如,通过比较配置、价格和评价来选择最合适的笔记本电脑。
  • 动态重规划(Dynamic replanning) :如果引入新信息或某个行动失败,智能体可以修改其计划。
    例如,如果一家餐厅关门了,智能体会在附近寻找替代方案。

常用技术(Common techniques)

规划还涉及使用上下文学习(in-context learning)方法与特定提示策略来设计行动序列,具体如下:

  • CoT(Chain-of-Thought) :鼓励 LLM 在给出最终答案前生成中间推理步骤,显著提升其在算术、常识和符号推理任务上的表现。
  • Self-consistency with CoT(CoT-SC) :通过采样多条不同推理路径并选择一致性最高的答案,改进 CoT 提示。
  • ToT(Tree-of-Thoughts) :将 CoT 推广为树状结构,使 LLM 能探索多条推理路径。它支持前瞻性推理、回溯和中间思路评估,从而实现更审慎、更有效的问题求解。

这些提示策略的比较见图 3.2:

image.png

图 3.2:多种提示策略比较
来源:Yao et. al. 2023

近年来,出现了两种流行的推理范式,例如 ReAct^1 和 Reasoning WithOut Observation(ReWOO)^2。ReAct 与 ReWOO 的细节如下:

  • ReAct:ReAct 将推理与行动结合起来,使智能体能够先对任务进行推理,再基于推理采取合适行动。这个迭代过程有助于智能体优化方法并提高准确性。
    例如,为一次三天巴黎之旅规划行程。在 ReAct 方法中,智能体会推理最佳景点、查询开放时间并创建每日安排,然后再根据用户偏好对行程进行调整。
  • ReWOO:ReWOO 是一种模块化方法,通过将推理与外部观察分离来提升 LLM 智能体的效率。不同于 ReAct,ReWOO 在规划行动时避免依赖工具输出,并通过根据用户初始提示预测所需工具来减少冗余工具调用。
    例如,在前述巴黎行程示例中,智能体可以先征求用户想去哪些地点,而不是自己搜索并决定。

规划与推理模块之所以重要,是因为它能显著提升 LLM 智能体的性能与可靠性。通过结构化思考过程,智能体可以降低幻觉概率并产出更准确的结果。这种结构化推理还增强了自主性,使智能体能够在更少用户干预下完成复杂任务。此外,它还支持更有效的工具使用,帮助智能体判断何时以及如何调用外部资源。更重要的是,它提升了可解释性——通过按逻辑顺序展开每一步,智能体的决策会更透明、更易理解。

行动与工具利用(Action and tool utilization)

行动与工具利用是一个关键组件,它使 LLM 智能体能够超越被动文本生成,主动与外部系统、工具或环境交互。它连接了推理与执行,使智能体能够执行现实世界任务,如检索实时数据、运行代码、查询数据库或自动化工作流。

核心功能(Core functions)

AI 智能体中的行动与工具利用组件通常遵循一个逐步执行流程,这有助于理解智能体如何与外部工具交互并完成任务。其核心功能包括:

  • 工具调用(Tool invocation) :智能体首先识别某个任务是否需要外部辅助,例如执行网页搜索、使用计算器或调用 API。然后它为工具构造正确输入,并解释工具输出以继续推理。
  • 工具选择与路由(Tool selection and routing) :一旦确认需要使用工具,智能体会判断哪种工具最适合当前子任务。它会根据上下文和意图将任务路由到相应工具。
  • 动作执行(Action execution) :在选择工具后,智能体执行预定义或动态动作。这些动作可能包括发送邮件、更新文件或操作浏览器。该功能常用于自动化工作流、软件智能体或机器人系统。
  • 结果整合(Result integration) :最后,智能体将工具输出整合回自身推理循环中。这种整合可能触发进一步行动,或帮助智能体完善对原始任务的响应。

例如,智能体首先根据用户查询识别具体需求,比如: “巴黎当前天气怎么样?” 它意识到该信息需要实时数据,于是触发相应工具,如天气 API 或网页搜索插件。工具被激活后,它执行操作并获取请求数据。随后,智能体将结果整合回推理过程,生成完整且上下文相关的回答,例如: “现在 18°C 且多云,所以我建议安排室内活动。” 这一流程确保智能体能够动态结合内部推理与外部数据,提供准确且可执行的输出。

常用工具类型(Types of tools commonly used)

工具为智能体提供信息、功能与资源访问能力,这些能力原本并不具备。LLM 智能体可以使用内部工具和外部工具来增强能力并执行更广泛的动作。常见工具类型如下:

  • Web 搜索 API(如 Bing、Google)
  • 代码执行引擎(如 Python 沙箱)
  • 数据库或知识库
  • 日历、电子邮件与生产力工具
  • 自定义 API(如天气、金融、旅行)

以下是智能体通过内部工具(代码生成、文本处理等)和外部工具(API、数据库、网页浏览器等)执行的一些常见动作:

  • LLM 生成自然语言:LLM 擅长生成类人文本,这是许多 LLM 智能体应用中的常见动作,例如回复用户问题或生成文档摘要。
  • 与 API 交互:LLM 智能体可通过 API 与外部系统和服务交互,例如搜索 API、日历 API 和邮件 API。这使它们能够从数据库检索信息,并向 Web 服务发起请求。
  • 控制物理系统:在某些场景中,LLM 智能体可与机器人系统或其他物理设备集成,从而控制机器人运动或与物理世界交互。
  • 编写并执行代码:LLM 智能体可以编写并执行代码,使其能够进行复杂计算、自动化任务并与软件系统交互。

例如,一个充当个人助理的 LLM 智能体可能执行以下动作:

  • 生成自然语言: “好的,我已经把这个预约添加到你的日历里了。”
  • 调用 API:调用 Google Calendar API 创建新的日历事件。
  • 发送邮件:使用邮件 API 向用户发送确认邮件。

环境交互(Environment interaction)

环境交互模块使 LLM 智能体能够与其周围的数字或物理环境建立接口并进行操作。不同于被动语言生成,该模块允许智能体在外部系统中进行观察、导航与行动,如表 3.1 所述。它将智能体从“对话助手”转变为“可交互、可执行任务的实体”。

核心功能描述示例
观察(Observation)通过传感器、API 或系统输出来感知环境状态读取网页内容、检查文件状态、解释摄像头画面
导航(Navigation)在数字界面或物理空间中移动点击网站、打开文件夹、引导机器人穿过房间
操作(Manipulation)执行改变环境的动作填写表单、编辑文档、向 IoT 设备发送命令、控制机械臂

表 3.1:环境交互的核心功能

LLM 会根据用户输入生成一个计划或命令。该命令随后被转换为环境接口可执行的指令。环境执行动作并返回反馈,智能体再据此决定下一步。这一循环会持续进行,直到任务完成。

环境接口(Environment interfaces)

以下是一些常见接口,它们使智能体能够与环境进行无缝通信和交互:

  • Web 浏览器:用于网页自动化、抓取或表单提交
  • 文件系统:用于读取、写入或组织文件
  • API 和软件工具:用于与电子表格、日历或数据库等应用交互
  • 机器人平台:用于控制现实世界中的物理设备
  • 虚拟环境:用于仿真、游戏或训练智能体

示例用例(Example use case)

我们给 LLM 一个任务: “从某公司网站下载最新财报,并保存到一个文件夹中。” LLM 执行如下流程:

  • LLM:理解任务并生成计划。
  • 环境接口:打开浏览器,导航到网站,定位报告,下载并保存到指定位置。
  • 反馈循环:确认文件已成功保存;如出错则重试。

自我反思(Self-reflection)

自我反思是一种反馈机制,使 LLM 智能体能够评估、批判并改进自己的输出。它体现为智能体基于环境反馈对先前决策与行动进行内省、评估,并改进其策略或知识,从而带来更好的结果。智能体不再仅依赖外部反馈或用户纠正,而是使用内部推理评估自身响应的质量、准确性和连贯性。该模块受人类元认知(metacognition)启发,即“对自身思维进行思考”的能力。它对于提升自治智能体的可靠性和减少错误至关重要。

核心功能(Core functions)

核心功能如下:

  • 自我评估(Self-evaluation) :智能体回顾自身输出,检查逻辑一致性、事实正确性和表达清晰度。
    例如,在生成摘要后,智能体会问自己: “我是否包含了所有关键点?”
  • 错误检测(Error detection) :识别潜在错误、幻觉或不完整推理。
    例如,发现某个数学解答跳过了步骤,或某条引用事实可能已经过时。
  • 反馈生成(Feedback generation) :以自然语言生成建设性反馈,通常表现为批评或建议。
    例如: “这个解释大体正确,但应进一步澄清第二步。”
  • 迭代优化(Iterative refinement) :利用反馈修订并改进原始响应。
    这一过程可进行一轮或多轮,直到输出达到更高质量标准。

常见方法(Popular approaches)

以下三种方法在 AI 智能体开发中较为常见:

  • Self-refine^3:Self-refine 提出一种方法,由单个 LLM 先生成初始输出,再对其进行批判并迭代优化,无需额外训练或监督。该方法在多类任务上平均提升约 20% 的表现。
  • Reflection^4:该方法使智能体能够反思失败尝试、用语言表述出错原因,并利用这些反思指导后续尝试。它引入了类似强化学习的循环,将语言化反馈作为学习信号。
  • Critic^5:该论文提出一个两阶段过程:LLM 先生成答案,再调用 critic 模块(另一个 LLM 或工具增强版本)评估并纠正初始响应。

简化工作流(Simplified workflow)

下表描述了一个典型的自我反思工作流:

步骤描述示例工作流
初始输出(Initial output)智能体对用户查询生成响应智能体给出一个基础解释
自我审查(Self-review)切换到反思模式并批评自身输出它意识到遗漏了反向传播和梯度下降等关键概念
反馈综合(Feedback synthesis)形成具体改进建议添加关于如何使用梯度更新权重以及损失函数作用的细节
修订(Revision)融合反馈重新生成响应重新生成包含反向传播和梯度下降的解释
最终输出(Final output)将改进后的版本呈现给用户生成更完整、技术上更准确的解释

表 3.2:典型自我反思工作流

自我反思通过减少幻觉与事实错误来提升准确性;通过生成连贯、结构良好的响应来保证清晰性;并通过让智能体无需人工干预即可自我纠错来增强自主性。此外,这一过程还通过使智能体推理过程更透明、更可靠来促进信任。

面向 AI 智能体的 Agentic 设计模式

Agentic 设计模式帮助 AI 智能体(尤其是使用 LLM 的智能体)变得更独立、更高效。这些模式使 AI 智能体能够分解任务、做出决策,并逐步改进结果,而不是试图一步到位解决所有问题。比如,让一个 AI 智能体在一个提示里完成全部任务,就像让一个人写作文但不允许修改一样——也许能完成,但还可以更好。Agentic 设计让 AI 像人一样按步骤工作,例如先规划、再修订、再优化。

这种方法正受到越来越多关注,许多开源工具和研究论文都在探索这一方向。AI 专家 Andrew Ng 甚至提出了一个框架,用于帮助对这些模式进行分类和理解。随着该领域不断发展,还会持续涌现新的技术方法。

下面,我们将在后续小节中更详细地探讨四种主要的 Agentic 设计模式。

反思模式(Reflection pattern)

反思模式使智能体能够评估并优化自身输出。该模式受到人类内省与修订过程的启发,使 AI 智能体既能作为“创作者”,也能作为“批评者”,通过结构化反馈循环不断改进响应。智能体会对自己的推理进行内省,分析结果,识别不足,并迭代优化。这个自我批评过程能够提升最终输出的质量与准确性。

核心组件(Core component)

反思模式的核心组件如下表所示:

组件描述示例(写一篇新闻文章摘要)
生成(Generation)任务的初始响应或解决方案智能体写出一篇 200 字摘要
反思(Reflection)对生成输出进行自我评估/自我批评,并生成用于优化的具体反馈检查事实准确性、冗余和清晰度
优化(Refinement)根据反思或批评进行调整重写不清晰部分并删除重复内容
重复(Repeat)循环持续进行,直到满足停止条件(如质量阈值或迭代次数上限)对新版本再次评估,并持续优化直至满足停止条件

表 3.3:反思模式的核心组件

反思模式架构(Reflection pattern architecture)

图 3.3 展示了反思设计模式的架构。LLM 针对给定用户查询生成初始输出;随后,LLM 或 critic 智能体对其进行反思,生成反思后的输出;该输出再由 LLM 进一步评估。这个迭代循环会持续进行,直到满足停止条件。

image.png

图 3.3:反思模式架构

这种“反馈—改进”的循环模拟了人类如何进行批判性思考和问题求解。无论是写摘要、处理困难任务,还是在动态场景中工作,这一过程都能让 AI 智能体更加准确、可靠。它还有助于确保 AI 智能体的行为符合伦理和实践规则,从而整体上获得更好的结果。

现实世界应用(Real-world applications)

反思模式可应用于多种场景,尤其适用于需要对 AI 生成内容进行迭代优化的情况。以下是一些实际示例:

  • 代码助手(Code assistants) :反思模式对代码生成和代码审查任务非常有用。它可以自动纠错并优化生成代码,还能帮助实现高效算法并处理边界情况。
  • 内容创作(Content creation) :博客写作、摘要生成和 SEO 优化是反思模式的常见应用。比如,AI 智能体先生成文章初稿,再基于自我批评进行优化。
  • 教育(Education) :AI 导师会对某道数学题解法或证明的讲解进行反思和改进。这有助于学生学习如何批判性审视自己的初始答案并识别改进空间。

让我们看一个使用反思模式的代码生成智能体示例。下图展示了反思模式如何对“按某个键对字典列表排序”的错误代码进行修正与优化:

image.png

图 3.4:使用反思模式的代码生成智能体

尽管反思模式需要更多计算资源,但其在质量提升方面的收益对于要求高准确性与高复杂度的应用至关重要。借助这一模式,AI 智能体可以在多个领域中以更优结果解决复杂任务。

工具使用模式(Tool use pattern)

工具使用是一种核心的 Agentic 设计模式:它让 LLM 可以访问外部工具(如网页搜索、代码执行或 API),从而突破静态文本生成的能力边界。仅基于静态数据训练的 LLM 在事实准确性、实时信息获取和复杂计算方面存在局限。通过集成工具,LLM 可以搜索网络以获取最新信息、执行代码进行精确计算、与生产力工具(如日历、邮件)交互,并查询结构化数据库或 API。

关键特性(Key features)

工具使用模式的关键特性如下:

  • 外部资源访问(External resource access) :使智能体能够与 API、数据库或 Web 服务等外部系统交互。
  • 工具调用(Tool invocation) :允许智能体根据任务或查询动态选择并调用合适的工具。
  • 信息检索(Information retrieval) :支持获取实时或领域特定数据,以增强智能体的推理能力和回答准确性。
  • 动作执行(Action execution) :使智能体能够执行计算、数据查询或触发工作流等任务,从而更具交互性和执行能力。

工具使用模式架构(Tool use pattern architecture)

图 3.5 展示了工具使用模式的架构:LLM 调用外部工具,例如 API、数据库、Web 搜索或其他实用工具;在使用工具后,LLM 生成响应并返回给用户。

image.png

图 3.5:工具使用模式架构

工具使用模式是一种 AI 系统设计方式,它让 AI 能够使用自身之外的工具和资源,以克服自身限制。这种方法增强了 AI 智能体与外部世界交互的能力,使其更擅长解决问题并给出有用答案。在高级系统中,LLM 可能可用的工具多达数百个,将所有工具描述都放入提示词中并不现实。因此,开发者会使用启发式方法筛选出相关工具子集。这一思路受 Patil 等人(2023)提出的 Gorilla 论文启发,该论文探讨了大型工具库中的动态工具选择。

现实世界应用(Real-world applications)

工具使用模式广泛用于通过工具利用内部与外部信息,帮助 AI 智能体更有效地完成任务。以下是一些实际示例:

  • 网页搜索(Web search) :智能体使用搜索引擎 API 查找相关信息来回答用户问题。它还可利用特定资源(如 Wikipedia、arXiv)获取最新研究相关内容。
  • API 交互(API interaction) :智能体可使用天气 API 获取当前天气,或使用 Yahoo Finance API 获取股票价格及相关金融信息,用于交易系统。
  • 生产力工具(Productivity tools) :智能体使用邮件、日历等生产力工具进行沟通或安排预约。

下面以一个天气智能体示例来说明工具使用模式。图 3.6 展示了一个简单天气智能体的 Python 代码,它会从 OpenWeatherMap API 获取指定地点的天气数据:

image.png

图 3.6:使用工具使用模式的天气智能体

这种工具使用设计模式使语言模型能够通过集成外部工具实现实时数据访问、计算与任务执行,从而超越静态响应。这显著提升了模型的准确性、交互性以及解决复杂现实问题的能力。

规划模式(Planning pattern)

Agentic AI 中的规划模式,是指通过提示 LLM 自主生成一个步骤序列来完成复杂任务。智能体不是执行单一动作,而是将任务拆分为多个子任务,规划执行顺序,然后逐步执行,执行过程中通常会使用工具或其他智能体。其核心组件(例如任务分解)以及常见方法(例如 ReAct)已在上一节中介绍。

规划模式架构(Planning pattern architecture)

图 3.7 展示了一个简单的规划设计模式架构。用户提交查询后,规划器(planner)接收查询,创建计划并将计划发送给任务生成模块;任务进一步传递给 ReAct 智能体执行。执行结果会被评估,并不断迭代这一过程,直到得到成功结果。规划设计模式通过“规划—执行—反馈”支持自适应决策。

image.png

图 3.7:规划模式架构

现实世界应用(Real-world applications)

许多现实任务天然是多步骤的,无法通过一次工具调用有效解决。规划设计模式通过让智能体将任务分解为可管理的子任务、按逻辑顺序组织行动,并在工具失效或条件变化时动态调整,使 Agentic 系统能够处理这类复杂性。这种结构化方法让智能体在现实场景中运行得更自主、更可靠。典型应用包括:

  • 旅行规划(Travel planning) :智能体将一次出行拆解为预订机票、预订住宿、安排活动等子目标,并制定计划来完成它们。
  • 软件开发(Software development) :智能体将软件开发拆分为多个模块,定义各模块功能,并制定实现与测试计划。
  • 文档摘要(Document summarization) :智能体将长文档划分为多个部分,分别总结后再整合为总摘要。

下面以一个使用规划模式的旅行规划智能体为例。图 3.8 展示了一个旅行规划智能体的 Python 脚本,它使用规划设计模式来规划旅行:将任务分解为机票搜索与酒店预订,随后调用 SearchAPI.io 服务搜索航班与酒店,最后将搜索结果组合成完整行程方案。

image.png

图 3.8:使用规划模式的旅行规划智能体

多智能体模式(Multi-agent pattern)

多智能体模式建立在前述模式之上——反思、工具使用和规划模式帮助智能体变得更自主、更智能。多智能体模式则涉及多个智能体协同工作,以实现共同目标。每个智能体可以拥有专门角色与专业能力,它们通过通信与协调来解决单个智能体难以处理的复杂问题。多智能体系统的优势如下:

  • 模块化(Modularity) :每个智能体聚焦于特定职责,且可替换。
  • 可扩展性(Scalability) :任务可以分布到多个智能体。
  • 效率(Efficiency) :并行执行可减少耗时。
  • 专业化(Specialization) :智能体可针对特定领域进行优化。

核心组件(Core components)

多智能体设计模式通常包括以下核心组件:

  • 一个负责任务拆解的规划器或协调智能体(planner/coordinator agent)
  • 执行子任务的专用智能体(specialized agents)
  • 用于共享结果与协调行动的通信协议(communication protocol)

多智能体的关键特征包括协作、通信、协调、专业化以及分布式问题求解。不同类型多智能体架构及其关键特征的详细说明见第四章《Multi-agent Systems》。

多智能体模式架构(Multi-agent pattern architecture)

图 3.9 展示了多智能体设计模式架构,并说明了在软件开发场景中,用户与多个专用智能体之间的交互过程。流程从用户需求发送给产品经理(PM)智能体开始,由其负责规划并产出功能规格说明;接着技术负责人(tech lead)智能体将工作分解为任务,并分派给软件开发工程师(SDE)智能体编写代码;最后由 DevOps 智能体完成软件部署,并确保其在生产环境中稳定运行。每个智能体根据任务需要与其他智能体建立连接。各智能体会处理查询的一部分并将任务委派给其他智能体,最终响应再返回给用户。每个智能体都是自治且具备领域专长的,从而实现并行化、专业化与可扩展性。

image.png

图 3.9:多智能体模式架构

现实世界应用(Real-world applications)

多智能体模式非常适合构建协作式、高效且可扩展的 AI 系统。多智能体有助于构建模块化、可扩展架构来解决复杂问题,广泛用于现实问题求解。由于以下原因,它在软件工程、客户支持和复杂决策等领域尤其有用:

  • 客户服务团队(Customer service team) :不同专用智能体分别处理计费、技术支持和订单处理等客户服务环节。
  • 分布式问题求解(Distributed problem solving) :多个智能体协作管理复杂系统,如软件开发、城市交通流或供应链。
  • 协同写作(Collaborative writing) :多个智能体协作撰写一本书,每个智能体负责不同章节或不同方面。

下面以一个使用多智能体模式的旅行规划智能体为例。
在多智能体设计模式中,一个旅行规划智能体不会在内部直接调用机票搜索和酒店搜索 API,而是使用两个专门智能体(Google Flights agent 和 Google Hotels agent)来获取并输出完整行程方案。Google Flights 智能体负责获取航班数据,而 Google Hotels 智能体负责获取给定城市与日期范围内的酒店列表。如下图所示:

image.png

图 3.10:使用多智能体模式的旅行规划智能体

下一节将对各种 Agentic 设计模式进行比较分析,突出它们各自独特的特性与用途。

Agentic 设计模式对比(Comparison of agentic design patterns)

表 3.4 展示了关键 Agentic 设计模式的对比。这将帮助你为特定用例选择最合适的设计模式。比如,当任务复杂、多步骤或需要条件逻辑时,就需要使用规划模式;而当工作流固定或确定性较强时,则不需要规划。在这类场景下,反思模式可能更有用,因为它可以在设定迭代次数内持续优化生成响应。

特性 / 模式Reflection(反思)Tool use(工具使用)Planning(规划)Multi-agent(多智能体)
目的(Purpose)通过反馈循环实现自我改进使用外部工具增强能力将任务拆解为子目标与其他智能体协作
关键机制(Key mechanism)自我批评与迭代API 调用、计算器、搜索引擎任务分解与顺序编排通信与协调
优势(Strengths)提升质量与正确性扩展超出 LLM 限制的能力处理复杂、多步骤任务并行与专业化可解决非常复杂的问题
劣势(Weaknesses)可能较慢或陷入循环工具可靠性与集成复杂度需要准确的规划启发式策略协调开销
复杂度(Complexity)
示例用例(Example use case)文章写作、代码审查数学求解、数据查询项目管理、故事生成博弈智能体、协同写作

表 3.4:多种 Agentic 设计模式对比

另一个有趣的点是,Andrew Ng 的 AI Fund 团队曾基于这四类 Agentic 设计模式,对多种算法与方法在广泛使用的 HumanEval 编码基准上的结果进行了分析。其结论总结在下图中:

image.png

图 3.11:多种 Agentic 设计的性能评估
来源:deeplearning.ai

如图所示,GPT-3.5(zero-shot)的正确率为 48.1%,GPT-4(zero-shot)提升到 67.0%。然而,从 GPT-3.5 到 GPT-4 的提升幅度,仍不及引入迭代式 agent 工作流所带来的增益。事实上,在 agent 循环中封装后,GPT-3.5 的正确率最高可达 95.1%。这一对比强调了:Agentic 设计模式对于提升准确率和性能至关重要。

这些 Agentic 设计方面的进展,凸显了将迭代工作流与对话式界面整合到 AI 系统中的变革潜力。为了充分释放这些能力,必须将技术创新与以用户为中心的设计策略相结合,以提升可访问性与功能性。下一节将介绍用于构建高效 AI 智能体的用户体验(UX)设计策略。

贴近原文翻译如下:


面向 Agentic AI 的 UX 设计策略(UX design strategies for agentic AI)

设计用户友好的 Agentic 系统,需要在透明性(transparency) 、**交互性(interactivity)适应性(adaptability)**之间进行审慎平衡。以下小节结合示例与设计建议,说明最有效的 UX 设计策略。


对话式界面(Conversational interfaces)

对话式界面以自然语言(文本或语音)作为主要交互方式,因此对用户来说非常直观且易于访问。这降低了用户使用门槛,也让系统显得更自然、更像人与人交流。此类界面尤其适合需要快速输入或免手操作的任务,例如设置提醒、控制智能设备或检索信息。参见下表:

特性价值/收益示例
基于聊天的 UI(Chat-based UI)熟悉且易用ChatGPT、Google Assistant
语音输入/输出(Voice input/output)免手交互Alexa、Siri
上下文记忆(Contextual memory)交互连续性更强,回答更相关Replika、带记忆功能的 ChatGPT

表 3.5:对话式界面 UX 设计的关键特性

提示(Tip) :使用清晰的提示语和确认语,例如:
“收到!我会为你预订 6 月 5 日飞往巴黎的航班。”
这可以让用户确认系统已正确理解输入,同时保持交互流畅。


多模态交互(Multi-modal interaction)

多模态交互将文本沟通可视化内容交互元素结合起来,形成整体化用户体验。这种方式适配不同用户偏好与认知风格,使系统更有吸引力,也更具普适可访问性。通过整合地图、图表和图像,用户可以更直观地理解复杂数据或决策(例如选择旅行酒店)。按钮和卡片则能简化决策流程,减少选择负担。多模态设计在需要视觉确认或上下文增强的应用中尤为有价值。参见下表:

特性价值/收益示例
地图、图表、图像(Maps, charts, images)可视化数据与决策在地图上显示酒店位置
按钮与卡片(Buttons and cards)简化选择选择一个:🏨 Hotel A

表 3.6:多模态交互 UX 设计的关键特性

提示(Tip) :对结果使用卡片(cards),对操作使用按钮(buttons),以提升操作效率,确保用户能清晰地浏览选项而不产生困惑。


个性化(Personalization)

个性化是指根据用户偏好、历史行为或上下文信息,定制智能体的行为、交互风格和推荐内容。这能让系统显得更贴合用户需求、更直观,从而提升用户满意度与参与度。通过构建详细的用户画像,系统可以预判用户需求,例如根据以往行程推荐目的地。偏好记忆还可加快决策流程,减少重复操作(如反复指定偏好的酒店星级或航班时间)。有效的个性化能够建立熟悉感与忠诚度,使用户更愿意持续使用该智能体。参见下表:

特性价值/收益示例
用户画像(User profiles)定制化响应欢迎回来,Alex。又在规划去东京的旅行吗?
偏好记忆(Preference memory)节省时间与精力你通常偏好 4 星级酒店。

表 3.7:个性化 UX 设计的关键特性

提示(Tip) :鼓励用户显式设置偏好,同时提供便捷的更新和调整选项,确保智能体保持动态、以用户为中心。


透明规划(Transparent planning)

透明规划是指在执行任务前,向用户展示智能体的推理过程或执行步骤。这有助于建立信任、增强用户控制权,并避免误解。通过逐步预览,用户可以验证决策是否合理(例如先订机票还是先订酒店)。可编辑计划则允许用户在不重启流程的情况下修改细节。透明规划不仅提升用户信心,也促进人机协作,使系统更可预测、更可靠。参见下表:

特性价值/收益示例
分步预览(Step-by-step preview)用户可审查并批准动作Step 1: 搜索航班Step 2: 预订酒店
可编辑计划(Editable plans)用户可修改步骤更改酒店位置或出行日期

表 3.8:透明规划 UX 设计的关键特性

提示(Tip) :可采用可折叠面板(collapsible panels)或动态时间线(dynamic timelines)来可视化计划,方便用户跟踪并无缝修改步骤。


工具反馈可视化(Tools feedback visualization)

反馈可视化向用户展示智能体正在使用哪些工具,以及任务处理进度如何。这能增强清晰度与信心,让用户理解智能体的能力边界与工作状态。诸如实时进度指示器和工具使用日志等功能,可让用户监控任务执行过程,避免不确定“系统是否正在正确执行动作”。例如,显示 API 调用或数据检索日志,可提升系统运行的透明度。参见下表:

特性价值/收益示例
工具图标或日志(Tool icons or logs)清晰展示工具使用情况正在使用 Google Flights API…
进度指示器(Progress indicators)显示任务状态正在搜索酒店… 已完成 80%

表 3.9:工具反馈可视化 UX 设计的关键特性

提示(Tip) :使用图标和工具提示(tooltips)来解释工具功能。


错误恢复与重新规划(Error recovery and replanning)

错误恢复与重新规划功能能增强 Agentic 系统的韧性,使用户在遇到失败时仍能顺畅推进而不至于挫败。友好的错误提示可引导用户采用替代方案,例如调整参数或在新条件下重试任务。重新规划循环(replanning loops)的引入使智能体能够动态适应,在需要时切换工具或策略。这些特性对于维持用户信任、构建容错系统至关重要,使系统即便在挑战或挫折中也能持续提供价值。参见下表:

特性价值/收益示例
重试建议(Retry suggestions)保持用户控制权未找到航班。要不要试试其他日期?
重新规划循环(Replanning loop)智能体自动适应从 Google Search 切换到 Wikipedia

表 3.10:对话式界面 UX 设计的关键特性
(注:原文表题如此,内容实际对应“错误恢复与重新规划”)

提示(Tip) :使用友好的错误提示,并提供替代方案,而不只是说 “Something went wrong” (出错了)。


下表总结了各类 UX 策略的目标与关键要素:

UX 策略目标关键要素
对话式 UI(Conversational UI)自然交互聊天、语音、记忆
多模态交互(Multi-modal interaction)丰富、直观的体验地图、卡片、按钮
个性化(Personalization)相关性与效率用户画像、偏好
透明规划(Transparent planning)信任与控制步骤预览、可编辑计划
工具反馈可视化(Tool feedback visualization)清晰度与信心图标、日志、进度条
错误恢复(Error recovery)韧性重规划、重试选项

表 3.11:Agentic AI 的 UX 设计策略总结

这些策略强调了以用户为中心的设计在促进与 Agentic AI 系统无缝交互中的重要性,确保系统不仅能有效执行任务,也能优雅地适应用户需求与预期。

下一节将介绍如何基于关键设计原则开发和部署可扩展的 AI 智能体。

扩展与部署 AI 智能体(Scaling and deploying AI agents)

本节概述了指导构建与部署稳健、可扩展 AI 智能体的基础原则。这些设计原则确保 AI 智能体具备有效性、可靠性,并与人类价值保持一致。每条原则都会结合示例与近期研究发现进行说明。

模块化(Modularity)

模块化指一种设计方法:AI 智能体的各组件彼此解耦,并能够独立运行。该原则带来灵活性、可复用性,以及更易维护的优势。模块化系统可以在不影响整体系统的情况下完成更新或替换。模块化 AI 系统还能够提升可扩展性与鲁棒性。在复杂环境中,采用模块化架构的智能体通常也优于单体式(monolithic)智能体。表 3.12 总结了模块化在 AI 智能体设计中的优势:

优势描述
灵活性(Flexibility)组件可独立更新
复用性(Reusability)组件可在不同系统中复用
可维护性(Maintenance)更易维护与调试单个组件

表 3.12:AI 智能体设计中模块化的优势

例如,在一个客服 AI 智能体中,感知模块(负责理解用户问题)可以独立于动作模块(负责回复用户)进行更新。这种模块化方式确保某一组件的改进不会破坏其他组件的功能。

自主性(Autonomy)

自主性指 AI 智能体在最少人工干预下独立运行的能力。自主智能体能够自主决策、从环境中学习,并在没有持续监督的情况下适应新情境。近期关于自主 AI 智能体的研究,重点在于增强决策能力并确保其与人类目标保持一致。一篇关于自主医疗智能体的最新论文^6 强调,这类智能体能够在最少人工监督下辅助医学诊断与治疗规划。下表总结了 AI 智能体设计中自主性的关键方面:

方面描述
决策(Decision-making)独立做出决策的能力
学习(Learning)从环境中学习的能力
适应(Adaptation)适应新情境的能力

表 3.13:AI 智能体设计中自主性的关键方面

例如,自动驾驶汽车能够在无人类输入的情况下完成道路导航、障碍物规避与驾驶决策。这种自主性通过先进的感知、推理与学习机制实现。

交互性(Interactivity)

交互性指 AI 智能体通过多模态界面与用户互动的能力。交互型智能体能够理解并响应自然语言、手势及其他沟通形式。具备交互性的 AI 智能体通常带来更好的 UX 和更高的沟通准确性。一项关于多模态交互智能体的最新研究^7 表明,能够同时理解文本与视觉输入的智能体,可以提供更准确、更有帮助的回应。下表总结了 AI 智能体设计中交互性的关键方面:

方面描述
自然语言处理(Natural language processing)理解并生成人类语言
多模态感知(Multimodal perception)融合文本、视觉和听觉输入
用户参与(User engagement)有效吸引并与用户互动的能力

表 3.14:AI 智能体设计中交互性的关键方面

例如,像 OpenAI 的 ChatGPT 这样的聊天机器人可以与用户进行自然语言对话,提供信息、回答问题并协助完成任务。这些交互能力依赖于先进的 NLP 与多模态感知能力。

适应性(Adaptability)

适应性指 AI 智能体从新数据中学习并动态调整行为的能力。具备适应性的智能体能够随着时间推移提升性能,并对变化环境做出响应。近期关于自适应 AI 智能体的研究主要聚焦于提高学习效率与改善泛化能力。一个自适应强化学习智能体能够在动态环境中以较少训练数据学到最优策略。下表总结了 AI 智能体设计中适应性的关键方面:

方面描述
学习效率(Learning efficiency)从新数据中快速学习的能力
泛化能力(Generalization)在多种场景下保持良好表现的能力
动态调整(Dynamic adjustment)动态调整行为的能力

表 3.15:AI 智能体设计中适应性的关键方面

例如,一个旅行智能体可以通过学习用户交互记录来适配用户偏好,并推荐更相关的旅行路线。这种适应性通常通过强化学习、few-shot learning 等高级学习机制实现。

可扩展性与效率(Scalability and efficiency)

在设计 AI 智能体时,可扩展性与效率是应对增长需求和优化成本的关键原则。可扩展性确保 AI 系统能够处理不断增长的任务量、数据量、复杂度与用户负载。系统设计必须支持计算与内存资源的高效使用,确保智能体在规模扩张时不会出现性能退化。效率还强调通过为不同任务选择不同 LLM 来最小化计算成本。并非所有任务都需要最强模型:简单任务(如检索或意图分类)可以使用更小、更快的模型,而复杂任务(如退款审批)则可能需要更强模型。表 3.16 总结了可扩展性与效率在 AI 智能体设计中的优势:

优势描述
性能稳定性(Performance stability)在更高工作负载下保持稳定运行
成本优化(Cost optimization)最小化资源消耗与运营成本
实时响应能力(Real-time responsiveness)支持动态环境中的即时响应

表 3.16:AI 智能体设计中可扩展性与效率的优势

例如,在大型电商平台中,AI 智能体必须高效处理成千上万的并发用户咨询。可扩展性确保系统在购物高峰期性能稳定,而效率则保证响应及时且不过度消耗算力资源。

可解释性(Explainability)

可解释性指 AI 智能体能够对其决策提供透明推理的能力。可解释的智能体可以为自身行为提供理由,使决策过程对用户可理解,从而有助于提升用户信任。一项关于可解释医疗智能体的最新研究表明,能够为决策提供清晰解释的智能体,更容易获得医疗专业人员信任。下表总结了 AI 智能体设计中可解释性的关键方面:

方面描述
透明性(Transparency)能够为决策提供清晰推理
用户信任(User trust)通过可解释行为提升信任
模型内省(Model introspection)理解模型行为的技术手段

表 3.17:AI 智能体设计中可解释性的关键方面

例如,医疗诊断智能体可以解释其建议治疗方案背后的推理依据,帮助医生理解推荐结论的基础。这种可解释性可通过模型内省、决策树等技术实现。

安全性与对齐(Safety and alignment)

安全性与对齐指确保 AI 智能体行为符合伦理,并与人类价值保持一致。安全且对齐的智能体能够降低风险、避免有害行为,同时增强鲁棒性并防止滥用。近期关于伦理 AI 智能体的研究强调,这类智能体可以通过遵循伦理原则、避免有害行动来实现负责任部署。下表总结了 AI 智能体设计中安全性与对齐的关键方面:

方面描述
伦理行为(Ethical behavior)确保智能体行为合乎伦理
鲁棒性(Robustness)提升智能体可靠性与安全性
故障安全机制(Fail-safe mechanisms)通过失效保护机制防止有害行为

表 3.18:AI 智能体设计中安全性与对齐的关键方面

例如,自动驾驶汽车在设计中会优先考虑安全,通过避免碰撞和遵守交通规则来实现安全目标。这种安全性与对齐通过严格测试、伦理准则和故障安全机制来保障。

扩展与部署 AI 智能体(Scaling and deploying AI agents)

本节概述了指导构建与部署健壮且可扩展的 AI 智能体的基础原则。这些设计原则确保 AI 智能体具备有效性、可靠性,并且与人类价值观保持一致。下面将结合示例与近期研究发现,对各项原则进行展开说明。

模块化(Modularity)

模块化是指一种设计方法:将 AI 智能体的各个组件解耦,使其能够独立运行。这一原则带来了灵活性、可复用性以及更易维护的优势。模块化系统可以在不影响整体系统的前提下进行更新或替换。模块化 AI 系统还能提升可扩展性与鲁棒性。在复杂环境中,采用模块化架构的智能体通常也优于单体式(monolithic)智能体。表 3.12 总结了模块化在 AI 智能体设计中的好处:

收益 | 描述

  • 灵活性(Flexibility) :组件可以独立更新。
  • 可复用性(Reusability) :组件可在不同系统中复用。
  • 可维护性(Maintenance) :更容易维护和调试各个独立组件。

表 3.12:AI 智能体设计中模块化的好处

例如,在一个客服 AI 智能体中,感知模块(负责理解用户查询)可以独立于动作模块(负责回复用户查询)进行更新。这种模块化方法可以确保某一组件的改进不会干扰其他组件的正常运行。

自主性(Autonomy)

自主性是指 AI 智能体在最少人工干预下独立运行的能力。自主智能体能够自主决策、从环境中学习,并在无需持续监督的情况下适应新情境。近期关于自主 AI 智能体的研究,主要聚焦于增强其决策能力,并确保其与人类目标保持一致。一篇关于自主医疗智能体的近期论文(论文6)指出,这类智能体可以在极少人工监督的情况下,辅助进行医学诊断与治疗规划。下表总结了 AI 智能体设计中自主性的关键方面:

方面 | 描述

  • 决策(Decision-making) :独立做出决策的能力。
  • 学习(Learning) :从环境中学习的能力。
  • 适应(Adaptation) :适应新情境的能力。

表 3.13:AI 智能体设计中自主性的关键方面

例如,一辆自动驾驶汽车可以在没有人工输入的情况下完成道路导航、避障和驾驶决策。这种自主性依赖于先进的感知、推理与学习机制。

交互性(Interactivity)

交互性是指 AI 智能体通过多模态界面与用户交互的能力。交互型智能体能够理解并响应自然语言、手势以及其他形式的交流方式。具备交互能力的 AI 智能体通常能提供更好的用户体验(UX)和更高的沟通准确性。一项关于多模态交互智能体的近期研究(论文7)表明,能够同时理解文本与视觉输入的智能体,可以提供更准确、更有帮助的响应。下表总结了 AI 智能体设计中交互性的关键方面:

方面 | 描述

  • 自然语言处理(Natural language processing) :理解和生成人类语言。
  • 多模态感知(Multimodal perception) :融合文本、视觉和听觉输入。
  • 用户参与(User engagement) :有效吸引并与用户互动的能力。

表 3.14:AI 智能体设计中交互性的关键方面

例如,像 OpenAI 的 ChatGPT 这样的聊天机器人可以与用户进行自然语言对话,提供信息、回答问题并协助完成任务。这些交互能力由先进的 NLP 和多模态感知能力支撑实现。

适应性(Adaptability)

适应性是指 AI 智能体从新数据中学习并动态调整其行为的能力。具有适应性的智能体能够随着时间推移提升性能,并对变化的环境做出响应。近期关于自适应 AI 智能体的研究重点在于提升学习效率和泛化能力。一个自适应强化学习智能体可以在动态环境中利用最少训练数据学习到最优策略。下表总结了 AI 智能体设计中适应性的关键方面:

方面 | 描述

  • 学习效率(Learning efficiency) :从新数据中快速学习的能力。
  • 泛化能力(Generalization) :在多样化场景中保持良好表现的能力。
  • 动态调整(Dynamic adjustment) :动态调整行为的能力。

表 3.15:AI 智能体设计中适应性的关键方面

例如,一个旅行智能体可以通过学习用户交互行为来适应用户偏好,并推荐更相关的旅游行程。这种适应性可通过强化学习、少样本学习等先进学习机制实现。

可扩展性与效率(Scalability and efficiency)

可扩展性与效率是在设计 AI 智能体时,用于应对需求增长与优化成本的关键原则。可扩展性确保 AI 系统能够处理不断增加的任务量、数据量、复杂度和用户负载。设计上必须支持计算与内存的高效使用,确保智能体在规模扩张时不会出现性能退化。效率还体现在通过为不同任务选择不同的 LLM 来降低计算成本。并非所有任务都需要最先进的模型。像检索或意图分类这类简单任务,可使用更小、更快的模型;而像退款审批这类复杂任务,则可能需要能力更强的模型。表 3.16 总结了 AI 智能体设计中可扩展性与效率的优势:

优势 | 描述

  • 性能稳定性(Performance stability) :在更高工作负载下保持稳定运行。
  • 成本优化(Cost optimization) :降低资源消耗和运营成本。
  • 实时响应性(Real-time responsiveness) :在动态环境中支持即时响应。

表 3.16:AI 智能体设计中可扩展性与效率的优势

例如,在大型电商平台中,AI 智能体必须高效处理成千上万的并发用户查询。可扩展性保证系统在促销高峰期仍能稳定运行,而效率则保证响应能及时返回,并避免过高的计算开销。

可解释性(Explainability)

可解释性是指 AI 智能体能够为其决策提供透明推理依据的能力。可解释智能体可以为自己的行为提供理由,使用户能够理解其决策过程,从而提升用户信任。一项关于可解释医疗智能体的近期研究表明,能够清晰解释其决策依据的智能体更容易获得医疗专业人员的信任。下表总结了 AI 智能体设计中可解释性的关键方面:

方面 | 描述

  • 透明性(Transparency) :能够为决策提供清晰推理。
  • 用户信任(User trust) :通过可解释行为提升信任。
  • 模型内省(Model introspection) :用于理解模型行为的技术。

表 3.17:AI 智能体设计中可解释性的关键方面

例如,医疗诊断智能体可以解释其建议治疗方案背后的推理逻辑,帮助医生理解建议的依据。这种可解释性通常通过模型内省、决策树等技术来实现。

安全与对齐(Safety and alignment)

安全与对齐是指确保 AI 智能体的行为符合伦理规范,并与人类价值观保持一致。安全且对齐的智能体能够降低风险、防止有害行为,并增强系统鲁棒性、避免被滥用。近期关于伦理 AI 智能体的研究强调,这类智能体可以被设计为遵循伦理原则并避免有害行为。下表总结了 AI 智能体设计中安全与对齐的关键方面:

方面 | 描述

  • 伦理行为(Ethical behavior) :确保智能体以合乎伦理的方式行动。
  • 鲁棒性(Robustness) :提升智能体的可靠性与安全性。
  • 故障保护机制(Fail-safe mechanisms) :通过故障保护机制防止有害行为。

表 3.18:AI 智能体设计中安全与对齐的关键方面

例如,自动驾驶汽车在设计时会优先考虑安全性,通过避免碰撞和遵守交通规则来实现。这种安全与对齐是通过严格测试、伦理准则以及故障保护机制来实现的。

结论(Conclusion)

在本章中,我们探讨了支撑 Agentic AI 中**单智能体系统(single-agent systems)**的基础架构与设计原则。我们考察了多个核心组件,包括 LLM、记忆、规划与推理、动作与工具使用、环境交互以及自我反思,这些组件共同赋能智能体在动态环境中进行感知、推理、行动与适应。这些组件构成了智能体的认知与运行骨架,使其能够以越来越高的自主性与可靠性执行复杂任务。

随后,我们讨论了最具影响力的 Agentic 设计模式,即 反思(reflection)、工具使用(tool use)、规划(planning)和多智能体(multi-agent) 。每一种模式都为提升智能体性能提供了结构化方法——无论是通过迭代式自我改进、集成外部工具、基于规划的任务拆解,还是通过多智能体系统处理专门任务。这些模式不仅提升了智能体输出的质量和准确性,也使其更加具备适应性与可解释性。

为了确保这些系统对终端用户而言既易用又有效,我们还介绍了关键的 UX 设计策略。从对话式界面、多模态交互,到透明规划与错误恢复,这些策略有助于弥合技术能力与人类可用性之间的鸿沟。最后,我们讨论了 AI 智能体扩展与部署的原则,强调 模块化、自主性、适应性与可解释性 是支撑健壮真实世界应用的关键推动因素。

综合来看,这些洞见为设计智能、用户友好且可扩展的单智能体系统提供了基础。随着 Agentic AI 的持续演进,这些原则将成为构建既强大、又与人类需求和期望相一致的 AI 系统的重要指南。

尽管单智能体系统功能强大,但现实世界问题往往需要协作、专业化分工以及分布式智能。下一章将探讨多智能体系统(MAS) 。你将学习 MAS 的架构、协调策略、通信协议以及真实世界应用,并了解它们如何在本章介绍的设计模式基础上进一步提升可扩展性、效率与问题求解能力。

要点回顾(Points to remember)

  • 基于 LLM 的智能体是一类学习型智能体,利用大语言模型在较少训练和较强泛化能力的前提下执行复杂任务。
  • 单智能体系统独立运行,由 LLM、记忆、规划、动作、环境交互和自我反思等核心组件构成。
  • 规划与推理使智能体能够拆解任务、逐步推理,并借助 CoT、ToT、ReAct 和 ReWOO 等技术动态调整。
  • 工具使用使智能体能够与外部系统(API、数据库、Web 搜索)交互,从而突破静态文本生成的能力边界。
  • 环境交互通过赋予智能体观察、导航与操控数字或物理环境的能力,使其从“回答型系统”转变为“执行型实体”。
  • 自我反思通过 self-refine、reflection 和 critique 等方法,让智能体能够批判和优化自身输出,从而提升准确性与可靠性。
  • Agentic 设计模式(如反思、工具使用、规划和多智能体)为构建智能、自主、可扩展的智能体提供了结构化方法。
  • UX 设计策略(如对话式界面、多模态交互、个性化、透明规划和错误恢复)对于构建用户友好的 Agentic 系统至关重要。
  • 可扩展与部署原则(如模块化、自主性、交互性、适应性、可解释性与安全性)可确保 AI 智能体系统具备健壮性并符合伦理要求。

关键术语(Key terms)

  • Agentic AI(智能体式 AI) :通过感知、推理、行动和学习来自主运行的 AI 系统。
  • Large language model (LLM,大语言模型) :一种预训练神经网络模型,能够理解并生成人类语言,是许多 AI 智能体的核心。
  • Single-agent system(单智能体系统) :由单个智能体独立执行任务的 AI 系统,通常包含记忆、规划和工具等组件。
  • Multi-agent system (MAS,多智能体系统) :由多个智能体协作或竞争以解决复杂问题的系统。
  • Short-term memory (STM,短期记忆) :智能体在单次会话中用于存储近期交互和上下文的临时记忆。
  • Long-term memory (LTM,长期记忆) :跨会话持久存储知识、用户偏好和过往经验的记忆。
  • Chain-of-thought (CoT,思维链) :一种提示技术,鼓励 LLM 进行逐步推理。
  • Tree-of-thoughts (ToT,思维树) :一种在树形结构中探索多条推理路径,以提升决策质量的推理框架。
  • Reason + Act (ReAct) :一种模式,智能体围绕任务进行推理,并基于推理结果迭代执行动作。
  • Reasoning Without Observation (ReWOO) :一种将规划与工具输出解耦的推理策略,以减少不必要的工具使用。
  • UX design(用户体验设计) :用于让 Agentic 系统更易用的用户体验策略与方法。

参考文献(References)

  • Cheng Y., et. al. (2024). Exploring large language model-based intelligent agents: Definitions, methods, and prospects. arXiv:2401.03428.
  • Luo, J., et. al (2025). Large Language Model Agent: A Survey on Methodology, Applications and Challenges. arXiv:2502.01559.
  • Wei, J., et. al. (2022). Chain of Thought Prompting Elicits Reasoning in Large Language Models. arXiv:2201.119031.
  • Wang, X., et. al. (2023). Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171.
  • Yao, S., et. al. (2023). Tree of Thoughts: Deliberate Problem Solving with Large Language Models. arXiv:2305.10601.
  • Yao, S., et. al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629.
  • Xu. B., et. al. (2023). ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models. arXiv:2305.18323.
  • Madaan, A., et. al. (2023). Self-Refine: Iterative Refinement with Self-Feedback. arXiv:2303.17651.
  • Shinn, N., et al. (2023). Reflection: Language Agents with Verbal Reinforcement Learning. arXiv:2303.11366.
  • Gou, Z., et al. (2024). CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing. arXiv:2305.11738.
  • Patil, S., et al. (2023). Gorilla: Large Language Model Connected with Massive APIs. arXiv:2305.15334.
  • Gao, S., et al. (2024). Efficient Tool Use with Chain-of-Abstraction Reasoning. arXiv:2401.17464.
  • Agentic design pattern evaluation: www.deeplearning.ai/the-batch/h….
  • Agentic design patterns: www.analyticsvidhya.com/blog/2024/1….
  • OpenAI - A practical guide to building agents: (URL: cdn.openai.com/business-gu…)
  • Building Effective AI Agents - Anthropic: (URL: www.anthropic.com/research/bu…)
  • Karunanayake, N. (2025). Nextgeneration agentic AI for transforming healthcare. Informatics and Health, 2(2), 73–83.
  • Durante, Z., et al. (2024). Agent AI: Surveying the Horizons of Multimodal Interaction. arXiv:2401.03568.