简介
为了更系统地理解智能体(Agent)相关的 AI 编程流程,本章聚焦于智能体范式与核心框架,解释它们在自治推理、任务分解与执行中的角色和相互关系。阅读顺序建议先掌握范式概念,再深入架构与能力模块的协同方式。
核心术语速览
- 智能体范式:Agent、Environment、State、Action、Reward 等组成完整的感知—决策—行动闭环。
- Agent 框架/架构:ReAct、Plan-and-Execute、Toolformer、Memory、RAG、World Model、Reflection、Planner、Executor、Tool Orchestration 构成任务分解与执行管线。
术语体系分类
智能体范式(Agent Paradigm)
- Agent:在特定环境中感知、决策并执行动作以达成目标的实体。
- Environment(环境):Agent 感知与交互的外部世界,可包含用户、数据源或物理场景。
- State(状态):对当前环境或内部记忆的描述,决定 Agent 下一步策略。
- Action(动作):Agent 对环境施加的操作,例如回答、调用工具或执行任务。
- Reward(奖励):对动作效果的定量反馈,用于衡量任务完成度或行为好坏。
- Policy(策略):从状态到动作的映射,定义 Agent 的行为准则。
- Observation(观察):Agent 能获取的环境信息,可能是状态的部分视图。
- Perception-Action Loop(行动循环):观察→思考→行动→反馈的闭环流程。
- Multi-Agent System(多智能体系统):多个 Agent 在同一环境中协作或竞争的体系。
在实践中,范式相关术语帮助我们界定开发范围:先明确 Agent 要在什么环境里解决什么问题,再选择合适的状态表示和策略优化方法。对于需要协同的复杂系统,多智能体机制可以让不同角色的 Agent 分担子任务。
Agent 框架/架构
- ReAct:交替输出推理与行动的对话式推理框架,兼顾透明性与灵活性。
- Plan-and-Execute:将任务分为计划与执行两阶段,提高复杂任务的可控性。
- Toolformer:让模型自学 API 调用时机与参数的训练范式,使工具使用更自主。
- Memory(记忆模块):存储上下文、偏好与知识,支持长程对话和连续任务。
- RAG(检索增强生成):结合检索与生成,确保回答具备实时与事实依据。
- World Model(世界模型):模拟环境动态,辅助推演与决策。
- Reflection(反射):对既往行为进行复盘与迭代,提升后续表现。
- Planner(计划器):负责任务拆解与行动排序的模块。
- Executor(执行器):按计划或即时决策执行动作的模块。
- Tool Orchestration(工具编排):统一管理工具目录、调度与调用流程的层。
选择框架时要考虑任务复杂度与资源限制:快速问答可用 ReAct,长流程任务倾向 Plan-and-Execute,若依赖大量外部 API 则需 Toolformer 与 Tool Orchestration 配合。Memory、RAG、World Model、Reflection 组成“感知—知识—复盘”中枢,支撑高阶智能体。
术语详解
智能体范式相关术语
Agent
Agent 是在特定环境中感知信息、根据策略决策并执行动作以达成目标的自治实体。它具备感知、决策、执行三大核心能力,可以是软件形态(如对话模型)、硬件形态(如机器人)或混合形态。Agent 通过与环境交互不断学习优化,是构建智能系统的核心单元。
- 核心要点:具备感知、决策、执行三大能力;可为软件(对话模型)、硬件(机器人)或混合形态。
- 典型场景:智能客服、交易机器人、自动驾驶、流程自动化。
- 实践建议:建模时明确职责边界,避免单体 Agent 承担过多任务导致状态复杂。
Environment(环境)
Environment 是 Agent 感知与作用的外部世界,可以是现实物理空间、虚拟系统或抽象数据接口。环境决定 Agent 可观察的信息与反馈机制,是设计奖励函数与约束条件的重要依据。不同的环境特性(如确定性/随机性、完全可观测/部分可观测)直接影响 Agent 的策略设计难度。
- 核心要点:环境决定可观察信息与反馈机制,是设计奖励与约束的重要依据。
- 典型场景:聊天环境(用户输入)、业务流程系统、金融市场、仿真平台。
- 实践建议:描述环境时要量化可感知变量与可控变量,必要时引入 World Model 进行模拟。
State(状态)
State 是对环境或 Agent 内部的当前描述,决定后续动作选择。状态可以是全局的(完全可观测)或局部的(部分可观测),这种可观测性直接影响策略求解难度。在对话系统中,状态包含上下文和历史记忆;在控制问题中,状态包含位置、速度等物理量。良好的状态表示是高效决策的基础。
- 核心要点:状态可以是全局(完全可观测)或局部(部分可观测),影响策略求解难度。
- 典型场景:在对话中,状态包含上下文、历史记忆;在控制问题中,包含位置、速度等物理量。
- 实践建议:设计状态表示时关注信息充分性与维度可控性,必要时通过特征提取或嵌入编码。
Action(动作)
Action 是 Agent 对环境施加影响的操作,如回答文本、调用工具、移动设备。动作空间可以是离散的(从有限选择项中选择)或连续的(控制连续量),这种设计直接影响策略学习难度和执行器实现方式。动作的选择需要平衡即时收益与长期目标,是 Agent 决策的核心输出。
- 核心要点:动作空间可离散(选择项)也可连续(控制量),与执行器实现方式直接相关。
- 典型场景:对话 Output、API 调用、机械臂移动、发出提醒。
- 实践建议:明确动作的前置条件与副作用;对高风险动作加上人工确认或多级策略。
Reward(奖励)
Reward 是衡量动作效果的数值反馈,用于指引策略优化。奖励可以是即时的(动作后立即反馈)或延迟的(长期目标达成后反馈),其设计质量直接影响强化学习效率。良好的奖励函数应该能准确反映任务目标,避免稀疏奖励问题,通过分步奖励和奖励塑形(Reward Shaping)提升学习稳定性。
- 核心要点:可即时(即时反馈)或延迟(长期目标);设计得好坏直接影响强化学习效率。
- 典型场景:任务成功给正奖励,违规或失败给负奖励;客服满意度评分、点击率指标等。
- 实践建议:避免稀疏奖励,可通过分步奖励、奖励塑形(Reward Shaping)提升学习稳定性。
Policy(策略)
Policy 是从状态到动作的映射函数,描述 Agent 的行为模式。策略可以是手写规则、训练得到的模型或二者混合,可以是确定性的(相同状态总是选择相同动作)或随机性的(按概率分布选择动作)。在复杂系统中,采用分层策略(高层规划、底层执行)可以提升解释性与可维护性。
- 核心要点:策略可以是手写规则、训练模型或二者混合;可确定性或随机性。
- 典型场景:强化学习得到的策略网络、if-else 业务规则、Prompt 引导的决策逻辑。
- 实践建议:在复杂系统中采用分层策略(高层规划、底层执行),提升解释性与可维护性。
Observation(观察)
Observation 是 Agent 能够实际获取的环境信息,可能是状态的一部分或带噪声的视图。在部分可观测环境中,Agent 需要通过记忆或推理补全缺失信息,才能做出准确决策。观察的质量直接影响 Agent 的感知能力,需要经过预处理(过滤、归一化、编码)保障输入质量。
- 核心要点:部分可观测时需要记忆或推理补全缺失信息。
- 典型场景:用户消息、传感器读数、API 返回值。
- 实践建议:对观察进行预处理(过滤、归一化、编码),保障输入质量;结合 Memory 保留关键上下文。
Perception-Action Loop(行动循环)
Perception-Action Loop 是 Agent 持续执行“观察→思考→行动→反馈”的闭环流程。循环频率和反馈延迟直接影响整体性能,需要设计机制避免无效循环或死循环。这种循环机制让 Agent 能够持续与环境交互,根据反馈调整策略,实现动态适应和持续改进。
- 核心要点:循环频率、反馈延迟影响整体性能;需要机制避免无效循环。
- 典型场景:多轮对话、实时控制、自动化脚本运行。
- 实践建议:设置最大循环次数与停止条件;对每轮决策记录日志便于溯源与调试。
Multi-Agent System(多智能体系统)
Multi-Agent System 是由多个 Agent 在同一环境中协作或竞争完成复杂任务的系统。这种系统涉及通信协议、任务分配、冲突解决等关键问题,可采用集中式或分布式协调机制。多智能体系统能够通过分工协作处理单个 Agent 难以完成的复杂任务,但也需要防范群体行为带来的涌现风险。
- 核心要点:涉及通信协议、任务分配、冲突解决;可采用集中式或分布式协调。
- 典型场景:客服热线分流、供应链协同、游戏对战、机器人群体。
- 实践建议:明确 Agent 之间的边界与职责,设计共享记忆或消息总线;监控群体行为防止涌现风险。
Agent 框架相关术语
ReAct(Reason + Act)
ReAct 让模型显式分隔“思考”与“行动”两种输出:先写出推理,再决定是否调用工具或直接回答。通过“思考→行动→反馈→再思考”的循环,它能及时利用外部信息并随环境反馈调整策略,常用于需要多步推理或外部查询的任务。
- 核心要点:融合 Chain of Thought 与工具调用,让推理步骤对外可见,便于审查;支持在每轮行动后重新评估计划。
- 典型场景:长对话问答、数据查询+解释、多文档对比分析、客服助手等需要连续追问的任务。
- 实践建议:限制思考轮数避免无穷循环;与 guardrails 结合,对每次行动前的推理做关键词审查。
Plan-and-Execute
Plan-and-Execute 采用计划与执行分离的两阶段架构:Planner 先产出任务分解和行动计划,Executor 再逐项执行并反馈。这种设计的优点是操作路径透明、易于手动审查或插入人工确认,缺点是初始计划可能不完美,需在执行阶段支持变更或与 Reflection 结合。适合流程清晰、步骤顺序敏感的结构化任务。
- 核心要点:第一阶段聚焦全局目标,第二阶段专注局部执行;适合对步骤顺序敏感的任务。
- 典型场景:项目管理、复杂报表生成、代码重构、流程自动化(如 DevOps 工作流)。
- 实践建议:为 Planner 输出设计结构化模板(步骤、前置条件、预计输出);Executor 执行时记录状态,支持计划动态调整。
Toolformer
Toolformer 提供了一种训练流程,让大模型在自监督数据中学习“何时、如何调用工具”。模型读取原始语料,自己决定插入工具调用,并根据工具返回的结果更新回答,再以此构造训练样本。推理阶段模型无需额外提示就能主动发起 API 调用,实现半自主的工具使用,降低对人工标注的依赖。
- 核心要点:通过自生成训练样本学习调用策略,降低对人工标注的依赖。
- 典型场景:需要频繁查询数据库、计算、外部服务的企业级助手;自动代码生成时选择合适编译/测试工具。
- 实践建议:在训练阶段限制可用工具集合并提供调用示例,避免模型尝试不存在的接口;上线前记录调用日志评估收益。
Memory(记忆模块)
Memory 用于保存会话历史、用户画像、业务知识等,可按时间跨度划分为短期、中期与长期。通过记忆,Agent 能保持连续对话中的上下文一致性、复用过往推理或结论避免重复工作,并根据用户偏好个性化调整答复与策略。短期记忆常驻上下文窗口,中期记忆存储在会话存档,长期记忆可落地数据库并按需检索。
- 核心要点:记忆分层管理(短期/中期/长期);支持上下文一致性、知识复用与个性化。
- 典型场景:长对话助手、个性化推荐、知识库问答、多轮任务协作。
- 实践建议:设计记忆写入策略(何时写、写什么);建立隐私脱敏与过期机制,保证合规。
RAG(Retrieval-Augmented Generation)
RAG 先从外部知识库检索相关文档,再将检索结果与用户问题一起输入模型生成答案。这种方法的优点是增强事实准确性、支持实时更新,缺点是依赖检索质量,需要维护高质量的索引与领域数据。检索阶段决定信息边界,生成阶段负责综合与语言组织,两者质量共同决定输出效果。
- 核心要点:检索阶段决定信息边界,生成阶段负责综合与语言组织;两者质量共同决定输出效果。
- 典型场景:企业知识库问答、政策解读、技术支持、法律与医疗文档查询。
- 实践建议:构建向量索引并维护新鲜度;对检索结果做摘要或重排序;对引用内容标注来源提升可信度。
World Model(世界模型)
World Model 是 Agent 对外部环境与动态规律的内部表征,可用于模拟环境演化、预测动作后果,在缺乏真实交互时进行“想象演练”,并为 Planner/Executor 提供更准确的状态估计。在具身智能与强化学习领域尤为重要,也可与语言模型结合,用于复杂策略推演。模型可以状态转移函数或生成模型描述环境,可分为显式物理模型和隐式神经网络模型。
- 核心要点:以状态转移函数或生成模型描述环境;可分为显式物理模型和隐式神经网络模型。
- 典型场景:机器人控制、自动驾驶仿真、金融风险评估、游戏 AI 推演。
- 实践建议:当真实交互成本高时优先构建世界模型;定期用真实数据校准模型,避免“模型偏差”累积。
Reflection(反射)
Reflection 让 Agent 在完成任务后自查:分析成功/失败原因、总结规则或修正 Prompt,进而更新 Memory 或 Planner 策略。常见实现是让模型生成自我评估,再根据评估结果重写答案或调整计划,实现“自我提升”。这种机制形成“执行→评估→改写”闭环,减少重复错误,可配合记忆模块记录经验。
- 核心要点:形成“执行→评估→改写”闭环,减少重复错误;可配合记忆模块记录经验。
- 典型场景:写作助手的多轮润色、代码生成后的自测修复、学习式对话机器人。
- 实践建议:限制反射次数避免过度消耗;引入评分准则(如是否回答关键点)指导自我评估。
Planner(计划器)
Planner 负责理解目标、拆分子任务、排序依赖。它接收用户需求与当前上下文,结合 Memory、World Model 或检索结果评估可行路径,输出结构化计划(步骤列表、里程碑、所需工具等)。Planner 的质量直接影响执行效率,复杂任务可引入多轮规划或人工评审。核心能力包括任务分解(Task Decomposition)、依赖分析、资源分配。
- 核心要点:任务分解(Task Decomposition)、依赖分析、资源分配。
- 典型场景:多阶段营销活动策划、产品研发路线、数据清洗流水线、长文档写作大纲。
- 实践建议:为 Planner 提供领域模板(如 PRD 章节);对输出做可执行性校验,必要时让用户确认。
Executor(执行器)
Executor 基于 Planner 的输出采取行动:调用工具、运行代码、发起请求等。它需处理异常(如工具调用失败)、记录执行结果,并把结果反馈给 Planner 或 Reflection,保证整个循环闭环调优。执行器需具备动作调度、异常处理、结果汇报能力,并支持幂等和可恢复操作。
- 核心要点:动作调度、异常处理、结果汇报;需具备幂等和可恢复能力。
- 典型场景:自动化运维脚本、数据管道处理、批量文档生成、机器人任务执行。
- 实践建议:实现统一的任务状态管理(pending / running / success / failed);对关键动作加入手动确认或回滚机制。
Tool Orchestration(工具编排)
当 Agent 可调用多个工具时,Tool Orchestration 负责管理工具目录、能力标签与调用接口,根据任务上下文选择最合适的工具,并统一处理认证、速率限制、失败重试与结果整合。在大型系统中,编排层还会监控调用日志、计算成功率,为后续优化提供数据。核心能力包括工具注册、选择策略(基于规则或模型)、调用流水追踪。
- 核心要点:工具注册、选择策略(基于规则或模型)、调用流水追踪。
- 典型场景:企业知识助手调度搜索、表格、邮件等服务;多模态 Agent 选择语音/图像/视频工具。
- 实践建议:维护工具元数据(输入输出格式、耗时、权限);设置熔断与重试策略保障稳定性。