AI 编程（Agent 开发）术语指南 · 第一章简介为了更系统地理解智能体（Agent）相关的 AI 编程流程，本章

简介

为了更系统地理解智能体（Agent）相关的 AI 编程流程，本章聚焦于智能体范式与核心框架，解释它们在自治推理、任务分解与执行中的角色和相互关系。阅读顺序建议先掌握范式概念，再深入架构与能力模块的协同方式。

核心术语速览

智能体范式：Agent、Environment、State、Action、Reward 等组成完整的感知—决策—行动闭环。
Agent 框架/架构：ReAct、Plan-and-Execute、Toolformer、Memory、RAG、World Model、Reflection、Planner、Executor、Tool Orchestration 构成任务分解与执行管线。

术语体系分类

智能体范式（Agent Paradigm）

Agent：在特定环境中感知、决策并执行动作以达成目标的实体。
Environment（环境）：Agent 感知与交互的外部世界，可包含用户、数据源或物理场景。
State（状态）：对当前环境或内部记忆的描述，决定 Agent 下一步策略。
Action（动作）：Agent 对环境施加的操作，例如回答、调用工具或执行任务。
Reward（奖励）：对动作效果的定量反馈，用于衡量任务完成度或行为好坏。
Policy（策略）：从状态到动作的映射，定义 Agent 的行为准则。
Observation（观察）：Agent 能获取的环境信息，可能是状态的部分视图。
Perception-Action Loop（行动循环）：观察→思考→行动→反馈的闭环流程。
Multi-Agent System（多智能体系统）：多个 Agent 在同一环境中协作或竞争的体系。

在实践中，范式相关术语帮助我们界定开发范围：先明确 Agent 要在什么环境里解决什么问题，再选择合适的状态表示和策略优化方法。对于需要协同的复杂系统，多智能体机制可以让不同角色的 Agent 分担子任务。

Agent 框架/架构

ReAct：交替输出推理与行动的对话式推理框架，兼顾透明性与灵活性。
Plan-and-Execute：将任务分为计划与执行两阶段，提高复杂任务的可控性。
Toolformer：让模型自学 API 调用时机与参数的训练范式，使工具使用更自主。
Memory（记忆模块）：存储上下文、偏好与知识，支持长程对话和连续任务。
RAG（检索增强生成）：结合检索与生成，确保回答具备实时与事实依据。
World Model（世界模型）：模拟环境动态，辅助推演与决策。
Reflection（反射）：对既往行为进行复盘与迭代，提升后续表现。
Planner（计划器）：负责任务拆解与行动排序的模块。
Executor（执行器）：按计划或即时决策执行动作的模块。
Tool Orchestration（工具编排）：统一管理工具目录、调度与调用流程的层。

选择框架时要考虑任务复杂度与资源限制：快速问答可用 ReAct，长流程任务倾向 Plan-and-Execute，若依赖大量外部 API 则需 Toolformer 与 Tool Orchestration 配合。Memory、RAG、World Model、Reflection 组成“感知—知识—复盘”中枢，支撑高阶智能体。

术语详解

智能体范式相关术语

Agent

Agent 是在特定环境中感知信息、根据策略决策并执行动作以达成目标的自治实体。它具备感知、决策、执行三大核心能力，可以是软件形态（如对话模型）、硬件形态（如机器人）或混合形态。Agent 通过与环境交互不断学习优化，是构建智能系统的核心单元。

核心要点：具备感知、决策、执行三大能力；可为软件（对话模型）、硬件（机器人）或混合形态。
典型场景：智能客服、交易机器人、自动驾驶、流程自动化。
实践建议：建模时明确职责边界，避免单体 Agent 承担过多任务导致状态复杂。

Environment（环境）

Environment 是 Agent 感知与作用的外部世界，可以是现实物理空间、虚拟系统或抽象数据接口。环境决定 Agent 可观察的信息与反馈机制，是设计奖励函数与约束条件的重要依据。不同的环境特性（如确定性/随机性、完全可观测/部分可观测）直接影响 Agent 的策略设计难度。

核心要点：环境决定可观察信息与反馈机制，是设计奖励与约束的重要依据。
典型场景：聊天环境（用户输入）、业务流程系统、金融市场、仿真平台。
实践建议：描述环境时要量化可感知变量与可控变量，必要时引入 World Model 进行模拟。

State（状态）

State 是对环境或 Agent 内部的当前描述，决定后续动作选择。状态可以是全局的（完全可观测）或局部的（部分可观测），这种可观测性直接影响策略求解难度。在对话系统中，状态包含上下文和历史记忆；在控制问题中，状态包含位置、速度等物理量。良好的状态表示是高效决策的基础。

核心要点：状态可以是全局（完全可观测）或局部（部分可观测），影响策略求解难度。
典型场景：在对话中，状态包含上下文、历史记忆；在控制问题中，包含位置、速度等物理量。
实践建议：设计状态表示时关注信息充分性与维度可控性，必要时通过特征提取或嵌入编码。

Action（动作）

Action 是 Agent 对环境施加影响的操作，如回答文本、调用工具、移动设备。动作空间可以是离散的（从有限选择项中选择）或连续的（控制连续量），这种设计直接影响策略学习难度和执行器实现方式。动作的选择需要平衡即时收益与长期目标，是 Agent 决策的核心输出。

核心要点：动作空间可离散（选择项）也可连续（控制量），与执行器实现方式直接相关。
典型场景：对话 Output、API 调用、机械臂移动、发出提醒。
实践建议：明确动作的前置条件与副作用；对高风险动作加上人工确认或多级策略。

Reward（奖励）

Reward 是衡量动作效果的数值反馈，用于指引策略优化。奖励可以是即时的（动作后立即反馈）或延迟的（长期目标达成后反馈），其设计质量直接影响强化学习效率。良好的奖励函数应该能准确反映任务目标，避免稀疏奖励问题，通过分步奖励和奖励塑形（Reward Shaping）提升学习稳定性。

核心要点：可即时（即时反馈）或延迟（长期目标）；设计得好坏直接影响强化学习效率。
典型场景：任务成功给正奖励，违规或失败给负奖励；客服满意度评分、点击率指标等。
实践建议：避免稀疏奖励，可通过分步奖励、奖励塑形（Reward Shaping）提升学习稳定性。

Policy（策略）

Policy 是从状态到动作的映射函数，描述 Agent 的行为模式。策略可以是手写规则、训练得到的模型或二者混合，可以是确定性的（相同状态总是选择相同动作）或随机性的（按概率分布选择动作）。在复杂系统中，采用分层策略（高层规划、底层执行）可以提升解释性与可维护性。

核心要点：策略可以是手写规则、训练模型或二者混合；可确定性或随机性。
典型场景：强化学习得到的策略网络、if-else 业务规则、Prompt 引导的决策逻辑。
实践建议：在复杂系统中采用分层策略（高层规划、底层执行），提升解释性与可维护性。

Observation（观察）

Observation 是 Agent 能够实际获取的环境信息，可能是状态的一部分或带噪声的视图。在部分可观测环境中，Agent 需要通过记忆或推理补全缺失信息，才能做出准确决策。观察的质量直接影响 Agent 的感知能力，需要经过预处理（过滤、归一化、编码）保障输入质量。

核心要点：部分可观测时需要记忆或推理补全缺失信息。
典型场景：用户消息、传感器读数、API 返回值。
实践建议：对观察进行预处理（过滤、归一化、编码），保障输入质量；结合 Memory 保留关键上下文。

Perception-Action Loop（行动循环）

Perception-Action Loop 是 Agent 持续执行“观察→思考→行动→反馈”的闭环流程。循环频率和反馈延迟直接影响整体性能，需要设计机制避免无效循环或死循环。这种循环机制让 Agent 能够持续与环境交互，根据反馈调整策略，实现动态适应和持续改进。

核心要点：循环频率、反馈延迟影响整体性能；需要机制避免无效循环。
典型场景：多轮对话、实时控制、自动化脚本运行。
实践建议：设置最大循环次数与停止条件；对每轮决策记录日志便于溯源与调试。

Multi-Agent System（多智能体系统）

Multi-Agent System 是由多个 Agent 在同一环境中协作或竞争完成复杂任务的系统。这种系统涉及通信协议、任务分配、冲突解决等关键问题，可采用集中式或分布式协调机制。多智能体系统能够通过分工协作处理单个 Agent 难以完成的复杂任务，但也需要防范群体行为带来的涌现风险。

核心要点：涉及通信协议、任务分配、冲突解决；可采用集中式或分布式协调。
典型场景：客服热线分流、供应链协同、游戏对战、机器人群体。
实践建议：明确 Agent 之间的边界与职责，设计共享记忆或消息总线；监控群体行为防止涌现风险。

Agent 框架相关术语

ReAct（Reason + Act）

ReAct 让模型显式分隔“思考”与“行动”两种输出：先写出推理，再决定是否调用工具或直接回答。通过“思考→行动→反馈→再思考”的循环，它能及时利用外部信息并随环境反馈调整策略，常用于需要多步推理或外部查询的任务。

核心要点：融合 Chain of Thought 与工具调用，让推理步骤对外可见，便于审查；支持在每轮行动后重新评估计划。
典型场景：长对话问答、数据查询+解释、多文档对比分析、客服助手等需要连续追问的任务。
实践建议：限制思考轮数避免无穷循环；与 guardrails 结合，对每次行动前的推理做关键词审查。

Plan-and-Execute

Plan-and-Execute 采用计划与执行分离的两阶段架构：Planner 先产出任务分解和行动计划，Executor 再逐项执行并反馈。这种设计的优点是操作路径透明、易于手动审查或插入人工确认，缺点是初始计划可能不完美，需在执行阶段支持变更或与 Reflection 结合。适合流程清晰、步骤顺序敏感的结构化任务。

核心要点：第一阶段聚焦全局目标，第二阶段专注局部执行；适合对步骤顺序敏感的任务。
典型场景：项目管理、复杂报表生成、代码重构、流程自动化（如 DevOps 工作流）。
实践建议：为 Planner 输出设计结构化模板（步骤、前置条件、预计输出）；Executor 执行时记录状态，支持计划动态调整。

Toolformer

Toolformer 提供了一种训练流程，让大模型在自监督数据中学习“何时、如何调用工具”。模型读取原始语料，自己决定插入工具调用，并根据工具返回的结果更新回答，再以此构造训练样本。推理阶段模型无需额外提示就能主动发起 API 调用，实现半自主的工具使用，降低对人工标注的依赖。

核心要点：通过自生成训练样本学习调用策略，降低对人工标注的依赖。
典型场景：需要频繁查询数据库、计算、外部服务的企业级助手；自动代码生成时选择合适编译/测试工具。
实践建议：在训练阶段限制可用工具集合并提供调用示例，避免模型尝试不存在的接口；上线前记录调用日志评估收益。

Memory（记忆模块）

Memory 用于保存会话历史、用户画像、业务知识等，可按时间跨度划分为短期、中期与长期。通过记忆，Agent 能保持连续对话中的上下文一致性、复用过往推理或结论避免重复工作，并根据用户偏好个性化调整答复与策略。短期记忆常驻上下文窗口，中期记忆存储在会话存档，长期记忆可落地数据库并按需检索。

核心要点：记忆分层管理（短期/中期/长期）；支持上下文一致性、知识复用与个性化。
典型场景：长对话助手、个性化推荐、知识库问答、多轮任务协作。
实践建议：设计记忆写入策略（何时写、写什么）；建立隐私脱敏与过期机制，保证合规。

RAG（Retrieval-Augmented Generation）

RAG 先从外部知识库检索相关文档，再将检索结果与用户问题一起输入模型生成答案。这种方法的优点是增强事实准确性、支持实时更新，缺点是依赖检索质量，需要维护高质量的索引与领域数据。检索阶段决定信息边界，生成阶段负责综合与语言组织，两者质量共同决定输出效果。

核心要点：检索阶段决定信息边界，生成阶段负责综合与语言组织；两者质量共同决定输出效果。
典型场景：企业知识库问答、政策解读、技术支持、法律与医疗文档查询。
实践建议：构建向量索引并维护新鲜度；对检索结果做摘要或重排序；对引用内容标注来源提升可信度。

World Model（世界模型）

World Model 是 Agent 对外部环境与动态规律的内部表征，可用于模拟环境演化、预测动作后果，在缺乏真实交互时进行“想象演练”，并为 Planner/Executor 提供更准确的状态估计。在具身智能与强化学习领域尤为重要，也可与语言模型结合，用于复杂策略推演。模型可以状态转移函数或生成模型描述环境，可分为显式物理模型和隐式神经网络模型。

核心要点：以状态转移函数或生成模型描述环境；可分为显式物理模型和隐式神经网络模型。
典型场景：机器人控制、自动驾驶仿真、金融风险评估、游戏 AI 推演。
实践建议：当真实交互成本高时优先构建世界模型；定期用真实数据校准模型，避免“模型偏差”累积。

Reflection（反射）

Reflection 让 Agent 在完成任务后自查：分析成功/失败原因、总结规则或修正 Prompt，进而更新 Memory 或 Planner 策略。常见实现是让模型生成自我评估，再根据评估结果重写答案或调整计划，实现“自我提升”。这种机制形成“执行→评估→改写”闭环，减少重复错误，可配合记忆模块记录经验。

核心要点：形成“执行→评估→改写”闭环，减少重复错误；可配合记忆模块记录经验。
典型场景：写作助手的多轮润色、代码生成后的自测修复、学习式对话机器人。
实践建议：限制反射次数避免过度消耗；引入评分准则（如是否回答关键点）指导自我评估。

Planner（计划器）

Planner 负责理解目标、拆分子任务、排序依赖。它接收用户需求与当前上下文，结合 Memory、World Model 或检索结果评估可行路径，输出结构化计划（步骤列表、里程碑、所需工具等）。Planner 的质量直接影响执行效率，复杂任务可引入多轮规划或人工评审。核心能力包括任务分解（Task Decomposition）、依赖分析、资源分配。

核心要点：任务分解（Task Decomposition）、依赖分析、资源分配。
典型场景：多阶段营销活动策划、产品研发路线、数据清洗流水线、长文档写作大纲。
实践建议：为 Planner 提供领域模板（如 PRD 章节）；对输出做可执行性校验，必要时让用户确认。

Executor（执行器）

Executor 基于 Planner 的输出采取行动：调用工具、运行代码、发起请求等。它需处理异常（如工具调用失败）、记录执行结果，并把结果反馈给 Planner 或 Reflection，保证整个循环闭环调优。执行器需具备动作调度、异常处理、结果汇报能力，并支持幂等和可恢复操作。

核心要点：动作调度、异常处理、结果汇报；需具备幂等和可恢复能力。
典型场景：自动化运维脚本、数据管道处理、批量文档生成、机器人任务执行。
实践建议：实现统一的任务状态管理（pending / running / success / failed）；对关键动作加入手动确认或回滚机制。

Tool Orchestration（工具编排）

当 Agent 可调用多个工具时，Tool Orchestration 负责管理工具目录、能力标签与调用接口，根据任务上下文选择最合适的工具，并统一处理认证、速率限制、失败重试与结果整合。在大型系统中，编排层还会监控调用日志、计算成功率，为后续优化提供数据。核心能力包括工具注册、选择策略（基于规则或模型）、调用流水追踪。

核心要点：工具注册、选择策略（基于规则或模型）、调用流水追踪。
典型场景：企业知识助手调度搜索、表格、邮件等服务；多模态 Agent 选择语音/图像/视频工具。
实践建议：维护工具元数据（输入输出格式、耗时、权限）；设置熔断与重试策略保障稳定性。