AI 编程(Agent 开发)术语指南 · 第二章

56 阅读14分钟

简介

第二章聚焦于智能体的行为管理与能力扩展,阐述如何通过规则、提示策略等手段约束与优化模型行为,以及如何借助函数调用、插件体系等手段扩展 Agent 的行动空间。理解这些术语有助于构建既可控又高效的智能体系统。

核心术语速览

  • 行为管理:Rules、Guardrails、Prompting Strategy、Context Window、System Prompt、User Prompt、Chain of Thought、Self-Consistency 等保证输出可控与一致。
  • 能力扩展:Function Calling、API 工具调用、Plugins、Skills、Action Space、Tool Routing、Knowledge Retrieval 扩大实际能力边界。

术语体系分类

行为管理

  • Rules(规则):对 Agent 行为的硬性约束,防止违规操作。
  • Constraints(约束):限定可用资源、时间或行为范围的条件。
  • Preferences(偏好):体现用户或系统倾向的软性指导,如语气或格式。
  • Guardrails(安全守卫):保护措施,避免输出敏感、违规或不安全内容。
  • Prompting Strategy(提示策略):设计提示以引导模型输出目标行为的方法。
  • Context Window(上下文窗口):模型一次可读写的 token 范围,影响记忆深度。
  • System Prompt(系统提示):定义整体人格、角色与规则的提示。
  • User Prompt(用户提示):用户发出的具体请求或指令。
  • Chain of Thought(思维链):显式书写推理步骤以提升复杂推断能力。
  • Self-Consistency(自一致性):多次推理取共识,降低随机误差。

行为管理确保输出符合品牌与安全标准:通过系统提示定义角色,用规则与约束限制边界,再配合 Guardrails、防护策略与思维链,提高回答的稳定性与可解释性。

能力扩展

  • Function Calling(函数调用):模型根据结构化契约调用后端函数获得精确信息。
  • API 工具调用:访问外部服务或数据库的接口调用,扩展模型能力边界。
  • Plugins(插件系统):为 Agent 提供可热插拔的新工具或服务模块。
  • Skills(技能):可复用的任务能力或操作流程,常以脚本或模板实现。
  • Action Space(行动空间):Agent 可执行的动作集合,决定其解决问题的方式。
  • Tool Routing(工具路由):依据上下文选择最合适的工具或技能。
  • Knowledge Retrieval(知识检索):在知识库中查找相关信息供模型使用。

扩展能力的关键是建立标准化接口和调度策略:明确行动空间后,可通过插件和技能库快速接入新功能,再借助工具路由与知识检索实现动态调整,实现“模型 + 工具 + 知识”三位一体。

术语详解

行为管理相关术语

Rules(规则)

Rules 是对 Agent 行为的硬性限制,通常不可被违反,是系统安全与合规的底线。规则通常以 if-then 形式表达,违反时触发 Refusal 或降级处理,可分层设计(全局规则、领域规则、会话规则)。规则与 Guardrails 协同工作,形成多层防护体系,确保 Agent 行为符合法律、合规和业务要求。

  • 核心要点:规则通常以 if-then 形式表达,违反时触发 Refusal 或降级处理;可分层(全局规则、领域规则、会话规则)。
  • 典型场景:禁止输出敏感信息、限制操作权限、强制合规检查、防止越权访问。
  • 实践建议:将规则前置到 System Prompt 或策略层,违规时触发 Refusal;建立规则库并支持动态更新;对规则冲突做优先级处理。

Constraints(约束)

Constraints 是对资源、时间、成本等方面的限制条件,规范 Agent 的行动边界。约束可以是硬性的(必须遵守)或软性的(尽量遵守),常见约束包括调用次数、响应时长、预算上限、并发数等。约束与规则不同,它主要关注资源限制而非行为规范,需要在 Planner 或 Executor 中动态检查和处理。

  • 核心要点:约束可以是硬性(必须遵守)或软性(尽量遵守);常见约束包括调用次数、响应时长、预算上限、并发数。
  • 典型场景:API 调用频率限制、响应时间要求、成本预算控制、并发任务数限制。
  • 实践建议:在 Planner 或 Executor 中检查约束,必要时重规划或降级处理;设置约束监控与告警;对接近约束边界时提前预警。

Preferences(偏好)

Preferences 描述用户或品牌的风格与倾向,如语气、结构、关注重点,属于软性指导。偏好可来自用户显式设置、历史行为分析或品牌指南,与规则不同,偏好可被覆盖或调整。通过 Memory 记录用户偏好并在 Prompt 中维持一致风格,可以实现个性化体验,提升用户满意度。

  • 核心要点:偏好可来自用户显式设置、历史行为分析或品牌指南;与规则不同,偏好可被覆盖或调整。
  • 典型场景:正式/非正式语气、详细/简洁回答、技术/通俗表达、关注重点排序。
  • 实践建议:使用 Memory 记录用户偏好,在 Prompt 中维持一致风格;支持偏好继承与更新;提供偏好模板库。

Guardrails(安全守卫)

Guardrails 是保护系统免受非法或风险输出的技术手段,是多层防护体系的重要组成部分。与规则互补,通常通过后处理或模型外壳实现,可包括输入过滤、输出审核、异常检测等机制。Guardrails 在规则无法覆盖的边缘场景中提供额外保护,是构建可信 AI 系统的关键防线。

  • 核心要点:与规则互补,通常通过后处理或模型外壳实现;可包括输入过滤、输出审核、异常检测。
  • 典型场景:敏感词过滤、内容安全审核、越权操作拦截、异常行为检测。
  • 实践建议:引入敏感词过滤、模型审核、人工复核等多层机制;建立风险等级分类;对高风险操作强制人工确认。

Prompting Strategy(提示策略)

Prompting Strategy 是引导模型产生期望输出的提示设计方法,是控制模型行为的关键技术。包括 Few-shot、Zero-shot、Chain of Thought、ReAct、计划提示等多种策略,需要根据任务特点选择合适策略。良好的提示策略能够显著提升模型在特定任务上的表现,是 Agent 开发的核心技能之一。

  • 核心要点:包括 Few-shot、Zero-shot、Chain of Thought、ReAct、计划提示等;需要根据任务特点选择合适策略。
  • 典型场景:复杂推理任务用思维链、工具调用用 ReAct、结构化输出用模板提示、创意任务用开放式提示。
  • 实践建议:迭代优化提示模板,结合 Few-shot、ReAct、计划提示等先进策略;建立提示模板库;A/B 测试不同策略效果。

Context Window(上下文窗口)

Context Window 是模型一次处理的 token 长度限制,决定可保留的信息量。不同模型的窗口大小不同(如 4K、8K、32K、128K),超出窗口需要截断或压缩。窗口大小直接影响 Agent 的记忆能力和长程依赖处理能力,需要通过摘要、分块、检索或记忆机制来弥补窗口限制。

  • 核心要点:不同模型窗口大小不同(如 4K、8K、32K、128K);超出窗口需要截断或压缩。
  • 典型场景:长对话历史、大文档处理、多轮交互、知识库检索。
  • 实践建议:对上下文做摘要、分块;使用检索或记忆机制弥补窗口限制;优先保留关键信息;采用滑动窗口策略。

System Prompt(系统提示)

System Prompt 是设定 Agent 人设、任务范围、全局规则的基础提示,是模型行为的“基因”。通常放在对话开头,影响整个会话的行为模式,包含角色定义、能力边界、行为准则、输出格式等关键信息。System Prompt 的质量直接影响 Agent 的整体表现,需要精心设计和持续优化。

  • 核心要点:通常放在对话开头,影响整个会话;包含角色定义、能力边界、行为准则、输出格式。
  • 典型场景:客服助手、代码助手、写作助手、数据分析助手。
  • 实践建议:保持简洁明确,避免与用户提示冲突;更新时要进行回归测试;支持多版本管理;定期审查与优化。

User Prompt(用户提示)

User Prompt 是用户发出的具体请求或指令,触发 Agent 执行任务。可以是自然语言、结构化指令或混合形式,其质量直接影响 Agent 的理解准确率。良好的 User Prompt 应该清晰明确,包含足够的上下文信息,帮助 Agent 准确理解用户意图并执行相应任务。

  • 核心要点:可以是自然语言、结构化指令或混合形式;质量直接影响理解准确率。
  • 典型场景:问题提问、任务指令、多轮对话、上下文引用。
  • 实践建议:可引导用户使用结构化模板,提升理解准确率;支持提示补全与建议;对模糊提示主动澄清。

Chain of Thought(思维链)

Chain of Thought 是显式记录推理步骤的提示技巧,让模型“思考过程”可见。通过“Let’s think step by step”等提示引导模型展示推理过程,可以显著提升复杂推断任务的准确率。思维链让 Agent 的决策过程更加透明和可解释,便于审查和调试,是提升模型推理能力的重要技术。

  • 核心要点:通过“Let’s think step by step”等提示引导模型展示推理;可提升复杂推断准确率。
  • 典型场景:数学问题、逻辑推理、多步骤任务、错误诊断。
  • 实践建议:在需要推理的任务中开启思维链,但发布给用户前可选择隐藏过程;结合 Self-Consistency 提升效果;记录推理过程用于调试。

Self-Consistency(自一致性)

Self-Consistency 是让模型多次独立推理并汇总,通过多数投票或平均确定最终答案的技术。这种方法能够降低随机性,提高鲁棒性,但会增加计算成本与延迟。Self-Consistency 特别适合关键决策、事实核查、复杂推理等高风险任务,通过多次采样和一致性检验提升输出可靠性。

  • 核心要点:降低随机性,提高鲁棒性;但会增加计算成本与延迟。
  • 典型场景:关键决策、事实核查、复杂推理、高风险任务。
  • 实践建议:结合思维链取多数投票;注意计算成本和延迟;设置合理的采样次数;对不一致结果做人工审核。

能力扩展相关术语

Function Calling(函数调用)

Function Calling 是模型通过结构化协议(如 OpenAI Function Calling、LangChain Tools)调用后端函数,获取精确数据或执行操作的能力。需要定义清晰的函数签名(名称、参数、返回类型),模型根据自然语言理解选择合适的函数并构造参数。Function Calling 让 Agent 能够突破纯文本生成的限制,与业务系统深度集成,实现更强大的功能。

  • 核心要点:需要定义清晰的函数签名(名称、参数、返回类型);模型根据自然语言理解选择合适的函数并构造参数。
  • 典型场景:查询数据库、调用业务 API、执行计算任务、操作文件系统、发送通知。
  • 实践建议:定义清晰的 JSON Schema;对调用结果进行校验与格式化;实现函数调用日志与审计;支持函数版本管理。

API 工具调用

API 工具调用是模型触发 REST、GraphQL、gRPC 等外部 API,实现信息查询或指令下达的能力。它突破模型封闭性的限制,让 Agent 能够利用现有服务和数据,扩展能力边界。API 调用需要处理认证、错误处理、重试等复杂问题,是构建企业级 Agent 的关键技术。

  • 核心要点:突破模型封闭性的限制,利用现有服务;需要处理认证、错误、重试等。
  • 典型场景:调用第三方服务(天气、地图、支付)、访问企业内部系统、集成 SaaS 平台。
  • 实践建议:集中管理 API 凭证,设置调用频控与错误重试;建立 API 调用监控;实现 API 版本兼容性处理。

Plugins(插件系统)

Plugins 是可动态加载的工具扩展机制,为 Agent 提供可热插拔的新能力。插件通常包含元数据(名称、版本、权限)、接口定义、实现代码,支持插件市场与版本管理。插件系统让 Agent 能够快速接入新功能,无需修改核心代码,是实现可扩展架构的重要设计模式。

  • 核心要点:插件通常包含元数据(名称、版本、权限)、接口定义、实现代码;支持插件市场与版本管理。
  • 典型场景:第三方工具集成、自定义业务逻辑、实验性功能、多租户能力隔离。
  • 实践建议:建立插件清单(名称、权限、依赖),提供沙箱环境测试;实现插件生命周期管理;支持插件权限控制与隔离。

Skills(技能)

Skills 是可复用的任务模块,通常封装为脚本、Prompt 模板或微服务,代表 Agent 的“能力单元”。技能可组合使用,形成复杂工作流,包含输入输出规范、执行逻辑、错误处理。通过沉淀常用技能库,Agent 可以快速调用成熟流程,提高效率与稳定性。

  • 核心要点:技能可组合使用,形成复杂工作流;包含输入输出规范、执行逻辑、错误处理。
  • 典型场景:数据清洗技能、报告生成技能、代码审查技能、翻译技能、格式化技能。
  • 实践建议:沉淀常用技能库,记录适用场景与输入输出规范;建立技能市场;支持技能组合与编排。

Action Space(行动空间)

Action Space 是 Agent 可执行动作的集合,决定其解决问题的方式与能力边界。可以是离散的(从有限选择项中选择)或连续的(控制连续量),空间大小直接影响策略学习难度。合理设计行动空间是构建高效 Agent 的关键,需要平衡表达能力与学习复杂度。

  • 核心要点:可以是离散(选择项)或连续(控制量);空间大小影响策略学习难度。
  • 典型场景:对话动作(回答、提问、转人工)、工具调用动作、控制动作(移动、操作)、决策动作(批准、拒绝)。
  • 实践建议:根据业务需求分层设计行动空间,避免过大导致探索困难;对动作做分类与优先级;支持动作组合。

Tool Routing(工具路由)

Tool Routing 是在多工具环境下,根据任务上下文选择或组合最适合工具的策略。路由策略可以是基于规则、模型预测或历史统计,需要考虑工具成本、延迟、成功率等因素。良好的工具路由能够避免重复调用,提高效率,是构建多工具 Agent 系统的核心技术。

  • 核心要点:路由策略可以是基于规则、模型预测或历史统计;需要考虑工具成本、延迟、成功率。
  • 典型场景:多搜索引擎选择、数据库 vs API 选择、本地 vs 云端计算选择、工具链组合。
  • 实践建议:建立规则或模型驱动的路由器,依据任务类型、上下文、历史表现决策;实现路由缓存与学习;监控路由效果。

Knowledge Retrieval(知识检索)

Knowledge Retrieval 是从知识库、向量库或文档库中检索相关信息供模型使用,是 RAG 的核心组件。支持关键词检索、语义检索、混合检索等多种方式,检索质量直接影响生成效果。良好的知识检索能够为 Agent 提供准确的事实依据,降低幻觉风险,是构建可信 AI 系统的重要基础。

  • 核心要点:支持关键词检索、语义检索、混合检索;检索质量直接影响生成效果。
  • 典型场景:企业知识库问答、文档摘要、事实核查、政策解读、技术支持。
  • 实践建议:维护高质量索引,支持关键词与语义检索;记录检索结果用于审计;实现检索结果重排序与去重;支持多源检索融合。