用于构建多智能体系统的智能体架构模式——企业中的生成式 AI：生态全景、成熟度与智能体焦点生成式 AI（Generati

生成式 AI（Generative AI，GenAI）是人工智能（AI）的一个领域，它通过从海量数据集中底层模式的学习，使系统能够创建新的或合成的内容、进行推理、理解上下文并给出推荐。不同于主要分析既有信息的传统 AI，GenAI 擅长产出新颖的“制品”（artifacts），例如营销文案、可运行的功能代码以及其他创意内容。

尽管 GenAI 的潜力巨大，但对企业而言，要从实验性概念过渡到稳健、可用于生产环境（production-grade）的系统，会面临显著挑战。要成功部署这类系统，必须在战略层面聚焦安全性（security）、可靠性（reliability）与治理（governance）。为了构建可信应用，系统架构必须包含强健的防护栏（guardrails），例如严格的输入校验与净化（input validation and sanitization），以抵御恶意攻击；同时还需要策略执行机制（policy enforcement mechanisms）以确保合规。本章提供了穿越这一旅程所必需的关键框架：引入智能体式 AI（agentic AI）的核心概念与应用，并勾勒一条从初始设计到负责任、可用于生产的解决方案之路径。

通过让你牢牢掌握这些核心概念，本章提供理解所必需的战略框架——不仅解释智能体式 AI 是什么，更解释它为何代表企业技术的一次关键转向。掌握这份基础知识，是你走向设计、构建与部署高效且有价值 AI 智能体旅程中的第一步，也是最关键的一步。

在本章中，我们将覆盖以下主题：

GenAI 的变革性潜力
业务应用概览
介绍智能体式 AI 系统
智能体式 AI 的解剖结构（anatomy）
GenAI 成熟度模型（Maturity Model）：通往智能体系统的路径
新的智能体技术栈（agentic stack）
阻碍生产级 GenAI 的挑战

GenAI 的变革性潜力（The transformative potential of GenAI）

GenAI 通过综合出类似于人类认知复杂侧面的能力来赋能系统。它超越了简单计算，开始参与一些过程，这些过程在形式上更接近我们自身的创造能力。正如人类的想象力驱动艺术、叙事与发明，GenAI 也能创造新的或合成的内容。这包括生成连贯的文本（营销文案、产品描述、邮件、社交媒体帖子等）、谱写音乐、设计图像、编写代码，以及产出其他新颖的“制品”（artifacts）——它们并非对既有数据的简单复制，而是基于学习到的模式与结构生成的原创输出。

GenAI 会从多种来源与多种格式中综合信息，挖掘其训练数据中的模式，并展现出一种类似人类推理的分析能力。它能处理复杂信息，在数据中发现模式，进行逻辑推断，识别重要关系（甚至是潜在的因果联系），并构建逐步推进的方法来解决问题或回答高阶问题。由此，它能够以相当深度摄取并理解上下文（context），不再停留在关键词匹配，而是解释语言中的细微差别、考虑对话历史、纳入用户偏好（用户建模，user modeling），甚至整合外部知识。这种上下文理解对于提供不仅“相关”而且真正“适配具体情境”的回应至关重要——就像人类会基于微妙线索与共享背景来调整沟通方式一样。

最后，模式识别与上下文理解的结合，使 GenAI 能够做出推荐。类似于一位经验丰富的顾问会预判需求或给出个性化指导，这类系统可以识别行为或数据中的模式，从而建议相关产品、信息路径或潜在行动，以实现交互个性化并支持决策流程。上述这些被综合出来的能力——创造、推理、理解上下文与推荐——共同构成了 GenAI 变革性潜力的根基。

为了让这些能力落地发挥，GenAI 依赖于精密的底层技术。其中最突出的、并在许多生成式应用中充当“认知内核”的，是一种强大的引擎：大型语言模型（large language models，LLMs）。这些模型被专门设计用来理解、处理并生成类人文本及其他复杂数据形式，因此在 GenAI 系统如何感知、推理与创造方面起着关键作用。

尽管这些核心能力很强，但其有效应用在关键上取决于一个不可或缺的要素：上下文。可以把 LLM 想象成一个知识极其渊博、表达极其流畅的对话者，被“半路”丢进一场正在进行的讨论中。若不了解此前对话、当前主题，或具体情境中的细微差别，即便是最善言辞的人也会给出不相关、错误，甚至荒谬的发言。

尽管 LLM 拥有大量预训练数据，它仍需要相关、及时且准确的上下文，才能生成真正有用、安全并与目标任务对齐的输出。缺乏足够上下文时，LLM 会以多种方式产生错误答案。有时，它会生成听起来很可信、但事实错误甚至荒诞不经的回应——这被称为“幻觉”（hallucinations）。在另一些情况下，模型给出的回答在一般意义上是事实正确的，但对特定情境不适用、因此对该情境而言仍是错误的，主要原因是缺失了关键的上下文细节。

来看一个案例研究。设想有一个 AI 助手用来帮助按揭贷款承销员（mortgage underwriter）。承销员可能会问：这笔申请允许的最大负债收入比（debt-to-income ratio，DTI）是多少？LLM 基于其通用知识，可能回答 43%。这个答案作为美国许多传统合格按揭（conventional qualified mortgages，QMs）的常见指导值，在事实层面并没错。然而，假设未被明说的上下文是：承销员正在评估一份位于佛罗里达州的借款人申请的美国联邦住房管理局（Federal Housing Administration，FHA）贷款，并且融资来自某个特定放贷机构 MegaBank USA。在这一具体上下文中，“43%”很可能是错误的，甚至具有误导性。FHA 指导方针通常允许更高的 DTI 比例，在某些补偿性因素（compensating factors）存在时，可能高达 50% 甚至 57%。

MegaBank USA 还可能有自己的内部“叠加规则”（lender overlays），即使 FHA 允许更高，也可能施加更严格的上限，比如 48%。此外，佛罗里达州的州级法规可能还会引入其他细微要求。真正正确的最大 DTI，完全取决于这些上下文因素的交集：贷款项目（FHA）、申请人的具体补偿性因素、放贷机构的具体政策（MegaBank USA overlays），以及可能的地域监管（佛罗里达）。模型需要这种精确的“运行时上下文”（operational context），它远远超出一般贷款知识，才能为该承销任务给出正确且可执行的答案。因此，在复杂真实世界场景中，提供不足或含混的上下文，是导致输出不准确或具有误导性的主要驱动因素之一。

在全书中，我们会深入讨论若干基础原则作为要点，其中原则 1 是：上下文为王（context is king） 。

这一点在将 GenAI 用于智能体系统（agentic systems，本章后面会谈）时尤为成立。你将会看到，写出有效的初始提示词（prompt）只是开始。要真正解锁可靠且高质量的结果，尤其是在企业环境中由智能体执行复杂、多步骤任务、且准确性与可信度（trustworthiness）至关重要的情况下，我们必须致力于架构化系统，让 AI 智能体的推理内核（通常是 LLM）在其运行循环（operational loop）中，能够在恰当的时间持续获得恰当的上下文信息。这意味着要超越对模型静态内生知识的依赖，因为这些知识可能过时、不完整，或缺少关键的领域细节。正如在简单问答中，上下文不足会导致“情境性错误答案”（也就是幻觉），在智能体内部，糟糕的上下文管理会让规划偏离、导致错误行动，并削弱智能体目标的达成。

这正是本书所提出的智能体设计模式（agentic design patterns）变得至关重要的地方。正如我们将在第二部分详细展开的，这些模式为构建基于智能体的系统中的常见挑战提供结构化、可复用的解决方案，其中就包括“有效管理上下文”这一关键任务。例如，任务委派框架（Task Delegation Framework）、协同任务分解（Collaborative Task Decomposition）或用于稳健推理的迭代辩论（Iterative Debate for Robust Reasoning）等模式，为设计能够处理复杂信息流、保持情境感知并不断修正理解或计划的智能体与多智能体系统提供了蓝图。

为了更好理解这一概念，我们先简要看一个稍后会深入讲解的模式示例——任务委派框架（Task Delegation Framework，监督者架构 Supervisor Architecture）：

上下文（Context）： 某金融机构需要将一项复杂、多步骤的业务流程（例如贷款承销）自动化。单一的“巨石式”（monolithic）智能体难以管理所需的各种规则、数据源与系统交互。
问题（Problem）： 如何可靠地自动化这条复杂工作流，确保每一步由专家处理，并从头到尾对整体过程进行一致、连贯的管理？
使用该模式的解决方案（Solution using the pattern）： 系统采用层级结构，由一个中央“监督者/编排者”（supervisor/orchestrator）智能体充当项目经理。该编排者并不亲自执行每项检查，而是接收高层任务，将其分解，并把子任务委派给一组专门化的“工作者”（worker）智能体。
运行示例（贷款处理）（Example in action）：
- LoanOrchestratorAgent（监督者）接收一份新申请；
- 先把“核验提交材料”的任务委派给专门的 DocumentValidationAgent；
- 核验完成后，把下一步任务委派给 CreditCheckAgent 去拉取申请人的信用历史；
- 最后，把所有已核验信息发送给 RiskAssessmentAgent 做最终评分。
结果（Outcome）： 编排者汇总各个专家智能体的输出并组装最终结果以做出决策。该模式使整个工作流模块化、可预测且更易治理，因为每个智能体都有清晰界定的职责范围。

在设计阶段就引入并实现这些智能体设计模式，我们将遵循最佳实践，并为在架构与应用中“隐式地”设计防护栏（implicit guardrails）奠定更坚实基础。它为智能体行为提供边界，从而提高决策被充分告知的概率，也让行动更可能与所需上下文一致。此外，这些结构化交互（例如迭代辩论或嵌入模式的特定反馈回路）为自我纠错创造了机会：在采取可能错误的行动之前，智能体或多智能体系统可以基于动态可用的上下文或同伴审查捕捉不一致并精炼推理。有效利用这些模式，是缓解上下文相关失效、构建更可靠、更具适应性、最终也更“智能”的智能体的关键。

因此，我们将重点讨论诸如检索增强生成（retrieval-augmented generation，RAG）等技术，它能从外部来源动态拉取相关信息来支撑 LLM 的回答。我们会探索如何将 AI 生成的答案扎根于可验证的源材料之上，提供引用（citations）并确保事实准确性。我们也会研究如何利用更复杂的数据结构，包括数据库与知识图谱（knowledge graphs），以提供更丰富、更结构化的上下文，从而支持更复杂的推理，并为 AI 智能体带来更可靠的结果。掌握这些“管理与注入上下文”的技术，是构建实用且可用于生产的智能体式 AI 解决方案的基础。

现在我们已经概述了 GenAI 的核心概念，接下来把理论连接到实践：考察其业务应用将展示这些能力的现实价值，并为智能体式 AI 能解决的特定问题铺垫背景。

业务应用概览（Overview of business applications）

GenAI 的多样性使其既可用于不同业务职能（横向应用，horizontal applications），也可用于不同行业领域的特定情境（纵向应用，vertical applications）。

横向应用（跨职能用例）（Horizontal applications）

GenAI 提供强大工具，用于提升标准业务运营的效率与效果：

市场与销售（Marketing and sales）： 不止于基础个性化，GenAI 能够规模化实现“超个性化”（hyper-personalized）的客户体验与沟通。例如，邮轮公司可以用 GenAI 基于乘客过往行为与显式偏好构建的个体画像（家庭、情侣、探险爱好者等），动态推荐船上活动、餐饮预订或岸上游项目。系统还能将这些交互的反馈纳入学习，持续精炼理解，从而提供越来越相关的后续推荐。
在定向广告方面，GenAI 能更深入理解客户购买模式与不同产品之间的关系（可能借助知识图谱），使活动策略比传统预测方法更细腻；也能生成多样的创意素材，如面向不同细分与平台优化的广告文案与活动物料。
客户服务（Customer service）： GenAI 可驱动高级聊天机器人与虚拟助手，实现 7×24 小时支持。这些智能体通常能独立处理复杂咨询：深入知识库，或与后端系统交互（如查询订单状态、处理退货）。它们还能被设计为识别自身知识或权限的边界，并智能升级（escalate）给人工坐席，且可能顺畅地转交对话上下文。
这些智能体也能自适应沟通风格——根据用户调整叙述方式、语气与复杂度：面对询问游戏更新的青少年与询问复杂账单细节的成年人，采取不同的互动策略。
人力资源（Human resources）： 虽然 GenAI 可简化招聘任务（如将简历与岗位描述对齐分析、生成初始面试问题），但其在 HR 中的应用还延伸到建立关键防护栏与伦理准则。它可协助制定个性化入职计划与培训模块，使之适配岗位与学习风格。
此外，GenAI 可通过回答员工关于福利、IT 流程或公司政策的问题来增强内部知识共享，在保持一致性的同时，也能承认 HR 交互中涉及的人因与潜在敏感性。
财务与会计（Finance and accounting）： 除了自动化财务分析与辅助报表生成，GenAI 在需要高度准确与可控的领域扮演关键角色。它通过识别指向非法活动的细微模式，显著提升异常与欺诈检测能力。
对受监管行业尤其重要的是，GenAI 可用于强化策略遵循并实施财务防护栏，确保流程与建议同时符合内部规则与外部监管。
运营与供应链（Operations and supply chain）： GenAI 可通过解释预测型 AI 模型的输出并发起行动来提升运营效率。例如，它可以分析并执行复杂的需求预测（往往由预测模型生成），从而优化库存水平，甚至自动调整补货订单。
它可处理动态路径规划建议（可能整合预测性交通/天气数据）并协调调度，简化物流；也可通过解释预测模型告警、分析传感器数据，自动生成详尽的维护工单或重排生产计划，以支持产线管理与预测性维护。
IT 与研发（IT and development）： GenAI 可通过代码生成加速软件开发，例如为常见 Web 框架的 API endpoint 生成 Python 样板代码，或基于自然语言描述生成复杂 SQL 查询。它还能分析错误日志与代码片段辅助自动化调试，提出潜在根因与修复建议。
它也能支持代码重构（提出优化建议或跨语言翻译），并基于函数签名与需求自动生成多样测试用例。
通用生产力（General productivity）： GenAI 可自动化文档摘要：将长篇研究论文凝练为关键发现，把复杂法律合同总结为易懂要点，或从冗长会议记录中抽取行动项。
它还能增强信息检索与企业搜索：用户可用自然语言提出复杂问题（例如“欧洲客户在 Q4 反馈中主要担忧是什么？”），并获得从多份内部报告与文档综合而来的答案，而非仅得到一组链接。
GenAI 还具备生成合成数据（synthetic data）的能力以扩充数据集：例如生成逼真但人工构造的客户画像或交易记录，用于训练欺诈检测模型而不使用敏感真实数据，或用于平衡机器学习训练数据集。

纵向或领域特定应用（Vertical or domain-specific applications）

除了通用职能，GenAI 正在被定制化，以应对特定行业的独特挑战与机遇：

医疗健康（Healthcare）： GenAI 通过分析仿真结果并提出潜在候选，加速药物发现。它还能解释预测模型输出辅助诊断，例如向临床医生解释高风险患者评分，或总结自动医学影像分析发现供复核。
它可以基于结构化数据输入生成符合既定临床标准与隐私法规（如 HIPAA）的临床文书初稿（如出院小结），并通过综合患者数据与研究生成个性化治疗方案，确保所有建议符合严格的临床策略防护栏与伦理准则。
金融（Finance）： GenAI 可解释预测性市场模型信号并提出行动建议，从而增强算法交易策略，同时将行为限定在预先定义的风险参数内。它还能将预测性风险评分与定性申请信息综合，生成信用风险评估报告，并确保建议符合放贷政策与公平性准则。
它可利用结构化数据与监管模板自动起草合规报告，同时确保所有输出经过人工验证并符合内部合规防护栏。它也能提供个性化理财建议，但必须严格遵循适当性监管（如美国 SEC 的 Reg BI）以及内部政策与伦理标准，以确保负责任与合规的指导。
零售（Retail）： GenAI 可通过生成基于客户购买与浏览历史的精选风格套装（style bundles），提供超个性化推荐与购物体验；并借助虚拟试穿（virtual try-ons）展示服饰在个性化虚拟形象上的效果。
它还可通过实时考虑需求、竞品定价与库存水平来优化动态定价；并自动化创建定向促销，例如起草含个性化优惠的邮件活动，面向通过购买模式识别出的客户细分群体。
制造业（Manufacturing）： GenAI 在动态工厂环境中综合考虑设备可用性、物料约束与订单优先级，优化复杂的生产排程与资源分配。它还能通过分析产线图像驱动自动化视觉质检，更准确地检测细微缺陷或不一致性，优于传统方法。
它利用生成式设计（generative design）提出满足性能约束（承载能力、重量限制等）的新颖、材料高效的零部件方案，往往形成适用于增材制造（additive manufacturing）的优化结构。

在完成这部分关于业务应用的概览之后，我们来探索智能体系统，以及它们在我们所描述的这一图景中的位置。

引入智能体式 AI 系统（Introducing agentic AI systems）

尽管前述应用覆盖了 GenAI 的广泛用法，现代 AI 开发（也包括本书）的一个重要焦点，是智能体式 AI 系统。它们代表着向更自主、目标导向的 AI 应用迈进的一步：以更集成、更主动的方式利用 GenAI 的核心能力。

我们可以将 AI 智能体理解为一种系统——通常由 LLM 驱动——其被设计用来感知环境、做出决策并采取行动以实现特定目标。其关键特征通常包括自主性（autonomy）、反应性（reactivity，对环境作出响应）、主动性（proactivity，围绕目标采取主动举措），以及可能具备与其他智能体交互的社会能力（social ability）。它们通常在一个典型循环中运行，包括感知（sensing）、推理（reasoning）、规划（planning）与行动（acting）——我们稍后会剖析其具体“解剖结构”。理解这一运行周期与智能体组件，是设计有效智能体式解决方案的关键。

我们可以将智能体系统大体分为如下类别：

基于智能体的系统（Agent-based systems）： 通常由单个智能体承担任务，利用其能力与系统或数据交互。
多智能体系统（Multi-agent systems）： 使用多个（通常专门化的）智能体协作、协调与通信来解决更复杂的问题。多智能体系统强调去中心化控制与智能体之间的动态交互。

理解智能体与智能体系统的概念至关重要，因为我们正走向更复杂的 AI 实现。这些系统往往封装了 GenAI 的高级能力，是解锁更高水平自动化、复杂问题求解、以及最终业务价值的核心。识别这一潜力并学习如何有效地架构这些系统（从其基础“解剖结构”开始），是本书的主要目标之一。

智能体式 AI 的解剖结构（The anatomy of agentic AI）

让我们进一步展开智能体式 AI 的结构，以及这些系统在内部是如何运作的。

前述图示从概念层面展示了一种智能体式 AI（agentic AI）架构：多个智能体在同一环境中协作。理解其核心组件，对于设计与落地实现至关重要。

核心组件（Core components）

最基本的构件是智能体本身，以及它们与之交互的环境（业务环境或物理环境）。在多智能体系统架构中，每个智能体以半自主方式运行：感知环境、进行推理、做出决策，并采取行动以达成目标。交互既发生在数字化语境中（数据流、API 与数据库），也可能发生在物理语境中（通过传感器/执行器）。在多智能体系统里，共享记忆（shared memory）或通信协议往往充当协同枢纽，使智能体能够交换信息、计划与目标。

智能体解剖结构（Agent anatomy）

每个单体智能体都具备一套内部结构以支撑其运行：

目标（Goals）： 智能体试图达成的目标或期望结果；它可能会基于反馈或上下文变化而更新。
感知（Sense / perception）： 该组件负责从环境中收集信息与数据（数字或物理来源，例如 API、数据库与传感器）。这一感知过程是智能体获取上下文的机制，是后续所有推理与决策所依赖的情境感知（situational awareness），从而再次强化“上下文为王（context is king）”这一原则。用于标准化模型如何访问这类上下文信息的一种流行机制，是通过诸如 Model Context Protocol（MCP，Anthropic 提出）（anthropic.ai/）等协议。
推理（Reason / thinking models, cognition）： 核心处理单元，对感知到的信息进行分析。这里通常会大量依赖 LLM，以解释数据、理解关系（目标、感知与行动之间的关系），并进行复杂推断。
规划（Plan）： 基于推理所得洞见与当前目标，制定行动方案或步骤序列。
行动（Act / action）： 使用可用工具对环境执行规划好的动作（例如调用 API、控制机器人部件、生成文本等）。
记忆（Memory）： 存储智能体的个体知识、过往经验、内部状态与已学习信息，为决策提供上下文支撑。
协调（Coordinate，可选；仅多智能体系统）： 与其他智能体交互，通常通过共享记忆或通信协议来对齐行动、协作实现共同目标；可能涉及协商或遵循特定协议。这里特别建议通过智能体到智能体（agent-to-agent，A2A）互操作协议来进行协调。

智能体的“行动”能力通常由一种称为 函数调用（function calling） 的机制来启用。为指导 LLM，开发者会提供一份可用工具列表：每个工具都定义了名称、清晰的用途描述，以及其所需参数的结构化 schema。基于当前任务，LLM 的推理内核会决定何时使用工具、使用哪个工具最合适，以及要用哪些参数。随后模型生成结构化输出（例如一个 JSON 对象），表明其意图以提取出的参数调用该函数。智能体代码接收该输出、执行函数，并将结果反馈给 LLM，以继续其运行循环（operational loop）。

智能体在一个持续循环中运行：感知环境、结合记忆与 LLM 内核对情境进行推理、围绕目标规划下一步行动、对环境采取行动，然后再感知行动结果（反馈回路）以更新记忆并指导后续循环。由此，智能体能够随时间推移进行适应与学习。

图 1.2——智能体循环（Figure 1.2 – The agentic loop）

该图展示了使智能体能够自主运行的循环过程：它从感知环境、收集上下文开始，随后使用其 LLM 内核与记忆对情境进行推理并制定计划；接着智能体使用可用工具执行该计划。行动结果形成反馈回路，产生新的信息，智能体会在下一轮循环中再次感知这些信息，从而允许它随着时间推移学习并调整自身行为。

数据存储与环境上下文（Data stores and environment context）

智能体对数据高度依赖，其环境上下文包括：

数字化业务上下文（Digital business context）： 包括相关的数字数据源，例如非结构化数据（文本或图像）、结构化数据（数据库或知识图谱），以及向量存储（vector stores，用于对 embedding 做高效相似度检索）。知识图谱尤其有用，因为它能提供对实体与关系的结构化、语义化理解。
物理环境上下文（Physical environment context）： 对于与现实世界交互的智能体而言，这涉及由传感器提供的数据（摄像头或 IoT 设备）以及允许物理操控的执行器（如机械臂）。

有效的智能体往往需要访问多个数据存储，并且必须将来自不同上下文的信息集成起来。

关键架构特性（Key architectural features）

智能体解剖结构本身自然支持若干强大的架构特性。模块化（modularity）常常是核心原则，使系统可以在不需要全面重构的情况下添加、移除或更新智能体，从而提供灵活性。模块化也促进可扩展性（scalability），因为架构必须准备好高效处理潜在的大量智能体、复杂交互与多样数据源。

内部的“感知-推理-行动”（sense-reason-act）循环，结合记忆与反馈机制，促成适应性（adaptability），使智能体能从经验中学习并随时间调整行为。此外，智能体还可以被设计为支持多模态交互（multimodal interaction），能够处理不同类型的数据（文本、图像或传感器读数），并据此对环境采取行动。

最后，特别是在多智能体系统中，共享记忆或预定义通信协议等机制能够促进协作（collaboration），从而增强集体层面的问题求解与决策能力。

Feature	Description
Modularity	系统可以设计为智能体可以被添加或移除，而无需进行完整的重新设计，从而提供灵活性。
Scalability	架构必须高效地处理潜在的多个智能体、多样化的数据源和复杂的交互。
Adaptability	带有记忆和反馈的感知-推理-行动循环使智能体能够从经验中学习，并随着时间调整行为。
Multimodal interaction	智能体可以设计为处理并作用于来自不同模态（文本、图像或传感器数据）的信息。
Collaboration (multi-agent systems)	共享记忆或通信协议促进协调，使集体问题求解成为可能。

表 1.1——智能体解剖结构特性（Table 1.1 – Agentic anatomy features）

基于我们所描述的解剖结构来构建稳健且有效的智能体式系统，是一项技术要求极高的工作。这不仅仅是把组件拼装起来；它要求建立一段“开发旅程”，在其中能力会被逐步掌握。

在每个阶段都必须对关键技术方面给予充分关注。架构师必须为可扩展性进行设计，以应对智能体数量增长与数据复杂度上升。对于协作型多智能体系统而言，高效且低延迟的智能体间通信变得至关重要。

要有效管理多种数据类型，需要更复杂的数据处理技术；而利用更高级的知识表示（例如知识图谱）则能够解锁更深层的推理能力。此外，确保 LLM 在核心认知功能上的最优集成，以及为环境交互实现可靠的工具使用机制，都是基础性的工程挑战。

掌握这些技术考量通常不可能一蹴而就；它体现的是组织能力的成熟化。走完这段技术旅程通常意味着一步步穿越不同阶段，这一过程可以用诸如 GenAI 成熟度模型（GenAI Maturity Model）等模型来解释——我们接下来就会讨论它。

GenAI 成熟度模型：通往智能体系统的路径（The GenAI Maturity Model: a path to agentic systems）

要把 GenAI 之旅从简单应用推进到复杂、可创造价值的系统（例如我们刚讨论过其“解剖结构”的那些系统），需要一种战略视角。GenAI 成熟度模型提供了这样的框架：它是一种战略工具，帮助组织评估当前能力，并规划前进路线。

该模型划分了不同的能力与成熟度层级，展示了从基础活动走向高级智能体式系统的典型演进路径。理解组织在该模型中的所处位置，有助于有针对性地制定投资、技能建设与实施策略，以达成期望的业务结果。

重要的是，在这些层级中向前推进——尤其是走向智能体与多智能体系统（第 5 与第 6 级）——往往需要拥抱新的互操作性（interoperability）标准。

该路径上的关键层级包括：

Level 0——为 AI 消费准备数据（数据基础）（Prepare data for AI consumption / data foundation）： 最关键的起点。聚焦于获取、生成（包括合成数据）、清洗、整理、准备并治理 AI 所需数据；处理数据质量、相关性、许可与可访问性。没有扎实的数据基础，更高层级很难实现。
Level 1——选择模型并进行提示/服务化（Select model(s) and prompt/serve models）： 入门级交互。包括选择合适的预训练基础模型，设计有效提示（prompt engineering）以诱导期望输出，并将模型部署（serve），通常通过 API 来完成基础任务，如内容生成或基于模型内生知识的问答。基于基础函数调用的工具使用可能从这一层开始，并在后续演进为“工具化的智能体”或完整智能体。
Level 2——上下文增强（RAG）（Contextual enhancement）： 通过外部上下文克服模型局限。RAG 技术居于核心：从指定外部知识源（企业文档或数据库）动态拉取相关信息，来增强提示，从而提升 LLM 输出的准确性与相关性。这是迈向更事实、更有用 AI 回答的关键一步。例如：聊天机器人在回答员工问题前，先用 RAG 从内部知识库拉取最新政策细节。
Level 3——为特异性调优（可用于智能体的 LLM）（Tuning for specificity / agent-ready LLMs）： 为特定需求改造模型。使用领域特定或专有数据对预训练模型进行微调。技术范围从参数高效微调（PEFT）（如 LoRA 或 adaptor tuning，只修改模型的一小部分）到全量微调（FFT）（重训更大部分）。目标是让模型的知识、术语、风格或行为更“专门化”，以适配更专业的智能体角色。例如：在企业销售数据上调优模型，让智能体更理解销售领域的行话与语境。
Level 4——扎根与评测（Grounding and evaluation）： 构建信任与可靠性。引入把输出锚定在可验证事实之上的机制，通常通过将回答链接回 RAG 检索到的源数据（提供引用/证据）。同时实施稳健的评测框架与指标，持续监控性能、准确性、公平性、偏见与安全性，确保符合负责任 AI 原则。例如：财务分析智能体给出的摘要中明确标注其使用的具体财报来源。
Level 5——单智能体系统（Single-agent systems）： 真正智能体式 AI 的出现，开始应用前述解剖结构。架构围绕一个协调一致的单智能体构建（通常由 LLM 编排），能够进行多步推理与规划、与工具交互（通过函数调用可靠调用，或可能通过 MCP 发现工具），并自主执行任务以实现目标。此处成熟的 LLMOps/AgentOps（监控、日志与智能体生命周期管理）实践至关重要。例如：自主旅行规划智能体与航班、酒店 API 交互，根据用户偏好完成行程预订。
Level 6——多智能体系统（Multi-agent systems）： 当前发展的最前沿。多个（通常专门化的）智能体协作、协调、通信（可能使用 A2A 协议），甚至进行协商，以应对超出单智能体能力的复杂问题。这需要更复杂的架构以支持智能体间通信、任务分配、冲突消解与编排。例如：供应链优化系统中，库存智能体、物流智能体与预测智能体协作（也许通过 A2A）来动态响应扰动。

在本书后续章节中，我们将进一步展开 GenAI 成熟度模型中的第 5 级和第 6 级，并将它们作为一个独立的智能体式 AI 成熟度模型来呈现，以便更好地捕捉涉及的细微差别和复杂度。

Level	Title/Focus	Brief description and key activities
0	Prepare data (data foundation)	获取、生成、清理、整理并治理数据。聚焦数据的质量、相关性、许可与可访问性。这是实现更高层级的必要前提。
1	Select model and prompt/serve	选择预训练模型，使用提示工程（prompt engineering），通过 API 服务化模型，用于基本任务（如生成、问答）。基本的工具使用（函数调用）。
2	Contextual enhancement (RAG)	使用 RAG 技术从外部知识源（文档、数据库）动态拉取上下文，以增强提示内容，提升准确性与相关性。例如，聊天机器人拉取政策信息。
3	Tuning for specificity	使用领域特定数据微调模型（PEFT 或 FFT），以使模型的知识、术语或行为专门化，适应智能体角色。例如，微调销售术语。
4	Grounding and evaluation	实施输出扎根（将结果与源数据或引用联系起来）和稳健的评估（准确性、公平性、安全性），以确保信任与可靠性。例如，智能体引用数据源。
5	Single-agent systems	将系统架构围绕一个自治的 AI 智能体，执行多步任务（推理、规划、工具使用通过函数调用/MCP）。需要 LLMOps/AgentOps。例如，自主旅行预定智能体。
6	Multi-agent systems	部署多个专门化智能体，它们协作、协调、通信（通过 A2A 协议），并进行协商来解决复杂问题。例如，供应链优化系统中的协作智能体。

该成熟度模型展示了要实现复杂的智能体式 AI（第 5 级与第 6 级），需要在前述层级中逐步建立能力，从数据基础到上下文增强再到专门化调优。它为组织提供了一条路线图，帮助它们评估当前状态，并规划技术与组织层面的步骤，以实现期望的 GenAI 与智能体能力。

虽然 GenAI 成熟度模型提供了路线图，但本书后续介绍的智能体设计模式将作为推动您前行的工具。需要认识到，组织所达到的成熟度水平，直接取决于您选择实现的具体模式。

通过确定一个目标能力，例如必须完全可审计且安全的金融交易系统，您可以逆向推导出所需的架构要求。这允许您的组织集中资源与投资，专注于掌握为该特定可靠性层级所需的四到五个关键模式。与其无目标地构建 AI，这种方法能为您提供一个有意识且具成本效益的工程路径。通过专注于这些精选模式的实现，您可以确保每一项技术投资都能直接转化为已验证的成熟度状态与业务价值。

新的智能体技术栈（The new agentic stack）

随着系统从独立的提示逐步发展到前述的智能体架构，模型与智能体之间能够可靠地与工具及彼此互动变得至关重要。这涉及理解并可能实现新兴的 AI 互操作性技术栈的关键层次：函数调用（function calling）、MCP 和 A2A 协议。

函数调用 使得智能体的推理组件中的 LLM 能够智能地触发特定工具（例如，旅行助手中的 book_flight(destination="Tokyo")，贷款申请中的 get_credit_score，或执行本地 Python 脚本进行数据分析）。MCP 提供了一种标准化方式来描述、发现并安全调用工具（包括天气服务、计算器、向量搜索工具，或如房地产应用中 verify_property_appraisal 这样的企业特定 API），作为独立、互操作的服务，提升了模块化性。

A2A 提供了一种结构化的任务委派与协作协议，特别适用于多智能体系统（第 6 级）。掌握这些互补层次通常是构建模块化、可扩展且稳健的智能体式系统的基础。

启用智能体通信：从工具到协作（Enabling agent communication: from tools to collaboration）

让我们探讨一下 Anthropic 的 MCP 与 Google 的 A2A 协议之间的区别：

MCP 完全聚焦于单个 AI 智能体/LLMs 如何连接到工具、数据和外部系统。可以将它理解为赋予 AI 获取完成其任务所需的一切工具的能力，如搜索工具、数据库或预构建的提示词。它是垂直整合：将智能体与其工具连接起来。

A2A 聚焦于不同 AI 智能体之间如何互相通信，无论它们来自哪个公司或框架。它就像是赋予 AI 智能体一个共享的语言，让它们能够协作、委派任务并作为一个团队工作。这是水平整合：将智能体连接到其他智能体。

简单的思维模型：

MCP = AI 智能体连接工具
A2A = AI 智能体相互连接

需要注意的是，这些协议是相互协作的：

编排者智能体使用 A2A 协议将任务委派给其他智能体。
这些智能体使用 MCP 协议访问它们需要的工具和数据。
结果通过 A2A 流回，完成一个强大且协作的工作流。

分布式多智能体系统使用 MCP 和 A2A 的示意图（Figure 1.4 – Distributed multi-agent systems using MCP and A2A）

该图展示了一个分布式多智能体架构，其中两个智能体（Agent A 和 Agent B）各自独立运作，具体如下：

本地 AI 技术栈（LLM 编排、记忆和工具链）
通过 MCP 远程访问外部工具和数据

Agent A 到 Agent B 的远程访问由 A2A 协议支持，其中包含两个关键组件以便智能体注册和发现：

Agent server： 一个暴露智能体 A2A 接口的端点
Agent card： 用于发布智能体能力的发现机制

为了让智能体有效地使用这些外部通信协议，它必须首先具备强大的内部架构。让我们深入探讨使智能体能够处理信息、推理和决定行动的核心组件。

智能体内部结构（Agent internals）（为了简便，A 和 B 共享）

智能体的内部结构由三个核心组件组成：LLM 编排器、工具和知识、以及记忆。

LLM 编排器 作为智能体的推理与协调引擎，解释用户的提示，规划行动，并调用工具或外部服务。工具和知识模块 包含智能体的本地工具、插件或它可以在执行过程中调用的领域特定功能。记忆存储持久或基于会话的上下文，例如过去的互动、用户偏好或检索的信息，帮助智能体维持连续性和个性化。这些组件都能在智能体的运行时环境中本地访问，并紧密耦合以支持快速、上下文感知的响应。它们共同构成了每个智能体的自包含“大脑”，使其能够自主行动。

接下来，我们将讨论两个远程层次。

MCP 服务器（The MCP server）

MCP 服务器 在将智能体连接到外部工具、数据库和服务中发挥着至关重要的作用，通过标准化的 JSON-RPC（无状态、轻量级的远程过程调用协议，使用 JSON 作为数据格式）API。智能体作为客户端与这些服务器进行交互，发送请求以检索信息或触发操作，如搜索文档、查询系统或执行预定义的工作流。

这一能力使得智能体能够动态地将实时的外部数据注入到 LLM 的推理过程中，从而显著提高响应的准确性、扎根性和相关性。例如，智能体 A 可能使用 MCP 服务器从 ERP 系统中检索产品目录，以生成针对销售代表的定制见解。

智能体服务器（The agent server）

智能体服务器 是通过 A2A 协议使智能体可以被寻址的端点。它使得智能体能够接收来自同行的任务，使用服务器推送事件（SSE）响应结果或中间更新，并支持格式协商的多模态通信。

与此互补的是 智能体卡（agent card） ，它作为发现层，提供关于智能体能力的结构化元数据，包括描述、输入要求，并启用在特定任务中动态选择合适的智能体。智能体可以在交互过程中委派任务、流式传输进度，并调整输出格式。

我们刚才描述的智能体技术栈为构建复杂的、互联的智能体系统提供了强大的技术基础。然而，拥有蓝图与成功构建这些系统是两回事。将这些强大的概念从实验性原型（PoC）转变为稳健、可靠且可扩展的生产系统，需要克服一系列复杂的挑战。我们现在将关注这些关键的障碍。

持续挑战：将 GenAI 推向生产级应用（Challenges hindering production-grade GenAI）

尽管 GenAI 拥有巨大的潜力和日益增长的应用领域，将 GenAI 从实验性原型（PoC）转向稳健、可靠且可扩展的生产级系统，对许多组织来说依然是一个巨大的挑战。尤其是构建并部署这些系统，特别是先进的智能体式 AI，它们复杂的结构和交互需要克服技术、运营、法律和伦理等一系列相互关联的挑战。成功地应对这些挑战是实现从炒作到可持续业务影响的关键。

成功将 PoC 推向生产环境，往往取决于战略和组织准备，而不仅仅是技术可行性。展示清晰的商业价值和投资回报率（ROI）至关重要，因为许多试点项目在没有量化的好处时会陷入停滞，无法获得进一步投资的支持。

实现广泛的利益相关者对齐——包括业务部门、IT、法律和合规团队的对齐，结合清晰的操作整合计划，是至关重要的。此外，确保强有力的问题解决适配（将 GenAI 能力与业务需求匹配）可以防止技术的误用。

最终，实现价值还严重依赖于有效的变革管理策略，以准备员工并专注于通过可用且可信的系统推动用户采用。

数据相关挑战（Data-related challenges）

数据治理 和 数据质量 是任何成功 GenAI 部署的基础。确保训练数据的法律权利（数据所有权与许可）是第一步。系统的性能深刻依赖于对高质量、相关且无偏数据的访问。

数据质量不佳会破坏所有后续努力，尤其是对于需要准确环境感知的智能体来说。克服与数据整合相关的挑战通常涉及打破组织内复杂的数据孤岛。

此外，在处理敏感数据时，保持隐私和合规性是不可妥协的，必须遵守 GDPR 或 HIPAA 等法规，采用匿名化与加密技术，这对维护用户信任至关重要。

模型与技术挑战（Model and technical challenges）

生产系统要求高水平的稳健性与安全性。模型和智能体必须具有抵御对抗性攻击的能力，且必须实施强大的输入验证与净化机制。

必须确保在多样化的真实场景中（领域适配与泛化）的持续性能，并且需要机制来管理可能的模型或智能体行为漂移。

对于与外部系统交互的智能体来说，确保工具的使用（例如 API 交互）至关重要。实现生产级可扩展性需要适当的基础设施选择（云服务、TPU/GPU 硬件）、高效低延迟的模型服务架构以及稳健的数据管道。通过成熟的 LLMOps/AgentOps 实践进行全面监控成为管理整个生命周期的必要条件。

资源相关挑战（Resource-related challenges）

获取和留住必要的技术人才，在数据科学、机器学习工程、软件开发和运营等方面的技术专长是非常困难的。此外，构建、训练、微调和运行大型模型或复杂的智能体系统所需的成本和资源约束往往非常巨大，需要仔细管理。

伦理和负责任的 AI（Ethical and responsible AI）

所有这些挑战中，伦理和负责任的 AI 实践至关重要。解决并减轻数据、模型和智能体决策中的潜在偏见对于公平性和公正性至关重要。建立透明性、可解释性（理解智能体或模型做出某个决策的原因）以及稳健的治理框架，对于问责制和负责任的部署至关重要。遵守法律和伦理标准不是可选的，而是构建可持续和可信的 AI 解决方案的基础。

失败示例（Failure Example）

例如，一家大型电商公司开发了一个“退货与订单状态智能体”，用于处理常见的客户服务询问，减少人工支持团队的负担。目标是为客户提供即时的 24/7 支持，回答两个最常见的问题：“我的订单状态是什么？”和“如何退货？”

然而，尽管目标明确并且初期表现不错，实验性原型（PoC）到动态生产环境的过渡暴露了系统设计的关键缺陷。

PoC 阶段：在受控实验环境中，智能体取得了显著成功。它使用经过筛选的 FAQ 数据集，并连接到一个干净、静态的订单数据库。当被问到“如何退货？”或“订单 #12345 的状态如何？”时，智能体提供了完美且准确的答案。PoC 获得批准，项目迅速进入生产阶段。

生产阶段失败：一旦部署到实时网站，智能体在几个小时内开始发生严重故障：

上下文管理不足： 一位客户问道：“我的订单 #54321 昨天应该到了，在哪里？”智能体只能访问内部订单数据库，看到状态为“已发货”，于是反复回应：“您的订单 #54321 已经发货。”它没有考虑到快递公司发生的服务中断的公共信息，无法提供有帮助的答案，导致客户极度沮丧。
幻觉与设计缺陷： 一位客户询问某个特定促销商品的退货政策。该政策不在智能体的 RAG 知识库中。智能体的 LLM 核心并没有承认自己不知道，而是通过从标准退货政策中泛化出一个回答，并自信地告诉客户他们可以全额退款，这显然是公司无法兑现的承诺，导致客户升级投诉，公司最终不得不赔偿客户。
工作流故障： 智能体未能正确集成到人工支持工作流中。当它无法解决问题时，它的唯一功能是说：“我无法帮忙。请联系支持。”没有转交对话、提供工单号或传递对话历史给人工客服，迫使沮丧的客户重新开始整个流程，摧毁了任何潜在的效率提升，并恶化了客户体验。

在经历了一周的客户投诉升级、负面社交媒体反馈和人工修正错误的高成本后，公司将该智能体从生产中撤回。这个项目成为一个深刻的教训：在实验室内对干净数据进行成功测试的 PoC 并不代表能够顺利过渡到生产级系统。未能为真实世界上下文架构设计、处理边缘情况，以及未能无缝集成到现有业务流程中，使一个有前景的实验变成了昂贵的失败。

面临的挑战概览（Challenges and considerations for taking GenAI-based applications to production）

Challenge category	Key considerations/specific challenges
Strategic and organizational	毕业 PoC（展示 ROI、利益相关者对齐、运营整合）、确保问题解决适配、变革管理、推动用户采用
Data-related	数据治理（所有权、许可）、确保数据质量（相关性、无偏）、打破数据孤岛、确保隐私和合规性（GDPR、HIPAA、用户信任）
Model and technical	确保模型的稳健性和安全性（对抗性攻击、输入验证、漂移管理、安全工具使用）、实现可扩展性（基础设施、服务）、处理技术整合（遗留系统、API）、实现监控和 LLMOps/AgentOps、减少幻觉/确保准确性（扎根、上下文）
Resource-related	获取/保留必要的技术专长，管理成本和资源约束（计算、开发）
Ethical and responsible AI	解决/减轻偏见、确保透明性和可解释性、建立治理框架，遵守合规要求和伦理标准

总结（Summary）

本章提供了在企业环境中 GenAI 全景的基础概述，描绘了从核心概念到复杂的智能体式 AI 系统的进展路径。

我们考察了 GenAI 的变革潜力、其基本能力以及广泛应用，强调了上下文管理在实现可靠结果中的关键作用，并介绍了智能体的基本解剖结构（感知、推理、规划和行动），作为构建更自主系统的基础。

GenAI 成熟度模型作为战略路线图提供了开发路径，强调了构建先进单智能体系统和多智能体系统时互操作性标准（函数调用、MCP 和 A2A）的日益重要性。

最后，我们认识到，组织在将这些强大技术从实验转化为稳健的生产级解决方案时面临的重大挑战。

关键收获：

GenAI 的价值具有战略意义：GenAI 提供了强大的能力，如推理和内容创造，但实现其商业价值需要采取战略性的、面向生产的方式，超越简单的实验。
上下文为王：任何智能体系统的可靠性依赖于有效管理上下文，以防止错误（如幻觉）。这是系统设计中的核心挑战。
智能体式 AI 是一种结构性转变：智能体式 AI 代表着向自主、目标导向系统的转变。理解智能体的核心解剖结构，即感知、推理、规划和行动的能力，是构建它们的基础。
GenAI 成熟度模型是路线图：该模型为企业提供了战略路径，概述了从基础应用到复杂智能体系统的进展，并突出显示了克服 PoC 到生产级系统过渡的关键挑战（如数据治理、安全性和 ROI）。
智能体技术栈正在形成：构建先进的单智能体和多智能体系统依赖于新兴的技术栈，包括函数调用、MCP 和 A2A 等互操作性标准，以支持模块化、可扩展性和协作等关键特性。

在下一章中，我们将专门关注驱动许多智能体系统的引擎：LLM。我们将深入探讨如何选择、部署和调整 LLM，确保它们真正具备“智能体就绪”能力，能够支持推理（即思维）、规划和沟通，以实现有效的智能体表现。