使用 MCP 与 A2A 设计多智能体 AI 系统——生成式 AI 与 AI 智能体导论

62 阅读32分钟

AI 智能体代表了我们构建与交互智能系统方式的一次重大演进。不同于静态模型或聊天机器人,智能体能够进行推理、使用工具、记住过去的交互,并在既定边界内自主行动。AI 智能体构建在生成式 AI(GenAI)技术之上,使我们能够打造在动态环境中具备自适应性、目的性与有效性的系统。

本书将对智能体 AI 系统的演进、架构与实践落地进行全面探讨。本书的独特之处在于:你将从零开始构建一个完整的智能体 AI 框架。AI-6 框架支持开发能够进行复杂推理、工具使用以及多步骤任务执行的高级自治智能体。全书共 12 章,涵盖从基础概念与单智能体架构,到高级多智能体系统、测试方法、部署策略,以及与模型上下文协议(MCP)和 Agent2Agent(A2A)协议等新兴技术的集成。本书既提供理论理解,也提供动手实现的指导,因此对希望构建真实世界 AI 智能体系统的开发者、研究人员与实践者都具有价值。

本章指出:AI 智能体与聊天机器人在本质上存在差异,体现在五个关键特征上:自治性、感知、推理与规划、行动能力,以及学习与适应——它们将 AI 从被动响应者转变为主动的问题解决者。本章还回溯了 AI 的演进历程:从 20 世纪 50 年代的符号推理,到 80 年代的专家系统,90 年代的机器学习,以及 2006 年之后的深度学习,再到当今基于 Transformer 的智能体,展示了每个时代的局限如何推动下一次突破的出现。

智能体系统中浮现出四种架构模式——单智能体循环、规划者-执行者模型、多智能体协作,以及基于图的工作流——每一种模式都依赖三项关键组件的支撑:记忆、工具与编排。

在本章中,我们将探讨 GenAI 与 AI 智能体的基础概念。我们将定义什么是 AI 智能体,它与传统聊天机器人有何不同,并讨论智能体 AI 的多种使用场景。我们还将深入分析智能体系统的架构。

在本章中,我们将涵盖以下主要内容:

  • 生成式 AI 的演进
  • AI 智能体介绍
  • 理解 AI 智能体的架构

生成式 AI 的演进

人工智能(AI)一直是计算机科学家与未来学家数十年来的梦想。早在 20 世纪 40 年代数字计算机刚被发明出来时,研究者就开始探索机器模拟人类思维与行为的可能性。多年来,AI 经历了不同阶段,也反复在希望与失望的周期中起伏。在这一过程中,始终存在一种有趣的张力:一边是受大脑启发的方法,另一边是基于逻辑的办法。比如,感知机(perceptron)——一种早期神经网络模型——由 Frank Rosenblatt 于 20 世纪 50 年代提出,是现代神经网络的祖先。起初,人们对基于感知机的系统寄予厚望,因为它能解决“用一条线性决策边界分隔类别”的问题,包括一些基础任务,例如区分:

  • 垂直线与水平线
  • 明暗图案
  • 在受控条件下的某些手写字符

在 1950~60 年代,这些能力看起来非常惊艳,因为“机器能从数据中学习”本身还是个新概念。但感知机模型非常受限,业界很快对这种路线失望,神经网络研究也随之沉寂了数十年。

符号 AI 的早期

20 世纪 50~60 年代的计算机科学先驱为 AI 奠定了基础:符号推理(en.wikipedia.org/wiki/Symbol…)与早期神经网络并行发展。符号 AI 的代表例子包括 Alan Turing 的图灵测试(en.wikipedia.org/wiki/Turing…),以及 John McCarthy 开发的、面向 AI 的编程语言 LISP(en.wikipedia.org/wiki/Lisp_(…)。

符号推理指的是一大类 AI 技术:它依赖高层次、可被人类读懂的问题表示、逻辑与搜索。它使用诸如逻辑编程、产生式规则、语义网络与框架(frames)等工具,通过结构化的符号操作来建模并解决问题。

在这一时期,人们构建了不少雄心勃勃且很有趣的系统,比如 SHRDLU——一个自然语言理解程序,允许用户与一个由积木构成的虚拟世界交互。下面是一段人类与 SHRDLU 的自然语言对话:

人:拿起一个又大又红的积木。
计算机:好的。
人:抓住那个金字塔。
计算机:我不理解你指的是哪个金字塔。
人(改变主意):找一个比你手里那个更高的积木,把它放进盒子里。
计算机:你说的 “它”,我理解为“比我手里那个更高的积木”。
计算机:好的。
人:盒子里有什么?
计算机:蓝色金字塔和蓝色积木。
人:金字塔下面支撑着什么?
计算机:盒子。

对于一个 20 世纪 70 年代构建的系统来说,这非常惊人,但它被限制在特定领域里,并且依赖大量手工编写的知识。

同一时期,感知机也获得了一定关注。对比来看,符号 AI 依靠显式、可读的规则与逻辑推理来解题,可解释性强,但往往僵硬、且高度依赖人工;另一个重大缺陷是,在真实世界场景中,规则数量会发生组合爆炸,很快变得难以管理。

另一方面,像感知机这样的早期神经网络通过调整数值权重从数据中学习,能从示例中泛化,但对其决策过程几乎没有透明度。总体而言,符号 AI 擅长结构化、规则驱动的任务;而感知机更适用于在噪声大或存在歧义的环境中进行模式识别。

但这一波并没有持续太久。由于早期系统未能兑现雄心勃勃的承诺,AI 资金与关注度下降,出现了第一次 AI 寒冬。造成这些失败的原因有多方面:最突出的是技术手段还不足以应对真实世界问题的复杂性,可用计算资源不足,以及缺乏训练数据。

接下来进入专家系统时代。

专家系统时代

20 世纪 80 年代,专家系统走到台前。其核心思想是把人类专家知识编码成规则,由软件程序执行。出现了诸如用于医疗诊断的 MYCIN(en.wikipedia.org/wiki/Mycin)和用于化学分析的 DENDRAL(en.wikipedia.org/wiki/Dendra…)等系统,但它们受限于需要大量领域知识,以及很难用规则捕捉人类推理的复杂性。下面是 MYCIN 的一条规则示例:

如果:

  • 感染是原发性菌血症
  • 且培养部位属于无菌部位之一
  • 且怀疑的入侵门户是胃肠道

那么:

  • 有提示性证据(0.7)表明该微生物是拟杆菌属(Bacteroides)。

这种基于规则的方法在一定程度上实现了决策自动化,也取得过一些成功。但总体而言,专家系统脆弱、维护困难,最终在 80 年代末又迎来一次 AI 寒冬。这种脆弱性来自几个核心限制:为覆盖真实世界复杂性而需要的规则数量很快变得不可控;领域一旦演化,规则就必须不断更新,导致维护成本极高;此外,在处理含糊或不确定情境时,往往无法为每一种可能情况定义明确规则。这些因素让专家系统缺乏弹性,并且在规模化上最终不可持续。

下一个重要里程碑是机器学习时代。

机器学习与统计方法的崛起

现代 AI 的一波关键浪潮在 20 世纪 90 年代兴起:机器学习(ML)与统计方法成为主角。支持向量机(SVM)、决策树、随机森林、逻辑回归等方法让系统能够处理大规模数据并学习。那时并没有太多炒作,但它为下一波 AI 突破铺好了地基。研究重心从手工规则转向数据驱动,使系统能够基于示例学习模式、进行预测,而不是靠显式编程。我们不再告诉计算机“该怎么思考”,而是把一堆数据丢给它,让它自己摸索。也正是在这个时期,“数据是新的石油”(data is the new oil)这句话被提出。

不过,尽管这些方法对很多任务有效,它们依然需要大量耐心的特征工程工作,并且在复杂推理与理解上仍然吃力。随后,深度学习网络开始走红。

深度学习与神经网络复兴

分层神经网络的研究突破、GPU 加速以及更大规模数据集,解锁了视觉、语音与文本领域的新能力。“深度学习”(deep learning)这一术语在 2006 年被提出,用来描述这种新方法。我也是这波浪潮的一部分:在 2000 年代中期,我在 Numenta(www.numenta.com/)从事受大脑启发的机器学习工作。

随着 YouTube、Facebook、Twitter 等社交媒体崛起,以及存储与计算成本大幅下降,数据迎来爆炸式增长。研究者终于具备了训练深度网络所需的数据规模与硬件条件。

2012 年的 AlexNet(en.wikipedia.org/wiki/AlexNe…)、2013 年的 Word2Vec(en.wikipedia.org/wiki/Word2v…)以及 2014 年的 DeepSpeech(arxiv.org/abs/1412.55…)等创新,重新定义了 AI 在图像识别、自然语言处理与语音识别等领域的能力。图灵测试还没有被“彻底攻克”,但我们已经越来越接近。

20 世纪 90 年代末到 2000 年代初,互联网使用与数字存储的爆发式增长,创造了前所未有的机会,使人们能够收集并处理海量数据,进而推动下一代 AI 突破。2009 年发布的 ImageNet 便是典型例子:它包含超过 1400 万张人工标注图像,覆盖 2 万多个类别,显示出大规模、精心策划的数据集如何成为训练鲁棒模型的关键基础设施。ImageNet 的年度竞赛催化了 2012 年 AlexNet 等突破性架构,证明只要有足够高质量训练数据,深度神经网络就能实现前所未有的准确率。这种以数据为中心的路线确立了一个新范式:模型性能会随着数据量与数据质量可预期地扩展,从而推动组织把数据采集与数据治理当作核心竞争优势。

有趣的是,当时最著名的 AI 成功之一是 IBM 的 Deep Blue 在国际象棋中击败加里·卡斯帕罗夫,它主要依靠原始算力,同时使用了更“老派”的符号 AI 和手工编码技术。使用协同过滤、基于用户偏好推荐电影的 Netflix 推荐系统,也很能代表那个时代。

然后,我们进入了当下的时代。

生成模型、Transformer 与语言模型的出现

2014 年,生成对抗网络(GANs)(en.wikipedia.org/wiki/Genera…)提出,使得从零生成图像、视频与音乐成为可能。但最大的突破出现在 2017 年:Transformer 架构在经典论文《Attention is All You Need》中被提出:arxiv.org/pdf/1706.03… 。Transformer 通过自注意力机制配合纯前馈网络彻底改变了领域格局,实现了并行训练,其效率相对当时的主流循环神经网络(RNN)高出多个数量级。Transformer 成为后续众多模型的基础,包括 Google 的 BERT、OpenAI 的 GPT-2,以及后来的 GPT-3。它的成功也得益于 Common Crawl(commoncrawl.org/)和 the Pile(arxiv.org/abs/2101.00…)等海量数据集的出现,使更强大的语言模型训练成为可能。

但真正的“魔法”,直到 2022 年末 OpenAI 发布基于 GPT-3.5 的 ChatGPT 才爆发。AI 突然进入大众视野,全世界被大语言模型的能力所吸引。人们发现可以用“基于人类反馈的强化学习”(RLHF)来微调模型、使其更符合人类意图,这成了改变游戏规则的关键。其他公司很快跟进,发布各自的模型,比如 Google 的 Bard 和 Meta 的 Llama。在图像生成方面,DALL-E、Stable Diffusion 与 Midjourney 等模型也证明:Transformer 架构同样可以用于从文本提示生成高质量图像。

OpenAI 研究者早在 2017 年就讨论了 RLHF:openai.com/index/learn…
你也可以在这里了解 RLHF:en.wikipedia.org/wiki/Reinfo…

一夜之间,AI 不仅会说话,还会画画。世界兴奋不已,可能性看起来无穷无尽。与此同时,当人们意识到 AI 也能在创意表达领域与人类竞争——而这曾被认为是人类专属领域——许多人的世界观也因此被打碎。

AI 智能体的兴起

2023 年 3 月初,OpenAI 发布了 GPT-4,作为 GPT-3.5 的更强、更可控的继任者。GPT-4 支持更长上下文,推理能力更强,并展现出早期的多模态流畅性——能够理解文本、图像与语音。OpenAI、Anthropic、Google、Meta、Mistral,以及 DeepSeek、阿里巴巴等中国公司持续发布越来越强的模型;一个又一个基准被这股不可阻挡的创新浪潮击穿。

像 Anthropic 的 Claude 等模型,在编码场景把大模型的能力边界进一步推高;而一些新模型引入了“长推理模式”,允许模型投入更多时间与资源完成复杂任务。

与此同时,前沿开始转向 agentic AI:不只是回答,而是会规划、推理、使用工具并采取行动的模型。OpenAI API 的 function-calling 能力——以及其他提供方的对应能力(例如 Google 的 Gemini、Anthropic 的 Claude)——探索了让大模型成为多步骤工作流、编程助手、网页智能体与现实自动化的骨干能力。

多种 agentic AI 框架也随之涌现,如 LangChain、AutoGPT、AutoGen 和 BabyAGI。这些框架让开发者能构建复杂的 LLM 系统。某种意义上,这让我们“兜了一圈”回到最初:不只是聊天机器人,而是能够就任务推理、调用外部 API、并能动态适应的自治协作伙伴。但问题来了:到底什么是 AI 智能体?

介绍 AI 智能体

“什么是 AI 智能体?”这个问题是本书的核心。在本节中,我们将探讨 AI 智能体的常见定义、它的特征,以及不同类型的 AI 智能体。在下一章《理解 AI 智能体如何工作》中,我们会更深入地分析 AI 智能体的结构、组成,以及各类组件与能力。

如果你问 ChatGPT 什么是 AI 智能体,它大概会给出这样的回答:

AI 智能体是一种系统,它能够感知环境,围绕自身目标进行推理,并采取行动来达成这些目标,通常是自主的或可交互的。

这是一个相当直观的定义,也与人们对“智能体”的普遍理解一致。我们来看看这种 AI 智能体需要具备的特征。

AI 智能体的特征

为了符合上述定义,一个 AI 智能体必须具备以下特征:

自治性(Autonomy) :智能体必须能够独立运行,在没有人类逐步介入的情况下,执行多个步骤以达成目标。注意,这并不意味着智能体必须完全自治。尤其在采取可能存在风险的行动时,它仍然可以由人类监督。后面我们会看到一些例子。智能体可以独立运作,自主决策并采取行动,而无需人类干预。

如果智能体表现足够好,或者其行为后果并不关键,它甚至可以在没有任何人类监督的情况下完全自主运行。

感知(Perception) :AI 智能体必须能够感知其环境——可以是物理环境、数字环境,或二者兼有。这种感知可能来自结构化输入(例如 API 响应),也可能来自非结构化数据(如自然语言、音频或视觉信号)。智能体利用这些信息评估自身当前状态、上下文及相关变化,这些信息会影响它后续的行动与决策,并为之前的行动提供反馈。把输入组装成可用的内部表示是一项巨大的技术挑战。仅以原始网页数据为例,其格式、分辨率与质量千差万别,需要复杂的流水线去解析、校验并标准化这些输入,形成一致、可用于推理的内部表示。

推理与规划(Reasoning and planning) :当智能体感知到环境后,它必须对新信息进行推理,并决定下一步行动。这包括识别目标、评估可选行动,以及制定或更新计划。现代 AI 智能体可能使用符号规划、强化学习或基于神经网络的方法来完成这一过程。规划能力使智能体能够向前看,选择一连串行动序列,而不是只对即时刺激做出反应。

行动(Action) :AI 智能体的核心功能是在环境中采取行动。这些行动可能包括调用工具或 API、生成响应、触发工作流,甚至控制设备。智能体必须能够以符合目标的方式执行这些行动,并根据环境反馈进行调整。要想有效,智能体必须拥有完成目标所需的正确访问权限与授权。

学习与适应(Learning and adaptation) :高级 AI 智能体应该能够从经验中学习。这可能包括更新内部记忆、调整策略,或随时间推移改进行为。有些智能体离线学习(通过训练数据),另一些则在线学习(从实时交互中学习)。在动态且不可预测的环境中运行时,适应性行为至关重要。

AI 智能体把自治、感知、推理、行动与学习结合起来,从而能在动态环境中有效运行,做出有依据的决策,并随着时间不断适应。这些能力已经开始在各行业推动真实世界的应用,提高效率,并催生更智能的系统。

但它们与我们日常开始使用的 ChatGPT、Claude Desktop、Gemini 这类聊天界面到底有什么不同?我们来看看。

关键差异:聊天机器人 vs 智能体

聊天机器人与 AI 智能体常被混用,但它们具有不同特征。基于 LLM 的聊天机器人让用户通过自然语言与 LLM 交互。这种交互通常局限于单次查询(可能包含图片),或通过语音界面完成。

下面是典型的聊天机器人交互流程:

image.png

图 1.1:基于 LLM 的聊天机器人与用户交互

LLM 会“消化”用户输入并生成回复。用户除了通过提示词工程之外,无法直接控制模型做什么。尤其是,用户无法为模型提供对外部数据源和 API 的访问(尽管可以上传文件)。

而 AI 智能体的交互流程要复杂得多。基于用户输入以及推理与规划机制,AI 智能体可以自主执行任务,甚至跑完整个工作流。

下面是 AI 智能体工作流的示意:

image.png

图 1.2:AI 智能体工作流

我们用一个表格总结关键差异:

特性聊天机器人AI 智能体
目的主要用于对话与信息获取自主任务执行与决策
交互以文本为主,常局限于 FAQ多模态,可使用工具与 API
自主性有限,常需要人类输入高自主性,可独立运行
上下文感知上下文保留有限可维护并利用长期上下文
学习静态,基于预训练参数动态,可随时间学习与适应

表 1.1:聊天机器人与 AI 智能体的关键差异

在 GenAI 时代,智能体 AI 系统有许多用例。你可能也已经接触过一些智能体了!我们来看几个 AI 智能体在现实中的应用例子。

智能体 AI 的用例

AI 智能体可以应用于广泛领域与场景。有趣的是,其中一些最成功的应用来自那些过去被认为对 AI 来说过于复杂或过于微妙的领域。但随着我们迈向更强的智能体,我们正在看到软件开发、客户支持、研究、甚至共情式用户交互等方向的突破。

以下是当下 AI 智能体正在有效使用的一些例子:

自治编程助手(Autonomous coding assistants) :软件工程是一项复杂工作,要求对问题域与技术实现都有深刻理解。AI 智能体已经达到这样的水平:能浏览大型代码库,接收 GitHub 或 Jira 任务,自动修复问题、进行大规模重构、编写并运行测试,并确保改动有效。当前一代编码智能体仍无法完全取代高水平的人类工程师,但可以显著提升团队生产力。我把当下这批编码 AI 智能体视为“天才型实习生”(savant intern)。它们能独立完成一部分任务,但在大型代码库中可能迷路,需要一定引导与手把手协助。例子包括 Devin.ai(devin.ai/)、Claude Code(www.anthropic.com/claude-code)、OpenAI 的 codex CLI(github.com/openai/code…)、Google 的 Jules(jules.google/),以及开源的 OpenHands(github.com/All-Hands-A…)。

自动化客户支持(Automated customer support) :客户支持一直被认为是自动化的优先目标。客服机器人已存在 20 多年,但能力一直很有限,用户通常会选择转人工。AI 智能体正在通过“动态助手”取代静态聊天机器人:它们能多轮对话、使用工具并实时解决问题。不同于传统机器人,这些智能体可以完成用户认证、从 CRM 拉取数据,甚至可以升级或关闭工单。Intercom 的 Fin(fin.ai/)就是一个好例子——它能基于公司文档回答复杂问题。类似地,Ada(www.ada.cx/)与 Forethought(forethought.ai/)用智能体处理各类消息渠道中的一线与二线支持任务,减轻人工客服压力。这些系统可与 Zendesk、Salesforce 等工单平台集成,提供端到端的工单解决,而不需要自定义脚本。

研究智能体(Research agents) :研究也是 AI 智能体影响巨大的领域。知识积累速度显著提升,但遗憾的是质量并不总是高。AI 智能体可以帮助研究人员在海量论文中筛选,建立关联、寻找连接点,甚至生成新的假设。如今主要 LLM 提供商都为顶级模型提供研究模式:基础模型本身可以自主执行复杂研究项目,包括生成检索 query、进行网页搜索、分析结果,并将发现综合成一份连贯报告,且报告会带有来源引用链接。下面是一些当时(2025 年 5 月)领先的“思考型模型”:OpenAI o3、o4-mini、Anthropic Claude 4 Opus、Google Gemini 2.5 Pro、xAI Grok 3 Think。但研究智能体不仅仅是访问推理模型;它们还能使用工具,并访问基础模型拿不到的私有数据存储。也有多个利用 AI 智能体的科研项目,例如 Elicit(elicit.org/)、Google 的 Co-Scientist(research.google/blog/accele…),以及微软的 Discovery 平台(azure.microsoft.com/en-us/blog/…)。

个人效率智能体(Personal productivity agents) :个人效率是 AI 智能体很令人兴奋的方向。它们可以帮助用户管理日程、安排优先级、起草邮件或文档。我相信在不久的将来,大多数人都会拥有一个个人 AI 助理,帮助管理数字生活,并随着对用户了解加深而越来越好。使用本地模型会尤其强大,因为它能消除把个人数据分享给第三方提供商的顾虑。例子包括 Motion AI strategists(motionapp.com/ai-creative…)、Reclaim AI(reclaim.ai/)、以及 Superhuman AI(superhuman.com/ai)。

AI 陪伴(AI companions) :AI 陪伴类智能体旨在提供情感支持、对话互动,有时还包括娱乐。它们不只是聊天机器人——通过微调的人格特质、记忆与多模态能力,它们能模拟类人行为,并在互动中唤起真实情绪体验。它们可能扮演共情倾听者、激励教练或玩伴等角色,并常常会随着时间从用户那里学习,适配语气、记忆与行为。例子包括 Replika(replika.ai/)、Pi(pi.ai/)、Character.AI(character.ai/)以及 Anima(anima.ai/)。

现在,是时候理解 AI 智能体在实践中是如何被使用与组织起来的了。

介绍智能体 AI 系统的组成组件

智能体 AI 系统的架构包含若干相互协作的组件,使智能体能够在其环境中进行感知、推理并采取行动。智能体 AI 系统的谱系很广:从在特定领域内、受严格约束运行的高度受限智能体,到能够在真实世界中以最少人类干预运行的全自主智能体。

总体而言,智能体 AI 系统与传统软件系统非常相似:它们拥有计算与存储资源,能够通过网络与其他系统通信。关键差异在于:传统软件系统中的逻辑、决策以及对事件的响应是由软件工程师显式编程实现的;而智能体 AI 系统则把其中一部分高层认知任务委托给 AI 智能体。

智能体 AI 系统的常见组件

无论选择何种架构,任何非简单的智能体 AI 系统都会包含以下组件:

image.png

图 1.3:智能体 AI 系统的通用组件

记忆(Memory) 是智能体 AI 系统的关键组件。它让智能体能够存储并检索关于环境、过往行动以及已学习知识的信息。记忆可以是短期的(当前会话或任务的上下文),也可以是长期的(存储知识、偏好与已学习行为)。我们将在第 2 章探索不同类型的记忆,但先让你有个直观印象,以下是智能体 AI 中最常见的几类记忆:

  • 工作记忆(Working memory) 维护当前上下文窗口。它是系统用于处理并执行任务的即时短期记忆,包含当前会话中的所有输入与输出 token。
  • 情景记忆(Episodic memory) 跟踪近期对话/事件(即以跨会话方式保存的过往交互记录或重要事件)。这使系统能够回忆具体交流或用户行为,从而在时间维度上实现连续性与个性化。
  • 语义记忆(Semantic memory) 是长期积累的事实/概念。它是结构化知识的长期存储,例如通用世界事实、领域信息或概念关系。

工具(Tools) 是智能体可以用来在环境中执行动作的外部资源或 API。如果把 LLM 比作大脑,那么工具就是 AI 系统的眼睛、耳朵与四肢,让它能感知并作用于环境。没有工具,AI 系统只能基于用户输入给建议,而无法在世界中真正“施加行动力”(agency)。

编排(Orchestration) 是协调智能体 AI 系统各组件并让它们协同实现目标的过程。这包括管理智能体、工具与记忆之间的信息流,以及处理与外部系统和人类的交互。编排既可以通过中心控制器完成,也可以采用去中心化方式,让智能体彼此直接通信。人类参与(human-in-the-loop)的程度也可以有所不同。

下面我们来看看不同的智能体 AI 架构。

智能体 AI 架构类型

不同架构适用于不同场景。架构选择取决于具体用例、所需自治程度以及任务复杂度。以下是一些常见架构:

单智能体循环

单智能体循环(single-agent loop) 架构由一个 AI 智能体组成:它感知环境、围绕目标进行推理,并采取行动以达成目标。这个循环通常包含“观察—规划—执行”的周期,使智能体能以有目的且自适应的方式与环境交互。

image.png

图 1.4:单智能体循环架构

在这里,“围绕目标推理”指的是智能体(通常由大语言模型 LLM 驱动)如何解读指令并选择行动路径。LLM 会从提示词、历史上下文以及任何明确陈述的目标中推断意图,然后把复杂任务分解为与期望结果对齐的子任务或步骤。尽管 LLM 并不像人类那样推理,它会利用训练数据中学到的模式来模拟推理过程,往往通过预测在给定上下文中“看起来更有帮助/更面向目标”的回应来实现。这使智能体在追求目标时呈现出审慎且连贯的行为。

该架构适用于较简单的任务:单个智能体可以承载全部复杂性,并且上下文窗口(每次请求 LLM 可用的 token 总量)足以容纳整个任务。智能体可以使用工具与记忆增强能力,但它独立运作,不需要与其他智能体协调。

LLM 的“思考”最好理解为:通过语言对类人推理的模拟。它通过分析海量文本数据中的模式来预测序列中的下一个词,并用概率、上下文与训练来模拟推理。它借助训练数据中的模式模仿认知过程,但缺乏真正的理解、意图性与意识。

一些典型用例包括:

  • 工具增强的问答(Tool-augmented question answering) :与外部工具(如网络搜索、计算器、数据库)配合时,单智能体可以获取事实、计算结果或检索实时信息,从而更准确地回答用户问题
  • 设备监控(Monitoring devices) :智能体可以监控空气质量传感器等设备,长期分析数据,并在检测到异常时发出告警
  • 自动化代码审查(Automated code review) :智能体可动态监测代码仓库变更,并为改动提供审查意见

一般而言,搜索并未集成在 LLM 内部,但一些 LLM 提供商现在提供推理模型,它们可能在内部运行一个可使用工具的智能体循环,例如网页搜索与对外部上传数据(非训练数据)的文件搜索。

当智能体观察到环境变化(例如温控器读数变化)时,它会基于训练数据判断类似情境下的正确动作:把当前温度与设定温度进行对比。如果设定温度不在上下文中,就会触发读取设定温度的动作。当智能体获得当前温度与设定温度后,它会向模型发送消息;模型再基于训练数据生成下一步动作:如果当前温度过低则升温;过高则降温;相等则不做任何操作。

规划者与执行者

规划者与执行者(planner and executors) 架构中,一个规划者智能体负责围绕目标推理并制定计划,把目标分解为若干子任务。随后,这些子任务会被委派给其他智能体,即执行者智能体。规划过程包含:规划者智能体基于其训练数据与提示词生成计划步骤;执行结果可能被回传给规划者,规划者再调整计划并启动更多执行者智能体。

image.png

图 1.5:规划者与执行者架构

这些执行者智能体针对任务进行专门化,并且它们与 LLM 的交互独立于规划者与其他执行者。这意味着:它们管理自己的上下文,并拥有自己的工具集合。对计划执行的协调、以及任务间依赖关系的处理,可以由规划者智能体承担;或者在规划者启动时由一个专门的协调智能体负责。

该架构适用于超出单智能体能力范围的复杂任务。执行者智能体使用同样的智能体 AI 技术,在一般情况下不需要自定义编程。为了访问资源、数据存储与 API 所需的自定义编程主要体现在“工具”的实现上。

典型用例包括:

  • 自动化研究与报告生成
  • 复杂的多步骤数据处理流水线
  • 软件重构与测试计划
  • 为集成任务协调使用多个 API 或工具

多智能体系统

规划者与执行者架构本身是一种“紧耦合”的多智能体架构:规划者(直接或通过协调智能体)控制并编排工作流。它还可以扩展为更复杂的多智能体架构:多个带有特定角色(如 CEO、工程评审) 的智能体可独立运作并相互协作,非常像一个人类团队。

image.png

图 1.6:多智能体架构

在这种架构中,智能体可以彼此通信、共享记忆,并一起迭代推进系统目标。这比“规划者—执行者”自上而下的结构更复杂,允许更动态的交互与并行处理任务。

例如,当编码智能体完成某个模块实现后,它可以通知测试智能体,测试智能体随即对新模块进行测试。当架构师设想的所有模块都由编码智能体实现并被测试智能体验证通过后,架构师就可以开始推进目标系统的下一个版本。多个编码智能体与测试智能体也可以并行处理多个模块。

基于图的架构

基于图的架构(graph-based architectures) 把智能体、任务、工具调用与记忆更新之间的关系表示为一张图。每个任务或智能体都可能动态地生成多个子智能体。整张图的总体结构会基于早期任务结果“有机涌现”。

image.png

图 1.7:智能体系统的图式架构

为简单起见,考虑一个例子:任务是统计某个目录下所有文件的总词数。子智能体 C 负责统计单个文件的词数,因此可以为每个文件启动一个子智能体 C。之后,智能体 1 汇总所有子智能体 C 的结果。

图中的每个节点代表一个智能体、任务、工具或记忆更新;边则表示信息流与依赖关系。采用这种架构的著名框架之一是 LangGraph(www.langchain.com/langgraph)。

智能体图架构的主要优势在于:问题可以自然地被拆解为深层的层级结构。例如在软件开发规划中,顶层目标“构建一个 Web 应用”可以分解为前端、后端与数据库等子系统;每个子系统又有自己的任务,如 UI 设计、API 开发、Schema 建模与测试。每个子任务都可由专门化智能体处理,并沿着图向下传递输出与上下文,从而在不同抽象层之间实现协同且模块化的执行。

但智能体图架构也有不少缺点。它引入显著的协同复杂度:管理依赖关系、消息传递与错误传播会变得难以规模化,也难以调试。此外,过度拆解或智能体频繁生成/销毁(agent churn)会带来额外开销,导致延迟、资源效率低下,或当任务无法很好匹配层级结构时表现得脆弱。

总结

在本章中,我们回顾了生成式 AI 的非凡历程:从符号推理与专家系统的开创性工作,到深度学习与基于 Transformer 的模型迅猛崛起。我们看到该领域如何从基于规则的自动化演进为数据驱动的智能,并最终来到今天这些不仅能理解、还能生成内容的成熟生成模型。

我们也考察了 AI 智能体与智能、自主系统的出现:它们能够感知、规划、行动并适应环境。与传统聊天机器人不同,AI 智能体具备记忆、工具使用与多步骤推理能力,从而能在多样领域执行复杂且动态的任务。我们学习了多种架构,理解它们与聊天机器人的差异,并浏览了一些真实世界用例,从自治编程助手到 AI 陪伴。

到这里,你应该已经具备理解 AI 智能体基本原理与核心概念所需的背景:它们在整个 AI 革命中的位置、以及当前能力边界。这将成为继续旅程的坚实地基。基于这套基础,我们已经准备好在下一章更深入地进入 AI 智能体的内部机制,详细拆解它们如何构建、各组件如何互联,以及它们如何在实践中实现自治与智能。