文章讨论了传统 RAG 系统的局限性,并介绍了 Agentic RAG 架构如何通过引入具有判断机制的 AI 代理来提高 GenAI 系统的精度,包括查询规划、自适应检索、证据验证、自我反思和长期记忆等五个方面。Agentic RAG 将静态管道转变为协作系统,从而提高输出质量。
译自:The Precision Engine: Why Agentic RAG Is GenAI’s Next Leap
作者:Adi Polak
当一家大型航空公司的基于 LLM 的聊天机器人虚构了一项折扣政策,而航空公司不得不兑现时,这一事件凸显了对精确、可信的 GenAI 系统的需求。这个故事和许多类似的故事此后成为使用生成式 AI 进行构建的开发人员的警示故事。
如今,随着越来越多的企业将生成模型集成到生产工作流程、决策系统和面向客户的应用程序中,精确性已成为一个不容商量的差异化因素。事实上,74% 的 IT 领导者预计 GenAI 的使用将持续激增。如果没有精确性,你的 AI 输出就会偏离到错误信息、损害品牌声誉的不准确之处或削弱用户信任的决策。
高精度输出意味着你的 AI 正在正确地解决问题,推动投资回报,并确保一致、高质量的性能。这就是你的 GenAI 解决方案 转化为长期竞争优势的方式。
将 GenAI 扎根于现实:RAG 的作用和局限性
一种以数据为中心的优化方法,用于提高精度,是通过 检索增强生成 (RAG)。RAG 使 LLM 能够在特定领域的上下文中更加准确,方法是简单地将响应建立在 最新的知识 之上。
- 也有缺点。RAG 系统在检索、增强和生成阶段都有其自身的局限性和挑战:
- 缺少或过时的内容: 如果知识库缺乏覆盖范围,或者更糟糕的是,它已经过时,模型仍然会通过猜测来“填补空白”。这是一个高风险的棘手情况。
- 信噪比: 你的模型可能难以在面对冲突或离题内容时提取准确的信息,从而导致不一致的输出和用户沮丧。
- 有限的记忆和上下文: 长对话可能会超过上下文窗口,导致上下文漂移和重复,最终会降低多轮交互的输出质量。
- 粗糙的分块和向量限制: 短上下文块可能无法提供完整的画面。近似最近邻 (aNN) 和 K 最近邻 (kNN) 等检索机制在处理大型数据集时可能会变得嘈杂和缓慢,从而导致较低的召回率。或者通过延迟和计算成本来降低你的应用程序速度。
- 没有反馈循环: 经典的 RAG 方法不会自我检查或迭代,从而导致错误传播。它们缺乏基于输出质量进行自我改进的强大、自动化机制。
超越基本 RAG:进入 Agentic RAG
你可以尝试几种方法来改进 RAG 检索,例如重新排序和特定领域的调整,但 agentic RAG 架构使你的解决方案更进一步。它将静态 RAG 管道转换为自适应、智能的系统。它通过引入一种或多种类型的具有判断机制的专用 AI 代理 来实现这一点。这种系统的结果是每次运行都能产生更高质量的输出。
与被锁定到单个 RAG 解决方案不同,agentic RAG 允许你的 LLM 从多个数据源和工具中提取数据,从而提供更大的灵活性。与传统 RAG 以最小的适应性对查询做出反应不同,agentic RAG 可以在飞行中根据上下文更改其检索策略。通过多代理协同工作的系统,你可以构建可扩展的 AI 系统,这些系统可以处理范围广泛的用户查询。这些代理不仅仅工作一次就结束,它们还会迭代过去的结果。随着时间的推移,这会提高系统准确性。此外,它们不仅限于文本:高级多模态模型使它们能够处理图像、音频等。
例如,Anthropic 的内部评估表明,“以 Claude Opus 4 作为主代理,Claude Sonnet 4 作为子代理的多代理系统,其性能比单代理 Claude Opus 4 高出 90.2%。”
另一个例子是最近的研究工作 RAGentA 框架。一个协作式多代理 RAG 框架,与标准 RAG 基线相比,答案的忠实度提高了 10.72%。
RAGentA 框架的架构:(1) 混合检索器选择前 20 个文档。(2) 代理 1 生成初始答案。(3) 代理 2 过滤问题-文档-答案三元组。(4) 代理 3 生成带有内联引用的最终答案。(5) 代理 4 检查完整性,可以选择重新构建查询,并将两个答案合并。来源。
一种高度使用的多代理设计模式是 agentic 黑板模式。此模式用于解决需要增量解决方案的复杂问题,其中代理通过共享知识库(“黑板”)异步协作。与快节奏的数字工作区中的同事类似,每个代理都带来了不同的技能。有些专门从事信息检索,有些分析模式,还有一些在共享任何内容之前验证发现。它们自主且异步地贡献于一个共享的版块,在其中发布、改进和重用见解。
运作方式:
- 初始化: 使用初始数据填充黑板。
- 代理激活: 代理监控黑板并在其专业知识与当前状态匹配时做出贡献。
- 迭代改进: 代理增量更新黑板,直到出现解决方案。
例如,在医疗诊断场景中,不同的代理将有权访问不同的患者和临床数据,例如症状、实验室结果和病史。当用户输入症状时,相应的代理会检索相关的诊断可能性并将其发布到共享黑板上。随着诊断的出现,它会广播回所有代理,从而创建一个反馈循环,每个代理都会从结果中学习并随着时间的推移调整其推理。这有助于代理在未来的诊断中变得更加有效和精确。
Agentic RAG 提升精度的 5 种方式
以下是 agentic RAG 如何提高输出质量和事实性,将静态管道转变为由专门的“微服务”组成的协作系统,这些微服务实时推理、评估和适应:
- 查询规划和分解: 就像微服务架构中的请求路由器一样,规划代理将复杂的查询分解为更小、定义明确的任务。这避免了模糊或过于宽泛的检索,确保尽早且准确地呈现正确的的事实。这确保了 RAG 管道的效率。
- 自适应混合检索策略: 将其视为知识检索的负载均衡器。与传统的仅向量检索不同,检索器代理会选择最佳的检索策略:基于术语、基于图形、vectorDB 或 API 调用,这些策略专为每个子任务量身定制。
- 证据判断和验证: 类似于机器学习或 CI/CD 管道中的质量门,判断代理在检索到的信息进入生成阶段之前对其事实相关性和内部一致性进行评分,以有效地过滤掉噪声。
- 自我反思修订: 生成草稿后,修订代理会检查整个流程,验证输入查询与答案/输出的相关性。此机制也可以是外部的并且依赖于主代理输出。
- 长期记忆和结构化检索: 记忆可以被认为是一个缓存层。记忆代理存储来自过去交互的过滤后的见解和用户偏好,然后在必要时使用结构化检索增强来提供上下文。
但是,为了让这些代理能够大规模地提供精度,他们需要不断访问数据、工具以及在系统之间共享信息的能力,并且他们的输出可供多个服务使用。这不仅仅是一个 AI 挑战,它还是一个基础设施和 数据互操作性问题。阅读这篇 博客文章 以深入了解由数据流平台驱动的事件驱动架构如何提供帮助。

