检索增强生成已死:企业为何弃用向量数据库而选择智能体架构

35 阅读6分钟

企业正在超越检索增强生成(RAG)和向量数据库,采用能够动态适应、推理和编排知识的

AI

智能体架构。

在过去的两年里,**检索增强生成(RAG)**一直是企业AI的宠儿。向量数据库如雨后春笋般一夜之间涌现,承诺通过精确检索为大语言模型提供强大动力。

但事情出现了转折:在如今的会议室和实验室里,检索增强生成(RAG)疲劳是真实存在的。早期的热情正逐渐被挫败感所取代。首席信息官们并不想要另一个数据库;他们想要的是自主AI系统,这些系统能够编排知识、根据上下文进行推理,并实时适应变化。

换句话说,企业们正在悄悄表示:

检索增强生成(RAG)已死,代理架构万岁。

为什么RAG会兴起(以及为什么它会停滞不前)

让我们倒回。

检索增强生成(RAG)解决了一个明显的问题:大语言模型(LLMs)会产生幻觉。通过接入由向量搜索驱动的检索层,企业可以将答案建立在自己的数据之上。Pinecone、Weaviate和Milvus在数据工程领域成为了家喻户晓的名字。

有一段时间,这种做法效果极佳。客户支持机器人变得更加敏锐。内部知识助手看起来更可信。幻灯片吹嘘着“值得信赖的AI”。

但随后,现实降临了。

企业报告的痛点:

  • **复杂的数据管道:**构建、维护和调整嵌入比供应商承认的要困难。

  • 延迟瓶颈: ANN(近似最近邻)搜索并非没有代价——它会增加开销。

  • **上下文过载:**将前k个结果直接放入提示中往往会使输入令牌膨胀,并降低推理能力。

  • **治理噩梦:**合规团队对黑盒检索流程望而却步。

一位《财富》100强企业的CTO在arXiv研讨会上打趣道:

“RAG就像胶带。它在演示中能阻止幻觉,但在企业级规模下,它就散架了。”

智能体架构的崛起

企业并没有放弃AI,而是在向更高层次迈进。

团队没有直接将大语言模型(LLMs)连接到向量存储,而是在试验基于代理的架构:一种多步骤系统,其中大语言模型在不同知识源中充当规划者、委派者和验证者。

这就是思维方式的转变:

  • 检索文档

    →到

    委派任务

  • 注入静态上下文

    →到

    动态编排

  • 单次回答

    →到

    借助工具进行的推理对话。

代理示例实战

考虑一个企业合规性查询:

“总结我们最新的GDPR政策更新,并将其与客户数据流进行映射。”

**检索增强生成(RAG)流程:**检索前k个策略文档,期望模型将它们整合为连贯的摘要。

座席流程:

  1. 大语言模型代理查询内部策略DB。

  2. 代理解析客户数据流图。

  3. 代理调用推理子代理进行交叉映射。

  4. 主管代理在交付前验证输出。

区别何在?在于架构中融入了治理、可追溯性和多步骤推理。

图表:从检索增强生成(RAG)到智能体系统

RAG管道代理架构
┌─────────────────────┐ ┌──────────────────────────┐
►用户查询☆用户查询☆
└──────────┬──────────┘ └───────────┬──────────────┘
﹗﹗
┌────────▼─────────┐ ┌─────────▼─────────┐
∙嵌入查询∙计划代理∙
   └────────┬─────────┘                   └─────────┬─────────┘
            │                                       │
   ┌────────▼─────────┐        ┌────────────┐ ┌─────▼─────┐
   │ Vector DB 搜索 │ -----> │ 文档代理 │ │ 数据代理 │
   └────────┬─────────┘        └──────┬─────┘ └─────┬─────┘
            │                         │             │
   ┌────────▼─────────┐        ┌──────▼─────────────▼──────┐
   │ LLM + 检索到的  │        │ 推理/验证代理 │
上下文 │ └───────────┬───────────────┘
└─────────────────┘ │
▼▼▼▼▼
┌─────────────────────┐
☆最终验证答案。
└─────────────────────┘

智能体将检索转变为众多工具中的一种,而非整个流程。

来自arXiv和行业的证据

学术预印本也开始呼应这一转变。在arXiv上,2023 - 2024年的论文越来越多地将RAG描述为一种临时解决方案,而非长期的解决办法。例如以下标题:

  • “超越检索增强生成(RAG):企业知识系统的多智能体协作”

  • “大语言模型智能体中的自适应编排”

与此同时,行业实验也呈现出相同的轨迹:

  • Microsoft Copilot悄然集成了类似代理的任务编排功能,而不是仅仅依赖于检索。

  • OpenAI的GPTs更像是代理——能够委托给API和工具——而不是像RAG管道那样。

  • 企业试点项目报告称,从以向量DB为主的基础设施转向轻量级编排器时,ROI更高。

这是否意味着向量数据库已经过时了?

不完全是。

向量数据库对于语义搜索仍然至关重要,并且是更大架构中的组成部分。但它们正在被降级——从主角沦为配角。

可以把它们想象成传统数据库中的索引:至关重要,但不可见。用户不想管理嵌入、索引和 ANN 参数。他们想要更高级的系统,能够决定何时以及如何检索,而无需手动调整。

代码速览:配备检索工具的编排式智能体

以下是一个使用LangChain风格伪代码的Python示例:

从代理导入代理,检索工具

#定义检索工具(向量DB包装器)
retrieval_tool=检索工具(db="松果",top_k=5#用推理+检索定义一个agent
compliance_agent=代理(
工具=[retrieval_tool],
目标=["检查欧盟数据保护法更新","映射客户流"]#查询代理
答案=compliance_agent.run("总结欧盟数据保护法更新与数据流")
打印(回答)

注意:检索只是一个工具。智能体决定何时使用它,并将其与推理相结合。

企业为何更青睐智能体而非单纯的检索增强生成(RAG)

1. 治理优先

代理允许对使用了哪些工具、何时使用以及为何使用进行审计日志记录。非常适合合规性要求。

2. 适应性

智能体可以在检索、计算和推理之间切换。RAG则局限于搜索。

3. 可扩展性

企业可以为财务、HR或法务添加专门的子代理,而不是无休止地调整嵌入。

4. 更好的 UX

多步代理推理更像是一个真正的助手,而不是涂了口红的搜索引擎。

反驳观点:检索增强生成(RAG)仍有其用武之地

公平地说:宣称RAG“已死”更多是一种夸张说法,而非字面意思。它仍有强大的适用领域:

  • 需要快速语义搜索的FAQ机器人

  • 小型应用,其中延迟和成本比编排更重要。

  • 混合系统,其中RAG管道接入更广泛的智能体框架。

但从宏观角度来看,企业不想像照顾婴儿一样管理向量存储。他们想要的是能够掌控工作流程的AI系统。

结束语

企业AI栈正在迅速成熟。RAG是重要的一章,但它绝非定论。

随着智能体架构的兴起——结合推理、编排和选择性检索——向量数据库将逐渐退居幕后,就像如今的TCP/IP一样。必不可少,但却不为人所见。

那么,检索增强生成(RAG)是否“过时”了呢?也许从绝对意义上来说并非如此。但在企业会议室里,热门词汇已经发生了转变。问题不再是

“我们如何用RAG来为大语言模型(LLMs)提供依据?”

而是

“我们如何构建真正能完成工作的智能体?”