企业正在超越检索增强生成(RAG)和向量数据库,采用能够动态适应、推理和编排知识的
AI
智能体架构。
在过去的两年里,**检索增强生成(RAG)**一直是企业AI的宠儿。向量数据库如雨后春笋般一夜之间涌现,承诺通过精确检索为大语言模型提供强大动力。
但事情出现了转折:在如今的会议室和实验室里,检索增强生成(RAG)疲劳是真实存在的。早期的热情正逐渐被挫败感所取代。首席信息官们并不想要另一个数据库;他们想要的是自主AI系统,这些系统能够编排知识、根据上下文进行推理,并实时适应变化。
换句话说,企业们正在悄悄表示:
检索增强生成(RAG)已死,代理架构万岁。
为什么RAG会兴起(以及为什么它会停滞不前)
让我们倒回。
检索增强生成(RAG)解决了一个明显的问题:大语言模型(LLMs)会产生幻觉。通过接入由向量搜索驱动的检索层,企业可以将答案建立在自己的数据之上。Pinecone、Weaviate和Milvus在数据工程领域成为了家喻户晓的名字。
有一段时间,这种做法效果极佳。客户支持机器人变得更加敏锐。内部知识助手看起来更可信。幻灯片吹嘘着“值得信赖的AI”。
但随后,现实降临了。
企业报告的痛点:
-
**复杂的数据管道:**构建、维护和调整嵌入比供应商承认的要困难。
-
延迟瓶颈: ANN(近似最近邻)搜索并非没有代价——它会增加开销。
-
**上下文过载:**将前k个结果直接放入提示中往往会使输入令牌膨胀,并降低推理能力。
-
**治理噩梦:**合规团队对黑盒检索流程望而却步。
一位《财富》100强企业的CTO在arXiv研讨会上打趣道:
“RAG就像胶带。它在演示中能阻止幻觉,但在企业级规模下,它就散架了。”
智能体架构的崛起
企业并没有放弃AI,而是在向更高层次迈进。
团队没有直接将大语言模型(LLMs)连接到向量存储,而是在试验基于代理的架构:一种多步骤系统,其中大语言模型在不同知识源中充当规划者、委派者和验证者。
这就是思维方式的转变:
-
从
检索文档
→到
委派任务
。
-
从
注入静态上下文
→到
动态编排
。
-
从
单次回答
→到
借助工具进行的推理对话。
代理示例实战
考虑一个企业合规性查询:
“总结我们最新的GDPR政策更新,并将其与客户数据流进行映射。”
**检索增强生成(RAG)流程:**检索前k个策略文档,期望模型将它们整合为连贯的摘要。
座席流程:
-
大语言模型代理查询内部策略DB。
-
代理解析客户数据流图。
-
代理调用推理子代理进行交叉映射。
-
主管代理在交付前验证输出。
区别何在?在于架构中融入了治理、可追溯性和多步骤推理。
图表:从检索增强生成(RAG)到智能体系统
RAG管道代理架构
┌─────────────────────┐ ┌──────────────────────────┐
►用户查询☆用户查询☆
└──────────┬──────────┘ └───────────┬──────────────┘
﹗﹗
┌────────▼─────────┐ ┌─────────▼─────────┐
∙嵌入查询∙计划代理∙
└────────┬─────────┘ └─────────┬─────────┘
│ │
┌────────▼─────────┐ ┌────────────┐ ┌─────▼─────┐
│ Vector DB 搜索 │ -----> │ 文档代理 │ │ 数据代理 │
└────────┬─────────┘ └──────┬─────┘ └─────┬─────┘
│ │ │
┌────────▼─────────┐ ┌──────▼─────────────▼──────┐
│ LLM + 检索到的 │ │ 推理/验证代理 │
上下文 │ └───────────┬───────────────┘
└─────────────────┘ │
▼▼▼▼▼
┌─────────────────────┐
☆最终验证答案。
└─────────────────────┘
智能体将检索转变为众多工具中的一种,而非整个流程。
来自arXiv和行业的证据
学术预印本也开始呼应这一转变。在arXiv上,2023 - 2024年的论文越来越多地将RAG描述为一种临时解决方案,而非长期的解决办法。例如以下标题:
-
“超越检索增强生成(RAG):企业知识系统的多智能体协作”
-
“大语言模型智能体中的自适应编排”
与此同时,行业实验也呈现出相同的轨迹:
-
Microsoft Copilot悄然集成了类似代理的任务编排功能,而不是仅仅依赖于检索。
-
OpenAI的GPTs更像是代理——能够委托给API和工具——而不是像RAG管道那样。
-
企业试点项目报告称,从以向量DB为主的基础设施转向轻量级编排器时,ROI更高。
这是否意味着向量数据库已经过时了?
不完全是。
向量数据库对于语义搜索仍然至关重要,并且是更大架构中的组成部分。但它们正在被降级——从主角沦为配角。
可以把它们想象成传统数据库中的索引:至关重要,但不可见。用户不想管理嵌入、索引和 ANN 参数。他们想要更高级的系统,能够决定何时以及如何检索,而无需手动调整。
代码速览:配备检索工具的编排式智能体
以下是一个使用LangChain风格伪代码的Python示例:
从代理导入代理,检索工具
#定义检索工具(向量DB包装器)
retrieval_tool=检索工具(db="松果",top_k=5)
#用推理+检索定义一个agent
compliance_agent=代理(
工具=[retrieval_tool],
目标=["检查欧盟数据保护法更新","映射客户流"]
)
#查询代理
答案=compliance_agent.run("总结欧盟数据保护法更新与数据流")
打印(回答)
注意:检索只是一个工具。智能体决定何时使用它,并将其与推理相结合。
企业为何更青睐智能体而非单纯的检索增强生成(RAG)
1. 治理优先
代理允许对使用了哪些工具、何时使用以及为何使用进行审计日志记录。非常适合合规性要求。
2. 适应性
智能体可以在检索、计算和推理之间切换。RAG则局限于搜索。
3. 可扩展性
企业可以为财务、HR或法务添加专门的子代理,而不是无休止地调整嵌入。
4. 更好的 UX
多步代理推理更像是一个真正的助手,而不是涂了口红的搜索引擎。
反驳观点:检索增强生成(RAG)仍有其用武之地
公平地说:宣称RAG“已死”更多是一种夸张说法,而非字面意思。它仍有强大的适用领域:
-
需要快速语义搜索的FAQ机器人。
-
小型应用,其中延迟和成本比编排更重要。
-
混合系统,其中RAG管道接入更广泛的智能体框架。
但从宏观角度来看,企业不想像照顾婴儿一样管理向量存储。他们想要的是能够掌控工作流程的AI系统。
结束语
企业AI栈正在迅速成熟。RAG是重要的一章,但它绝非定论。
随着智能体架构的兴起——结合推理、编排和选择性检索——向量数据库将逐渐退居幕后,就像如今的TCP/IP一样。必不可少,但却不为人所见。
那么,检索增强生成(RAG)是否“过时”了呢?也许从绝对意义上来说并非如此。但在企业会议室里,热门词汇已经发生了转变。问题不再是
“我们如何用RAG来为大语言模型(LLMs)提供依据?”
而是
“我们如何构建真正能完成工作的智能体?”