大模型因检索不足遇瓶颈,RAG(检索增强生成)成为核心。它结合LLM与搜索引擎,解决幻觉问题,提供准确性。混合与图检索结合开源数据库是未来,实现可控、可观测的AI系统。
译自:Open Source Retrieval Infrastructure Can Fix AI’s Production Gap
作者:Carlos Rolo
大模型凭借其更大的上下文窗口、更多的参数和更强的能力,曾一度独占鳌头,但对许多企业工程团队而言,实际情况却日益令人沮丧。仅仅依靠规模似乎就能产生智能,但大多数AI项目仍然感觉像是原型,因为业界一味追求模型尺寸,却牺牲了真正的瓶颈——检索。
我们已经进入了一个阶段,企业需要的是准确性而非新颖性,其AI战略应利用已有的信息,而不是在复杂问题上胡编乱造。这就是检索增强生成 (RAG) 成为核心焦点的原因,它让语言模型不再猜测,而是开始将其答案基于真实数据。掌握这一转变的公司将构建可投入生产的AI系统,而那些未能掌握的公司将继续构建难以走出试点阶段的华丽演示。
表面上,RAG似乎相对简单:将大型语言模型 (LLM) 的语言理解能力与搜索引擎的精确性结合起来,让系统提取相关文档作为上下文,然后生成响应。然而,它之所以无处不在,是因为它解决了幻觉问题,这是AI系统中最痛苦的故障模式。通过强制模型遵守规则并在正确的时间提供正确的上下文,检索使AI变得有用,这是任何编造事实的AI都无法做到的。
真正的生产差距
缺失的检索基础设施是真正的AI生产差距。大多数尝试将智能体系统和LLM驱动工具投入生产的大公司,都未能通过试点阶段,因为它们遇到了脆弱的工作流,无法解释其决策或显示答案来源。嘉年华邮轮公司清楚地阐述了他们面临的挑战,许多组织也面临同样的问题,即业务逻辑变得不可见,当推理链无法检查时,项目就会停滞不前。
由于业务逻辑无法清晰地转化为嵌入,你不能将精确的运营规则编码到向量空间中并期望获得一致的结果。薄弱的检索层会导致模型表现得像一个缺少引用的参考图书馆——一个没有可验证来源的权威性演示。
当检索从嘈杂或不一致的数据源中提取时,这个问题会加剧。模型会基于错误的材料,生成看似精美却建立在腐朽基础之上的答案。RAG使这种故障模式更加明显,迫使公司面对一个往往令人痛苦的现实:大多数数据在AI能够有效使用之前,需要进行大量整理工作。更好的检索需要更好的数据卫生,这是一个团队不能再假装忽视的必要纠正。
基础设施转型正在进行
你可以从主流数据库正在推出的产品中看到这一转变。Postgres、OpenSearch 和 Cassandra 等开源数据库正在引领潮流,增加了向量搜索(如 Postgres pgvector)、语义搜索、混合检索和图能力,为企业提供了根据自身需求构建检索系统的灵活性。这些完全开源项目之所以能够更快地演进,正是因为贡献来自四面八方——不仅仅是错误报告和建议,还有来自解决实际问题的工程师经过生产测试的代码。创新速度超越了任何单一供应商所能匹敌的,并为企业提供了灵活性,可以在数据所在地进行部署,同时为特定领域定制检索逻辑。
这里的开源优势是实用而非纯粹的理论。当检索成为关键基础设施时,企业无法将其视为黑盒。他们需要了解相似性评分的工作原理,为什么某些文档排名更高,以及如何针对特定领域查询调整行为。专有向量数据库可能会让团队无法参与这些决策,而开源项目则让工程师可以检查、修改和优化整个堆栈。
虽然检索本身已经存在多年,但变化在于它在实际AI部署中的核心地位。仅限向量的检索使得生产差距更加恶化。尽管嵌入功能强大,但企业现在正面临其局限性,包括数字精度下降、相似条目之间的区别模糊以及难以处理精确的业务约束。
为何混合检索和图检索至关重要
这就是混合检索正在兴起的原因,Uber的增强型智能体RAG结合了向量搜索和基于BM25的检索,将答案准确性提高了27%;NVIDIA和BlackRock也证明,结合图基础的混合RAG在复杂的金融问答中可以达到96%的忠实度。这些都是行业发展方向的早期信号,其中许多系统都建立在开源基础上,可以针对特定用例进行调整和扩展。
由于业务逻辑本质上是关系型的(策略是关系型的,库存系统是关系型的),图检索正在回归,以向量无法实现的方式连接这些关系。这恢复了建模结构的能力,将图与向量结合可创建更广泛的能力:图提供精确性和真实性,而向量提供灵活性。它们共同反映了企业数据的真实形态。
开源图数据库和向量存储使得这种混合方法变得易于实现,而无需强迫公司进入专有生态系统。这一点尤为重要,因为欧盟的数据所有权压力使得本地检索成为优先事项,公司希望在不将数据传输到外部端点的情况下获得准确性。但除了合规性,开源基础设施赋予组织真正的控制权。当专有供应商更改其API、弃用某个功能或调整其产品策略时,你的检索层不会中断。Postgres、Cassandra 和 OpenSearch 等开源项目强大的社区驱动特性意味着企业可以依赖稳定、获得良好支持的基础设施,而不会因季度盈利压力而消失。
当检索成为关键基础设施时,修改、扩展并真正拥有你的检索堆栈的能力至关重要。你需要能够根据你的领域进行调整,检查其工作原理,并随着需求演变进行调整。
可观测性是缺失的层
企业希望查看哪些文档被检索到,了解为什么这些文档排名高于其他文档,并将每个答案追溯到原始请求。AI治理规则也朝着同一方向发展,监管机构要求模型行为和智能体行为都具有透明度。检索是能够创建这种透明度并充当AI事务日志的层,从而以其他方式无法实现的方式,使治理和合规成为可能。
这种模式是清晰的:从AI中获得最大价值的公司将是那些将检索视为关键基础设施的公司。他们将投资于结合结构化搜索、语义相似性、向量嵌入和图推理的混合系统,同时构建可观测、本地化并根据其领域调整的检索层。
开源为他们提供了实现这一目标的基础,避免了供应商锁定,并提供了随着检索技术不断演进而适应的灵活性。索引、缓存和查询规划所采用的严谨设计也将应用于检索系统。
构建未来
RAG的普及是一个必要的航向修正。模型需要基础、护栏和具有结构的记忆,这些都是检索所能提供的,同时使AI与现实世界保持一致。检索充当了雄心与可靠性之间的桥梁,将AI的承诺变为现实基础。
开源社区已经证明这种模式适用于数据库、操作系统和网络基础设施。现在,它正在证明对AI检索也同样适用。但许多在生产AI中取得成功的公司并没有使用最华丽的专有工具,而是建立在他们可以检查、扩展和信任的开源基础上。
