传统RAG系统往往是“图像盲”的。企业数据包含大量图像,多模态RAG结合混合搜索能打破数据孤岛,提高上下文准确性,增强用户体验,减少幻觉,从而释放数据资产的真正价值。
译自:Your RAG System is probably image-blind, but it doesn't have to be
作者:Tushar Madaan, Kiran Matty
在部署生成式AI的竞赛中,大多数企业已经掌握了“文本RAG”来与PDF和电子表格进行聊天。然而,企业数据很少只是文本。它是一个复杂的组合,包括带有图表的专业手册、带有损坏照片的保险索赔、带有X光的医疗记录以及带有高分辨率图像的产品目录。
为了释放这些资产的真正价值,企业必须超越纯文本RAG。下一个前沿是带有混合搜索的多模态RAG。
业务需求:为什么多模态RAG至关重要
传统的RAG系统通常是“图像盲”的。它们可以处理PDF中的文本,但会忽略第5页上关键的信息图。
以下是为什么转向多模态是一个业务需求的原因:
- 打破数据孤岛:大多数组织拥有大量的视觉数据存储库(手册、截图、产品目录),这些数据目前对LLM是不可见的。多模态RAG将这些数据呈现在眼前。
- 上下文准确性:在许多行业,如制造业和时尚业,图像比冗长的描述提供了更多的上下文。多模态RAG允许模型在生成答案之前“看到”上下文。
- 增强用户体验:它允许自然、直观的查询。用户可以上传产品照片并询问“我该如何修复它?”或“这个有库存吗?”这在物理世界和数字世界之间搭建了一座无缝的桥梁。
- 减少幻觉:通过将模型建立在视觉和文本证据的基础上,LLM捏造事实的可能性会大大降低。
企业用例:多模态RAG的实际应用
- 电子商务和零售:客户上传一张连衣裙的照片,并输入“找找丝绸材质且价格低于200美元的这款”。混合搜索将视觉嵌入(图像)与标量过滤器(材料和价格)结合起来。
- 制造和维护:现场工程师拍摄损坏设备的照片;RAG系统通过将图像与技术图表匹配,从手册中检索确切的故障排除步骤。
- 医疗保健:放射科医生使用RAG通过查询患者当前的MRI扫描和他们的文本病史来查找类似的 LMM 历史病例。
- 保险和法律:理赔员处理“扫描”文档,其中布局和视觉印章与文本本身一样重要。
高性能多模态RAG管道的属性
演示版和企业级应用程序之间的区别在于两个因素:统一向量空间和混合精度。
- 统一向量空间:一个常见的错误是维护两个独立的搜索索引,一个用于文本,另一个用于图像。高性能管道使用单个向量空间,其中“金毛猎犬”这个词和一张真实的金毛猎犬照片在语义搜索空间中彼此靠近。这实现了跨模态检索:用文本查询查找图像,或用图像查找文本。
- 混合搜索优势:如果你搜索“蓝色耐克鞋”,向量搜索可能会返回蓝色阿迪达斯鞋,因为它们在语义上相似。混合搜索通过将向量相似性与传统关键词或标量过滤相结合来解决这个问题。它允许系统说:“查找与此照片相似的图像(向量)并且品牌是‘Nike’的(标量)。”
多模态RAG管道的剖析
标准RAG管道检索文本;多模态管道跨格式检索含义。
以下是核心组件:

标准RAG与带混合搜索的多模态RAG(来源:Couchbase)
- 多模态嵌入模型(“统一空间”):文本和图像不是分别拥有一个向量空间,而是都被投射到一个单一的共享向量空间中。
- 混合向量数据库:这就是混合搜索的神奇之处。你需要一个能够处理向量搜索以查找“语义相似”项目(例如,看起来像查询中的属性或描述的图像)以及处理标量搜索以根据元数据查找精确匹配(例如,“必须有库存”、“价格 < 500美元”、“部件ID:123-A”)的数据库。为了促进混合搜索,RAG管道必须从外部存储中摄取多模态数据,通过元数据保留源血缘,并通过分块和向量化将数据转换为统一的向量索引。
- 多模态检索器:检索器从统一索引中获取相关的文本和图像块。它支持混合存储架构,检索内联缩略图或引用外部云存储来存储MRI扫描等重资产,所有这些都在一个连贯的响应中。
- 大型多模态模型(LMM):最后阶段使用LMM(例如GPT-4o或Claude 3.5 Sonnet),它摄取检索到的文本和图像以生成连贯的响应。
多模态RAG的理想数据库基础
构建这些管道需要一个操作型AI数据平台,它不仅存储数据,还协调数据。由于多种原因,它必须包括对企业多模态RAG的混合向量支持。
原生向量搜索能力通过提供针对不同企业需求量身定制的专用索引类型来优化多模态RAG。无论您是需要使用超大规模索引扩展到数十亿向量以实现低内存占用,通过复合索引执行高性能过滤搜索,还是通过搜索向量索引执行复杂的混合查询,该数据平台都能确保任何工作负载的精确高效检索。更重要的是,它在不同模态之间提供单一的向量搜索空间。
混合搜索支持允许您在单个查询中结合向量相似性、全文搜索、地理空间和类似SQL的过滤。这减少了延迟和架构复杂性。由于企业RAG需要低延迟和大规模检索,因此内存优先架构确保即使您的库增长到数百万张图像,您的检索仍然闪电般快速。最后,随处部署的能力使您能够将多模态能力带到任何云或隔离环境中,使现场工作人员即使没有互联网连接也能执行视觉RAG。
准备好构建了吗?
从纯文本到多模态的转变是今年AI生产力方面的最大飞跃。通过将多模态检索与Couchbase混合搜索的精度相结合,您不仅在构建聊天机器人;您还在构建一个能够看到并理解您整个业务的专家系统。要查看其运行情况,请查看我们的图像搜索应用程序。它演示了由Couchbase搜索索引提供支持的高性能图像嵌入索引如何实现输入图像最接近视觉匹配的快速检索。您可以轻松地分层添加混合搜索以提高检索精度。
Couchbase现在是唯一一个为AI提供三个灵活、高度可扩展的向量搜索选项的操作型数据平台,适用于自管理本地系统、Kubernetes和完全托管的Capella部署。Couchbase向量搜索通过内存优先架构和灵活的索引服务,以毫秒级速度大规模检索。查看此数据驱动的基准评估,以了解Couchbase和MongoDB™的向量搜索能力,看看Couchbase在十亿规模上如何快350倍。
Couchbase AI服务提供AI函数,通过在SQL++语句中调用LLM来自动化复杂的标注任务,例如胸部X光分类。同时,数据处理工作流处理大规模构建多模态索引的繁重工作。
Couchbase使组织能够以新的方式激活他们的数据。它现已普遍可用。探索新功能并了解团队如何利用它来构建下一代AI和代理系统。在此免费试用。