第12章 多模态RAG

13 阅读23分钟

12.1 多模态RAG的定义与价值

传统RAG系统主要面向纯文本检索与生成场景,然而现实世界的信息远不止文字——企业文档中充斥着图表、截图、扫描件,会议记录以音频形式存在,产品演示以视频呈现,业务数据则以表格和数据库存储。多模态RAG(Multimodal RAG)正是为解决这一信息鸿沟而诞生的技术范式,它能够同时处理文本、图像、音频、视频及结构化数据等多种模态信息,实现跨模态的语义理解与精准检索。

从技术定义来看,多模态RAG是指在检索增强生成流程中,支持两种及以上模态数据的索引构建、检索匹配与生成增强的系统架构。与单模态RAG不同,多模态RAG需要在模态对齐(Modality Alignment)层面完成关键突破——让系统理解"一张产品架构图"与"系统由三个微服务组成"之间的语义等价关系。2023年OpenAI发布GPT-4V标志着视觉语言模型(Vision-Language Model)进入实用阶段,随后CLIP、ColPali、ColQwen2等模型的快速迭代,为多模态RAG奠定了坚实的技术基础。

多模态RAG的核心价值体现在三个维度。第一,信息完整性——企业知识库中约有40%至60%的信息以非文本形式存在,包括设计图纸、财务报表、产品截图等,仅依赖文本检索将丢失大量关键知识。第二,检索精准度——多模态嵌入模型能够捕捉跨模态的语义关联,例如用户用文字描述"带红色边框的流程图",系统能直接检索到对应的图像文档。第三,用户体验——用户可以用自然语言提问,系统自动从多种模态的知识源中综合信息并生成包含文字、数据引用和图像描述的完整回答。

从产业发展角度看,2024至2026年间多模态RAG经历了从学术探索到企业落地的关键转折。Google的Gemini、Anthropic的Claude 3.5系列、Meta的Llama 3.2 Vision等模型相继支持原生多模态输入,使得RAG系统能够直接将检索到的图像和表格喂入大模型进行推理。与此同时,ColPali(2024)和ColQwen2(2025)等文档级视觉检索模型的出现,彻底改变了文档理解与检索的技术路径,使"以图搜图"和"以文搜图"在统一框架下成为可能。

graph TB
    A[用户查询] --> B[查询理解与模态识别]
    B --> C{查询模态类型}
    C -->|文本查询| D[文本嵌入编码]
    C -->|图像查询| E[视觉特征提取]
    C -->|混合查询| F[多模态融合编码]
    D --> G[跨模态检索引擎]
    E --> G
    F --> G
    G --> H[多模态知识库]
    H --> I[文本索引]
    H --> J[图像索引]
    H --> K[音频索引]
    H --> L[表格索引]
    G --> M[检索结果排序与融合]
    M --> N[多模态上下文构建]
    N --> O[大语言模型生成]
    O --> P[多模态回答输出]

上图展示了一个典型的多模态RAG系统架构。系统首先对用户查询进行模态识别与编码,随后通过跨模态检索引擎在多模态知识库中完成检索,最终将多模态上下文送入大语言模型生成回答。整个流程的核心挑战在于如何在不同模态之间建立统一的语义表示空间,以及如何在检索阶段实现高效的跨模态匹配。

12.2 图像检索与理解

图像检索是多模态RAG中最基础也最成熟的子领域。根据检索方式的不同,图像检索可分为文本到图像检索(Text-to-Image Retrieval)和图像到图像检索(Image-to-Image Retrieval)两大类。前者允许用户用自然语言描述来查找相关图像,后者则基于图像的视觉相似性进行匹配。在企业RAG场景中,文本到图像检索更为常见——用户通常以文字形式提出问题,系统需要从知识库中检索出相关的图表、截图或设计稿。

图像检索的技术路线经历了从传统方法到深度学习再到多模态大模型的演进。早期方法依赖手工特征提取(Hand-crafted Feature Extraction),如SIFT、SURF和HOG等局部特征描述子,结合TF-IDF或BM25进行匹配,这种方法对图像的语义理解能力极为有限。深度学习时代,CNN特征提取器(如ResNet、EfficientNet)配合度量学习(如Triplet Loss)显著提升了检索效果,但仍然停留在"以图搜图"的范式内。直到CLIP(Contrastive Language-Image Pre-training)模型的提出,才真正打通了文本与图像之间的语义鸿沟。

CLIP由Radford等人在2021年发表于论文《Learning Transferable Visual Models From Natural Language Supervision》,其核心思想是通过对比学习在数亿级别的图文对上训练,将文本和图像映射到同一嵌入空间。在CLIP的框架下,语义相近的文本和图像在嵌入空间中的距离自动拉近,这使得"红色汽车"的文本嵌入与红色汽车图片的视觉嵌入高度接近。CLIP的成功催生了大量后续工作,包括OpenCLIP、EVA-CLIP、SigLIP等开源实现,以及Chinese-CLIP等中文适配版本,为企业级图像检索提供了丰富的模型选择。

检索方法核心原理优势局限典型模型
手工特征匹配SIFT/SURF/HOG特征提取与匹配计算开销低,无需训练语义理解能力弱,泛化差VLAD、BoVW
CNN度量学习深度特征提取+度量学习视觉特征表达能力强无法实现跨模态检索ResNet+Triplet Loss
对比图文预训练图文对比学习,统一嵌入空间跨模态检索,零样本能力强对细粒度文档理解不足CLIP、OpenCLIP、SigLIP
文档级视觉检索端到端文档图像嵌入与检索保留文档布局信息,检索精度高计算开销较大,需GPU支持ColPali、ColQwen2、ColIdefics2

2024年,文档级视觉检索模型的出现为图像检索带来了范式级变革。Faysse等人在论文《ColPali: Efficient Document Retrieval with Vision Language Models》中提出了ColPali,该模型直接将文档页面图像作为输入,通过视觉语言模型生成晚期交互嵌入(Late Interaction Embedding),无需OCR识别和文本提取即可完成文档检索。这一方法在多个文档检索基准上超越了传统的文本检索方法,尤其擅长处理包含复杂布局、图表和公式的文档页面。2025年,ColQwen2进一步提升了文档视觉检索的性能,采用Qwen2-VL作为视觉编码器,在多语言文档检索任务上取得了领先效果。

在实际部署中,图像检索系统的架构需要考虑索引构建效率和检索延迟两个关键指标。对于百万级图像库,通常采用近似最近邻搜索(Approximate Nearest Neighbor Search)算法如HNSW或IVF-PQ来加速检索。图像嵌入的维度通常为512至1024维,单次嵌入计算在GPU上约需10至50毫秒,而ANN检索的延迟可控制在毫秒级别。企业还需要建立图像预处理流水线,包括尺寸归一化、质量过滤和去重等步骤,以确保索引质量。

12.3 音频与视频内容的处理

音频与视频是企业知识体系中不可或缺的组成部分。会议录音、客服对话、产品演示视频、培训录像等非结构化多媒体内容蕴含着大量有价值的信息,但传统RAG系统无法直接处理这些模态。多模态RAG通过引入自动语音识别(Automatic Speech Recognition)和视频理解(Video Understanding)技术,将音频和视频内容转化为可检索、可推理的知识单元。

音频内容处理的核心环节是语音转文字。当前主流的ASR系统已经达到了极高的准确率,OpenAI的Whisper系列、Google的Chirp、Meta的SeamlessM4T以及国内的阿里Paraformer、讯飞星火语音等模型均能支持多种语言的实时和离线转写。在RAG场景中,音频处理流水线通常包括三个阶段:首先通过ASR将音频转写为文本,然后对转写文本进行说话人分离(Speaker Diarization)和时间戳对齐,最后将结构化的转写结果切分为语义段落并建立索引。说话人分离技术(如pyannote.audio)能够识别"谁在什么时间说了什么",这对于会议纪要检索和客服对话分析尤为重要。

音频内容还有一些独特的检索需求。例如,用户可能希望检索"包含产品缺陷讨论的会议片段"或"客户情绪激动的通话记录"。这要求系统不仅对转写文本建立索引,还要提取音频的声学特征(Acoustic Features)如语调、语速、情感等作为辅助检索维度。2024至2025年间,基于音频大模型的情感分析和意图识别技术取得了显著进展,Google的AudioPaLM和Meta的AudioCraft等模型能够在语音层面直接进行语义理解,为音频RAG提供了更丰富的检索信号。

视频内容的处理则更为复杂,因为视频同时包含视觉、音频和文本三个模态的信息。视频RAG的处理流程通常包括以下步骤:视频分段(按场景或固定时长切分)、关键帧提取、帧级视觉嵌入、音频转写、以及多模态特征融合。关键帧提取(Key Frame Extraction)是视频索引的关键环节,常用的方法包括基于场景切换检测的算法和基于视觉内容变化率的采样策略。提取的关键帧通过CLIP等视觉语言模型编码为嵌入向量,与文本索引一起构建统一的检索空间。

视频理解的最新进展来自视频语言模型(Video-Language Model)的发展。Google的VideoLLaMA、Meta的Video-LLaVA以及阿里的VideoLLM等模型能够直接理解视频内容并回答关于视频的复杂问题。在RAG场景中,这些模型可以用于两个环节:一是在索引阶段,对视频片段生成详细的语义描述,作为检索的文本锚点;二是在生成阶段,对检索到的视频片段进行深度理解并辅助回答用户问题。2025至2026年,随着长视频理解能力的提升(如Gemini 2.0支持数小时视频输入),视频RAG在安防监控分析、生产流程审计、远程培训等企业场景中展现出巨大潜力。

值得注意的是,音频和视频处理的计算开销远高于文本处理。一段1小时的视频在转写、关键帧提取和嵌入编码三个环节可能需要数分钟的GPU计算时间。因此,企业级视频RAG系统通常采用离线索引+在线检索的架构模式——在数据入库时完成所有重量级的处理和索引构建,在线检索时仅需进行向量相似度匹配,确保端到端检索延迟控制在可接受范围内。

12.4 表格与结构化数据的RAG

表格数据是企业知识库中一类特殊但极为重要的信息载体。财务报表、销售数据、库存清单、技术参数表等结构化数据通常以行列形式组织,蕴含着精确的数值关系和分类信息。传统RAG系统在处理表格时面临严重挑战:将表格直接序列化为文本会丢失行列结构和数值关系,而将表格存储在关系数据库中又难以与文本检索统一。表格RAG(Table RAG)致力于在保留表格结构语义的前提下,实现精准的表格内容检索与推理。

表格检索的核心难点在于结构化语义的保留与理解。一张财务报表中的"2024年Q3营收同比增长23%"这一信息,其语义依赖于单元格位置、表头层级和数值计算的上下文关系。如果简单地将表格转换为CSV文本或Markdown格式,这些结构信息将部分丢失。针对这一问题,学术界和工业界提出了多种解决方案。第一种方案是表格语义增强序列化(Semantic Table Serialization),即在将表格转为文本时,通过精心设计的模板保留行列关系,例如为每个单元格添加其所属的行头和列头信息。第二种方案是表格专用嵌入模型(Table-specific Embedding Model),如TURL、TATR和TableBERT等,这些模型在表格数据上预训练,能够理解表格的结构语义。

2024至2025年,基于大语言模型的表格理解技术取得了突破性进展。表格问答(Table Question Answering)任务中,GPT-4、Claude 3.5等模型已经能够直接理解表格数据并回答复杂的聚合、比较和趋势分析问题。在RAG流程中,这意味着系统可以将检索到的表格以结构化格式(如HTML表格或JSON)直接输入大模型,而非将其降维为纯文本。这种"结构保留"的检索与生成方式显著提升了表格相关查询的准确率。

企业级表格RAG还需要解决数据新鲜度(Data Freshness)和权限控制(Access Control)两个实际问题。与静态文档不同,表格数据(尤其是数据库中的业务数据)会频繁更新,RAG系统需要建立增量索引更新机制,确保检索结果的时效性。同时,表格数据通常涉及敏感的业务指标和财务信息,系统需要在索引构建和检索阶段实现行列级别的权限控制,确保用户只能检索到其权限范围内的数据。2025年,部分企业级RAG平台(如Databricks AI/BI、Snowflake Cortex)已经实现了与数据仓库的深度集成,支持基于SQL的语义检索和基于角色权限的数据访问控制。

在实际部署中,表格RAG通常与文本到SQL(Text-to-SQL)技术结合使用。当用户提出涉及数值计算或聚合分析的问题时,系统可以同时执行两条路径:一条通过向量检索找到相关的表格文档,另一条通过Text-to-SQL直接查询数据库获取最新数据。两条路径的结果在生成阶段进行融合,既保证了数据的时效性,又保留了历史文档中的上下文信息。这种混合架构在财务分析、运营报表和商业智能场景中表现优异。

12.5 多模态RAG的架构设计

多模态RAG的架构设计需要在模态覆盖度(Modality Coverage)、检索性能(Retrieval Performance)和系统复杂度(System Complexity)之间取得平衡。根据企业的实际需求和数据特征,多模态RAG架构可以分为集中式、联邦式和管道式三种主要模式,每种模式各有其适用场景和工程权衡。

集中式架构是当前最主流的设计方案。其核心思想是将所有模态的数据统一映射到同一嵌入空间,使用单一的向量索引和检索引擎完成跨模态检索。CLIP及其后续模型为集中式架构提供了技术基础——文本、图像、甚至文档页面截图都可以通过同一模型编码为向量,在统一的ANN索引中完成检索。集中式架构的优势在于架构简洁、检索路径短、运维成本低,但其局限在于对音频、视频等非视觉模态的支持需要额外的编码器,且不同模态间的语义对齐质量依赖于预训练数据的覆盖范围。

联邦式架构则采用"模态专用索引+统一查询路由"的设计思路。每种模态维护独立的索引和检索通道——文本使用稠密向量索引,图像使用视觉嵌入索引,音频使用声学特征索引,表格使用结构化查询引擎。当用户发起查询时,查询路由器(Query Router)负责将查询分发到相关的模态通道,各通道独立完成检索后,通过结果融合(Result Fusion)模块对多路检索结果进行重排序和去重。联邦式架构的优势在于每种模态都可以使用最优的检索方案,且系统的可扩展性强——新增模态只需添加新的检索通道,不影响现有系统。

管道式架构面向复杂的文档处理场景,将多模态RAG分解为多个串行或并行的处理阶段。典型的管道包括:文档解析(将PDF、Office文档等解析为文本、图像、表格等结构化元素)、元素分类与标注、模态编码与索引构建、多阶段检索(如先粗排后精排)、上下文组装与大模型生成。管道式架构的灵活性最高,每个阶段都可以独立优化和替换,但相应的系统复杂度和维护成本也最高。2025至2026年,随着LlamaParse、Unstructured.io、DocETL等文档解析工具的成熟,管道式架构的工程实现门槛显著降低。

graph LR
    A[多模态输入] --> B[文档解析引擎]
    B --> C[文本块]
    B --> D[图像块]
    B --> E[表格块]
    B --> F[音频/视频片段]
    C --> G[文本嵌入模型]
    D --> H[视觉嵌入模型]
    E --> I[表格编码模型]
    F --> J[多模态编码器]
    G --> K[统一向量索引]
    H --> K
    I --> K
    J --> K
    K --> L[混合检索]
    L --> M[交叉编码重排序]
    M --> N[上下文组装]
    N --> O[多模态大模型生成]
    O --> P[结构化回答]

上图展示了多模态RAG的标准处理流程。从多模态输入开始,经过文档解析将原始内容分解为不同模态的元素,各元素通过专用编码器生成嵌入向量并存入统一索引,检索阶段通过混合检索和重排序获取最相关的多模态内容,最终由多模态大模型生成综合回答。

在工程实践中,多模态RAG的架构选型需要考虑以下因素:数据模态的种类和比例、检索延迟要求、GPU资源预算、以及团队的工程能力。对于以文本文档为主、辅以少量图像的中小规模场景,集中式架构是最佳选择。对于拥有大量音频、视频和异构数据源的大型企业,联邦式或管道式架构更为合适。无论选择哪种架构,可观测性(Observability)都是必不可少的——系统需要记录每次检索的模态来源、相关性得分和生成质量,以便持续优化检索策略和模型配置。

12.6 多模态嵌入模型与跨模态检索

多模态嵌入模型(Multimodal Embedding Model)是多模态RAG的核心基础设施,其质量直接决定了跨模态检索的效果。多模态嵌入模型的目标是将不同模态的数据映射到统一的语义空间,使得语义相关的内容——无论其模态类型——在嵌入空间中彼此接近。近年来,这一领域经历了快速的技术迭代,从CLIP开创的对比学习范式,到ColPali引领的文档视觉检索范式,再到2025至2026年涌现的多粒度、多语言、端到端检索模型。

CLIP(Contrastive Language-Image Pre-training)由OpenAI于2021年提出,是多模态嵌入模型的里程碑式工作。CLIP使用双塔架构——文本编码器(基于Transformer)和图像编码器(基于ViT或ResNet)——在4亿组图文对上通过InfoNCE对比损失(InfoNCE Contrastive Loss)进行训练。训练完成后,CLIP能够将任意文本和图像编码为固定维度的向量,并通过余弦相似度进行跨模态匹配。CLIP的卓越之处在于其强大的零样本迁移(Zero-shot Transfer)能力——在未见过下游任务数据的情况下,CLIP在ImageNet分类任务上达到了与有监督方法相当的性能。后续的OpenCLIP、EVA-CLIP和SigLIP等开源实现在保持CLIP核心架构的同时,通过更大的训练数据和改进的训练策略进一步提升了性能。

2024年,Faysse等人提出的ColPali为文档检索带来了全新范式。ColPali的核心创新在于放弃了传统的"OCR提取文本再检索"的流水线,转而直接对文档页面图像进行端到端的嵌入与检索。具体而言,ColPali使用基于PaliGemma的视觉语言模型,将文档页面图像编码为一组多向量嵌入(Multi-vector Embedding),检索时通过MaxSim(最大相似度)操作计算查询与文档的匹配分数。这种方法天然保留了文档的视觉布局信息——表格的结构、图表的位置、公式的排版等——无需依赖OCR的质量。ColPali在多个文档检索基准(如ColBERTv2基准、ViDoRe)上大幅超越了传统的BM25和稠密检索方法。

2025年,ColQwen2将文档视觉检索推向了新的高度。ColQwen2基于Qwen2-VL视觉语言模型构建,在文档理解、多语言支持和检索性能三个维度上全面超越了ColPali。Qwen2-VL采用了动态分辨率机制,能够处理任意宽高比的文档图像,这对于扫描文档和幻灯片等非标准尺寸内容尤为重要。ColQwen2在ViDoRe基准上取得了领先成绩,并支持中文、英文等多种语言的文档检索。与ColQwen2同期,ColIdefics2(基于Idefics2)和Nomic-Embed-Vision等模型也从不同技术路线推进了多模态嵌入能力的发展。

模型名称发布年份视觉编码器嵌入方式多语言支持文档检索能力主要特点
CLIP2021ViT/ResNet单向量有限一般开创对比图文预训练范式
OpenCLIP2022-2024ViT-Huge/Large单向量有限一般开源复现,模型规模可扩展
SigLIP2023ViT单向量有限一般Sigmoid损失替代softmax,训练更稳定
ColPali2024PaliGemma-3B多向量(MaxSim)有限优秀端到端文档视觉检索,无需OCR
ColQwen22025Qwen2-VL多向量(MaxSim)中英等多语言卓越动态分辨率,多语言文档检索领先
ColIdefics22025Idefics2多向量(MaxSim)多语言优秀基于Idefics2,开源友好
Nomic-Embed-Vision2024ViT单向量有限良好5G图文对训练,高性价比

跨模态检索的实现涉及多个工程细节。首先是查询编码策略——用户的查询通常是纯文本的,需要通过文本编码器映射到与视觉嵌入对齐的空间。在ColPali/ColQwen2的框架下,查询同样被编码为多向量嵌入,通过MaxSim与文档嵌入进行匹配。其次是索引构建——多向量嵌入的索引规模远大于单向量嵌入(一个文档页面可能产生数百至上千个token级嵌入),需要采用专门的索引结构如ColBERT的压缩技术来控制索引大小。最后是检索效率——多向量检索的计算开销显著高于单向量检索,在实际系统中通常采用两阶段检索策略:第一阶段使用单向量嵌入进行粗排(如CLIP嵌入),第二阶段使用多向量嵌入对候选集进行精排(如ColQwen2)。

以下是使用ColQwen2进行文档视觉检索的Python代码示例。

from colqwen2 import ColQwen2, ColQwen2Processor
import torch

model = ColQwen2.from_pretrained("vidore/colqwen2-v1.0")
processor = ColQwen2Processor.from_pretrained("vidore/colqwen2-v1.0")
queries = ["企业年度营收增长趋势"]
images = [load_image("report_page_1.png"), load_image("report_page_2.png")]
query_inputs = processor.process_queries(queries).to(model.device)
doc_inputs = processor.process_images(images).to(model.device)
query_embeddings = model(**query_inputs)
doc_embeddings = model(**doc_inputs)
scores = processor.score_multi_vector(query_embeddings, doc_embeddings)
print(f"Page 1 score: {scores[0][0]:.4f}, Page 2 score: {scores[0][1]:.4f}")

上述代码展示了ColQwen2的核心使用流程:加载模型和处理器后,分别对文本查询和文档页面图像进行编码,然后通过多向量相似度计算得到检索分数。整个过程无需OCR预处理,直接在原始文档图像上完成检索。

展望2026年及以后,多模态嵌入模型的发展趋势集中在三个方向。第一是统一多模态嵌入(Unified Multimodal Embedding),即在单一模型中同时支持文本、图像、音频、视频和表格的编码,实现真正的全模态统一检索。第二是高效长文档检索(Efficient Long Document Retrieval),通过层级化嵌入和稀疏-稠密混合检索等技术,在保持检索精度的同时降低计算开销。第三是领域自适应(Domain Adaptation),通过微调和适配技术,使通用多模态嵌入模型在医疗、法律、金融等垂直领域达到更高的检索精度。这些方向的持续突破将进一步降低多模态RAG的落地门槛,推动其在更多企业场景中的广泛应用。

延伸阅读

  1. Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision[C]. ICML, 2021. (CLIP原始论文,多模态嵌入模型的奠基性工作)
  2. Faysse M, Sibille H, Wu T, et al. ColPali: Efficient Document Retrieval with Vision Language Models[J]. arXiv preprint arXiv:2407.01449, 2024. (ColPali论文,提出端到端文档视觉检索范式)
  3. Manica M, Faysse M, Sibille H, et al. ColQwen2: Scaling Document AI with Vision-Language Models[J]. arXiv preprint arXiv:2504.06360, 2025. (ColQwen2论文,基于Qwen2-VL的文档视觉检索模型)
  4. Zhu D, Chen J, Shen X, et al. MiniCPM-V: A GPT-4V Level Multimodal Language Model on Your Phone[J]. arXiv preprint arXiv:2404.10515, 2024. (MiniCPM-V论文,端侧多模态语言模型)
  5. Li J, Li D, Savarese S, et al. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models[C]. ICML, 2023. (BLIP-2论文,冻结视觉编码器的多模态预训练方法)
  6. Liu H, Li C, Wu Q, et al. Visual Instruction Tuning[C]. NeurIPS, 2023. (LLaVA论文,视觉指令微调的开创性工作)
  7. Wang W, Chen Z, Chen X, et al. VisionLLM: Large Language Model is Also an Open-Ended Decoder for Vision-Centric Tasks[C]. NeurIPS, 2023. (VisionLLM论文,将视觉任务统一为语言生成任务)
  8. Lin B, Ye Z, Wang Z, et al. TableLlama: Towards Open-Domain Structured Row-to-Text Generation and Comprehension[J]. arXiv preprint arXiv:2310.10036, 2023. (TableLlama论文,表格理解与生成模型)
  9. Zhai X, Mustafa B, Kolesnikov A, et al. Sigmoid Loss for Language Image Pre-Training[C]. ICCV, 2023. (SigLIP论文,改进的图文对比学习损失函数)
  10. Team G. Gemini: A Family of Highly Capable Multimodal Models[J]. arXiv preprint arXiv:2312.11805, 2023. (Gemini论文,Google的多模态大模型)