多模态检索增强生成基准测试:动态 VQA 数据集和自适应规划代理
介绍
多模态大型语言模型 (MLLM) 在理解和生成跨文本和图像的内容方面取得了令人印象深刻的能力。然而,与纯文本模型一样,MLLM 也存在幻觉问题——生成看似合理但实际上不正确的信息。检索增强生成 (RAG) 已经成为一种很有前途的解决方案,通过外部知识增强 MLLM,以提高事实准确性。

OmniSearch 代理框架
图 1:OmniSearch 代理框架概述,展示了规划代理如何协调多功能检索器和子问题求解器来回答复杂问题。
然而,现有的多模态 RAG (mRAG) 方法通常采用僵化、预定义的检索策略,无法适应问题不断变化的情境。本研究通过引入 Dyn-VQA(一种动态视觉问题解答数据集)和 OmniSearch(一种用于多模态检索的自适应规划代理)来解决这一限制。
多模态 RAG 的挑战
传统 mRAG 方法通常使用固定的检索管道,遵循预定的操作顺序,例如从图像中提取实体,然后使用这些实体执行网络搜索。虽然这些启发式方法在简单问题上表现良好,但它们在需要以下方面的更复杂场景中会遇到困难:
- 1. 处理快速变化的信息
- 2. 整合来自不同来源的多模态知识
- 3. 遵循无法预先确定的多跳推理路径

VQA 问题比较
图 2:先前 VQA 数据集中常见的两跳问题与 Dyn-VQA 中三种类型的动态问题之间的比较,显示了复杂性和检索挑战的增加。
如图 2 所示,传统的 VQA 数据集通常包含可以用简单的两步检索过程回答的直接问题。相比之下,动态问题需要更具适应性和更复杂的检索策略。
Dyn-VQA 数据集
为了解决现有基准的局限性,研究人员开发了 Dyn-VQA,这是一个包含 1,452 个由专业 AI 研究人员创建的动态问题的新数据集。该数据集侧重于三种关键类型的具有挑战性的问题:
- 1. 答案快速变化的问题: 这些问题针对随时间演变的信息,例如“Cillian Murphy 的最新电影是什么?”。随着新电影的上映,这个问题的答案会发生变化。
- 2. 需要多模态知识的问题: 这些问题需要整合来自图像和外部来源的信息,例如“他的团队的标志是什么物体?”,其中“他”指的是图像中的一个人。
- 3. 多跳问题: 这些问题需要一系列相互关联的检索和推理步骤,例如“他们中哪一个的总收入更高?”,指的是图像中的两个人,需要识别这些人,然后检索他们各自的票房收入。
Dyn-VQA 的开发遵循严格的多步骤标注流程,以确保质量:
- 1. 由专业研究人员编写文本问题
- 2. 多模态重写以融入视觉元素
- 3. 中英文翻译和验证
OmniSearch:一种自适应规划代理
为了有效应对动态问题带来的挑战,研究人员开发了 OmniSearch,一种用于多模态检索的自适应规划代理。OmniSearch 通过将复杂问题动态分解为具有适当检索操作的子问题链,来模拟人类解决问题的行为。

OmniSearch 架构
图 3:OmniSearch 的架构(左)以及它如何处理关于汽车定价的问题的示例(右)。代理规划模块在迭代过程中协调多模态检索器和子问题求解器。
OmniSearch 的主要组成部分包括:
- 1. 代理规划模块: 这一核心组件决定了问题是否已解决以及下一步要采取的操作。它可以生成:
- • 用于推理当前状态的自我思考
- • 用于分解主要问题的子问题
- • 用于收集信息的检索 API 调用
- • 用于构建搜索词的 API 查询
- 2. 多模态检索器: 这一组件执行各种检索操作:
- • 网络搜索
- • 文本到图像搜索
- • 图像到图像搜索
- • 无搜索(当已有足够信息时)
- 3. 子问题求解器: 这一组件使用检索到的内容回答子问题,根据问题的性质,采用语言模型 (LLM) 或多模态 LLM。
研究人员开发了两个版本的 OmniSearch:
- • OmniSearch (G):基于闭源 GPT-4V 模型
- • OmniSearch (Q):基于开源 Qwen-VL-Chat 模型,并在使用 GPT-4V 生成的检索 API 数据集上进行训练
实验结果
研究人员评估了 OmniSearch 与几种基线方法:
- 1. 没有 RAG 的基础 MLLM: Qwen-VL-Chat 和 GPT-4V
- 2. 启发式 mRAG 方法: 单跳和双跳检索策略
- 3. 估计上限: 使用手动简化的“黄金查询”
OmniSearch 在 Dyn-VQA 数据集上显著优于所有基线。GPT-4V 版本的准确率达到 50.08%,而 Qwen-VL-Chat 版本的准确率达到 40.65%。相比之下,最佳启发式 mRAG 方法仅实现了 33.18% 的准确率。

跨类别的性能
图 4:雷达图显示了 Dyn-VQA 数据集中不同模型在八个问题类别中的表现。OmniSearch (G) 和 (Q) 在所有类别中始终优于其他方法。
图 4 中的雷达图说明了 OmniSearch 如何在 Dyn-VQA 数据集中所有八个问题类别中始终优于其他方法。这证明了自适应规划方法的稳健性和适应性。
不同问题类型的性能
该研究揭示了不同方法如何处理各种类型的动态问题的有趣模式:
- 1. 快速变化的答案: OmniSearch 擅长于需要最新信息的问题,调整其检索策略以找到最新的数据。
- 2. 多模态知识集成: 通过有效结合来自图像和外部来源的信息,OmniSearch 在需要多模态推理的问题上表现出卓越的性能。
- 3. 多跳推理: OmniSearch 将复杂问题分解为可管理子问题的能力对于多跳推理任务尤为宝贵。

信息更新频率
图5:旭日图,展示了 Dyn-VQA 数据集中不同主题类别的信息更新频率。这突出了在数据快速变化的领域中维持准确信息的挑战。
研究人员还分析了不同知识领域的信息更新速率各不相同,如图5所示。这种可视化有助于解释为什么某些类别对检索系统提出了更大的挑战,其中体育和娱乐类别的快速变化信息比例最高。
规划有效性分析
OmniSearch 的主要优势之一是其规划能力。研究人员进行了重叠分析,以了解不同的模型如何生成检索计划:

规划重叠分析
图6:重叠百分比矩阵,显示了不同的规划方法如何共享通用元素。数字越高表示规划策略之间的相似性越大。
重叠分析表明,虽然不同的规划方法之间存在一定的连贯性,但模型处理复杂问题的方式也存在显著差异。这突出了自适应规划在处理动态问题中的重要性。
研究人员还提供了定性示例,展示了 OmniSearch 如何处理不同类型的问题:

示例案例
图7:示例案例,展示了 OmniSearch 对三个不同问题的推理过程。左侧示例显示了一个成功的案例,而中间和右侧示例显示了具有挑战性的案例,这些案例证明了当前方法的局限性。
这些例子说明了当前方法的优点和局限性。虽然 OmniSearch 成功处理了许多复杂问题,但它仍然在某些特别具有挑战性的案例中遇到困难,这些案例需要专门的领域知识或更复杂的推理。
意义和未来工作
该研究表明,自适应规划显著提高了 mRAG 系统在动态问题上的性能。主要意义包括:
- 1. 自适应检索的重要性: OmniSearch 的成功突出了 mRAG 系统需要根据问题上下文和中间发现动态调整其检索策略。
- 2. 问题分解的价值: 将复杂问题分解为可管理的子问题被证明是处理动态问题的有效策略。
- 3. 中间推理的作用: OmniSearch 根据检索到的内容进行推理并根据临时发现改进其方法的能力对于解决复杂问题至关重要。
- 4. 性能和成本之间的权衡: 虽然 OmniSearch 比启发式方法计算量更大,但它在性能和资源利用率之间提供了更好的平衡。

按类别划分的性能
图8:按类别和信息更新频率划分的详细性能细分,显示了不同类型的问题如何对 mRAG 系统提出不同的挑战。
未来的工作可以侧重于:
- 1. 提高规划效率以降低计算成本
- 2. 增强处理具有复杂术语的专门领域的能力
- 3. 为极具挑战性的问题开发更复杂的推理能力
- 4. 集成反馈机制以提高长期检索准确性
Dyn-VQA 和 OmniSearch 的引入代表了 mRAG 研究领域的一个重大进步,它既提供了一个具有挑战性的基准,也为解决当前系统的局限性提供了一种有希望的方法。通过实现更动态和自适应的知识检索,这项工作有助于开发更可靠和准确的多模态 AI 系统。