《Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval》
📖 摘要
这篇论文提出了一个面向通用多模态检索(Universal Multimodal Retrieval)的推理式框架 Retrv-R1。它不是把检索当成一次草率的“选项匹配”,而是把它改造成一个真正的逐步判断过程:先压缩候选信息,再在必要时展开细查,最后通过强化学习(Reinforcement Learning, RL)把这种判断能力打磨得更稳、更准、更省。结果上,Retrv-R1 在 M-BEIR 等基准上取得了当前最优(State-of-the-Art, SOTA)表现,同时显著改善了推理成本与泛化能力。
一、论文基本信息
- 论文标题:Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval
- 作者:Lanyun Zhu、Deyi Ji、Tianrun Chen、Haiyang Wu、Shiqi Wang;来自香港城市大学(City University of Hong Kong)、腾讯(Tencent)、浙江大学(Zhejiang University)。
- 出处:NeurIPS 2025。
- DOI/链接:arXiv:2510.02745v2。
二、研究背景与动机
-
问题背景:今天的检索系统,早已不再局限于“文本找文本”。现实场景里的查询(query)可以是文本、图像、图文混合,候选项(candidate)也同样如此。所谓通用多模态检索(Universal Multimodal Retrieval),说到底,就是要求一个统一模型去处理各种输入形式与目标形式,并且在复杂场景下仍然判断准确、计算可控。
-
现有方法的不足:已有路线大体分成两类。一类依赖嵌入(embedding)与相似度计算,这类方法高效,但在细粒度差异、复杂语义关系或跨模态对齐上,往往显得粗糙。另一类则把检索改写成问答(Question Answering, QA)任务,让多模态大模型(Multimodal Large Language Model, MLLM)直接输出结果。它们比纯嵌入方法更强,但一个共同问题是:模型通常“直接答”,却并不“显式想”。一旦遇到复杂候选集,模型既容易武断,也容易幻觉(hallucination)。
-
本文动机:作者真正想解决的,不只是“让 MLLM 做检索”,而是“让 MLLM 以推理的方式做检索”。然而,直接把 DeepSeek-R1 一类强化学习推理范式照搬到检索上,会立刻遇到两大障碍:其一,候选过多,完整输入每个候选会造成巨大 token 开销;其二,检索奖励稀疏而脆弱,直接做 RL 容易训练不稳。Retrv-R1 的出发点,正是为了解决这两个现实问题。
三、核心方法与创新点
3.1 核心思想
Retrv-R1 的基本思路可以概括为一句话:让模型把“注意力”花在真正值得看的地方。 它首先用一个两阶段(two-stage)的检索结构,把大规模候选压缩到一个可管理的集合;然后在精排阶段,不是平铺直叙地比较所有候选,而是让模型以推理方式逐步筛查、复核与判断。这样一来,模型既能处理困难样本,又不会在所有候选上平均浪费昂贵上下文。
3.2 整体框架
论文的方法结构,最好结合下面这张总图来看。它把系统清楚地拆成三部分:左上是整体推理流水线,中下是信息压缩模块(Information Compression Module, ICM),右侧是三阶段训练流程。也就是说,这篇文章不是只提出一个“训练技巧”,而是同时重写了输入表示、推理流程与训练机制。
图1:Retrv-R1 的总体设计。图中展示了整体推理流程、信息压缩模块(ICM)的内部结构,以及从 ICM 预训练、合成 CoT 监督微调(Supervised Fine-Tuning, SFT)到强化学习优化的三阶段训练过程。
3.3 创新点拆解
-
创新点一:信息压缩模块(Information Compression Module, ICM)
这可以说是全文最有分量的结构创新。作者没有让每个候选都以完整 token 序列进入大模型,而是为每个候选构造两个压缩表示:一个内容 token(content token),保留候选本身的关键信息;一个关系 token(relationship token),保留候选与查询之间的匹配线索。这样一来,模型在大多数时候不必阅读“全文”,只需阅读“高度概括后的摘要”。 -
创新点二:细节检查机制(Details Inspection Mechanism, DIM)
压缩信息当然会有损失,所以作者又设计了一个非常聪明的补救机制:当模型在推理中发现某个候选难以判断时,它可以主动触发细节检查,把该候选的完整 token 重新拉回上下文中。于是系统形成了一种很自然的工作方式:平时看摘要,遇到难例再翻原文。 -
创新点三:先激活、后增强的训练范式
作者没有一上来就做 RL,而是先构造检索专用的合成推理数据,进行一次 SFT,让模型先学会“该怎么想”;随后再用 RL 去增强它的判断力、鲁棒性与效率。这个顺序很重要,因为真正有效的强化学习,往往建立在一个已经会“基本思考”的模型之上。 -
创新点四:课程式效率约束(Curriculum Efficiency Constraint)
如果只奖励答对,模型会倾向于把所有候选都展开细看,虽然正确,却极其昂贵。作者因此把“检查次数”也纳入奖励,并采用课程学习(curriculum learning)式的方式逐步增强这一约束:先让模型学会做对,再要求它做快。这个设计相当成熟。
3.4 技术细节
- 检索目标:
在两阶段结构中,模型最终要从召回后的候选集合中选出最优项,可写为:
其中, 表示查询(query), 表示候选集合, 是带推理能力的精排模型。这个式子看似简单,真正重要的地方却在于:作者并不把 视为一个普通匹配函数,而是把它实现为一个能够逐步分析候选、必要时回看细节、最终再做判断的推理模块。
- ICM 的内容压缩:
对每个候选 ,模型先从原始 token 序列 中抽取一个内容 token(content token),写作:
这一步的含义可以理解为:用一个可学习的查询向量,从候选自身的表示中提炼出“最值得保留”的核心内容。换句话说,模型并不是把整个候选原封不动地搬进推理上下文,而是先做一次高度压缩,让后续推理有机会在有限预算里处理更多候选。
- ICM 的关系压缩:
仅仅知道“候选本身是什么”还不够,因为检索问题从来不是孤立理解候选,而是理解“候选与查询之间是否匹配”。因此,作者进一步构造了关系 token(relationship token):
这里, 先显式建模候选 与查询 的交互结果;随后,再通过一次注意力聚合,把这种交互压缩成一个专门用于匹配判断的关系 token。于是,模型不仅保留了“候选内容”的摘要,也保留了“候选与查询关系”的摘要。这个设计很关键,因为检索的本质并不只是表征,而是比较。
- 自对齐预训练(Self-Alignment):
为了让压缩后的 token 尽可能保留原始 token 的表达能力,作者在正式训练前先做了一步自对齐预训练(Self-Alignment)。在这一步中,语言模型(Language Model, LM)被冻结,训练目标是让压缩表示在 LM 空间中逼近原始输入的效果。对应损失写作:
这个目标的直觉并不复杂:作者希望内容 token 在语义上尽量像原始候选,关系 token 在语义上尽量像“候选与查询联合输入”后的表达结果。这样做的好处是,ICM 不会变成一个纯粹依赖下游任务偶然学出来的压缩器,而是先具备一个比较扎实的表征基础。
-
细节检查机制(Details Inspection Mechanism, DIM):
压缩带来效率,但也不可避免地损失信息。因此,作者没有把压缩表示当作最终答案,而是允许模型在推理过程中动态触发细节检查(inspection)。具体来说,大多数候选只以压缩 token 形式参与推理;只有当模型发现某个候选难以判断时,才会把它的完整 token 序列重新拉回上下文中做精查。 这一步虽然没有一个复杂公式,却恰恰体现了 Retrv-R1 最成熟的设计思想:不是让所有候选平均消耗计算资源,而是让模型自己决定,哪些候选只值得“略读”,哪些候选必须“精读”。从系统角度看,这比一视同仁地处理所有候选合理得多。 -
强化学习目标与奖励设计:
在监督微调(Supervised Fine-Tuning, SFT)之后,作者进一步采用组相对策略优化(Group Relative Policy Optimization, GRPO)做强化学习训练。这里优化的,不只是最终答案是否正确,更是整个推理过程是否有效、是否节制。论文中一个很关键的奖励项写作:
其中, 表示模型预测的候选, 表示真实正确答案, 表示推理过程中触发细节检查的次数, 表示候选总数, 是效率惩罚系数。这个奖励的含义非常清楚:模型只有在答对时才有奖励,但即便答对了,如果检查了太多候选、消耗了太多额外计算,奖励也会被削弱。 这实际上是在鼓励模型形成一种更高级的行为模式:它不能只是“靠多看来做对”,而必须学会“用尽量少的细看来做对”。也正因为如此,Retrv-R1 追求的并不是单纯意义上的高准确率,而是一种精度与效率兼顾的推理式检索能力。
- 课程式效率约束(Curriculum Efficiency Constraint):
如果一开始就对细节检查施加很强惩罚,模型可能还没学会如何正确判断,就先被迫“节省”,结果反而既不准也不稳。作者因此采用了课程学习(curriculum learning)式的约束策略:训练早期,先允许模型多做检查、优先学会正确推理;训练后期,再逐步增强效率惩罚,让模型学会在保持正确的同时减少不必要的细查。 这一点非常重要,因为它说明作者并没有把效率问题粗暴地硬塞给模型,而是按照能力形成的自然顺序来设计优化路径:先学会做对,再学会做快,最后学会只在真正困难的地方花计算。这种训练思想,本身就很有启发性。
四、实验与结果分析
4.1 数据集
-
主基准:作者主要在 M-BEIR 上验证方法,这是一个覆盖多种查询形式与候选形式的通用多模态检索基准。它能够较全面地测试模型是否真的具备“通用”能力。
-
扩展测试:除了主基准,论文还评估了未见数据集、保留任务,以及多模态序列推荐(multimodal sequential recommendation)场景,用来考察模型的泛化能力。这个实验设计是有说服力的,因为一个真正有价值的框架,不应只会“做题”,还应能跨任务迁移。
4.2 基线模型
- 零样本通用模型(zero-shot general-purpose models):如 CLIP、SigLIP、BLIP、BLIP-2、Qwen2.5-VL。
- R1 风格多模态推理模型:如 Vision-R1、VLM-R1。
- 检索专用 MLLM:如 MM-Embed、LamRA。
4.3 主要结论
-
定量结果:Retrv-R1 在 M-BEIR 上取得了当前最优表现,且 3B 版本已经在多数设定下超过更大的专用模型。更重要的是,模型不仅更准,而且更高效:在候选数增加时,时间与显存开销仍显著受控。
-
泛化结果:在未见数据集、未见任务以及推荐任务上,Retrv-R1 仍然保持竞争力甚至优势。这说明它提出的不是一个只对单一榜单有效的技巧,而是一种更普遍的检索型推理框架。
4.4 强化学习到底学到了什么
论文没有停留在“结果更好”这一层,而是进一步分析了 RL 阶段到底改变了模型什么行为。下面这张图非常关键,因为它揭示了两个变化:第一,模型在训练初期会更多依赖细节检查,随后逐渐学会节制;第二,模型的推理过程会慢慢摆脱固定模板,发展出更灵活的推理结构。
图2:强化学习微调(RL Fine-tuning)的分析结果。左图显示训练过程中细节检查次数先升后降;右图显示模型生成的推理格式逐渐偏离固定四步模板,说明模型在后期学会了更灵活、更自然的推理策略。
这张图背后的意义其实很深。左图说明课程式奖励是有效的:模型先追求正确,再追求省算力;右图则说明 RL 并没有把模型训练成一个只会复述模板的机械体,而是促使它发展出更成熟的判断行为。作者还指出,后期模型甚至出现了两种很像“老练研究者”的能力:一种是自我反思(self-reflection),会重新审视先前可能误判的候选;另一种是承认当前候选集中根本没有正确答案,并建议扩大召回范围。
五、定性分析:
5.1 合成 CoT 数据到底教了模型什么
如果说 Retrv-R1 的 RL 阶段是在“打磨推理”,那么它的 SFT 阶段就在“点燃推理”。作者使用更强模型自动合成一批检索专用的 CoT(Chain-of-Thought)样本,让目标模型先学会一套相对稳定的思考顺序:先描述理想结果,再排除明显负样本,再指定需要展开检查的难例,最后完成细粒度判断。下面这张图,就是这种合成数据的直观例子。
图3:用于 SFT 的合成检索 CoT 数据示例。模型不是只看到答案,而是看到一条完整的检索推理链:如何先界定理想匹配,再排除错误候选,再对少数难例调用细节检查,最后得出结论。
这一点很重要,因为它说明作者不是单纯在做“答案监督”,而是在做“过程监督”。换句话说,模型学到的不是“这个题的答案是 3”,而是“面对类似问题时,应该怎样一步一步排查”。这也为后续 RL 阶段提供了可被强化的推理骨架。
5.2 模型学会了回头看
好的检索系统,未必一眼就看对,但它至少应该知道什么时候需要重新判断。下面这个案例体现的,正是模型的这种“回看能力”。它不是一条直线地排除候选,而是在推理过程中保留修正余地,这种行为很像一个谨慎的专家,而不是一个急着交卷的学生。
图4:检索定性案例。该例展示了模型在复杂候选之间进行逐步排查,并在必要时重新审视先前判断的能力,体现出一定程度的自我反思(self-reflection)。 这张图最值得读的,不只是最终选中了谁,而是它的推理轨迹:模型并不满足于快速做出表面判断,而是会在局部证据不足时重启核对。对于检索系统来说,这种能力往往比“第一次就猜对”更有价值,因为真实世界里的候选常常并不干净、也不整齐。
5.3 知道没有答案,比硬选一个更难
许多系统最危险的毛病,不是不会,而是不肯承认不会。下面这张图展示的,正是 Retrv-R1 相当难得的一面:当当前 Top-K 候选里并不存在真正正确的结果时,它可以明确指出这一点,而不是强行从错误选项里挑一个“最像的”。
图5:检索定性案例。模型最终输出“None”,并指出当前候选虽与主题相关,但都不满足查询所要求的关键条件,因此应考虑扩展召回范围。
这其实非常高级。因为从系统设计上讲,“拒答”比“乱答”更难:它要求模型不只判断相似度,还要判断候选集合本身是否充分。作者把这一点展示出来,说明 Retrv-R1 的推理不是装饰性的,而确实改变了模型面对不确定性时的行为方式。
5.4 摘要先行,难例再看全文
DIM 机制最核心的价值,不是在论文公式里,而是在这种具体案例里才能看出来。下面这个例子就很好地展示了:模型可以先依赖压缩表示进行大体筛选,再只对真正模棱两可的候选展开完整细查。
图6:检索定性案例。模型先利用压缩信息排除显然无关项,再对难以区分的候选执行细节检查,从而区分“主题相关”与“真正回答查询”的差别。
这类案例很能说明 Retrv-R1 的设计哲学:不是让模型“看得更多”,而是让它“看得更值”。现实里的检索难点,常常不是候选完全无关,而是“都沾边,但只有一个真正对题”。能够在这种细缝里做判断,才是系统水平的体现。
5.5 定性案例四:风格检索比对象识别更难
最后这张图说明,Retrv-R1 的能力并不局限于“认出图里是什么”,它还能处理更抽象的匹配目标,例如画风、构图气质、视觉语调。风格检索本来就比语义识别更微妙,因为两个候选可以对象不同,却风格相近;也可以对象相同,却风格全然不同。
图7:检索定性案例。模型不仅关注对象类别,还能进一步判断画风、构图与视觉表达层面的相似性,从而完成更高层次的风格检索。
这一例子说明作者的方法并没有被“具象物体识别”所限制,而是在朝着更抽象的多模态匹配能力迈进。也正因为如此,我更愿意把 Retrv-R1 看成一种“检索型推理框架”,而不只是一个在某个榜单上分数很高的模型。
六、总结与展望
- 论文贡献:这篇论文最核心的贡献,在于它第一次把 R1 风格的推理式训练范式,真正落到了通用多模态检索这个高难度场景里,并且不是停留在概念上,而是通过 ICM、DIM、合成 CoT 数据与课程式 RL 奖励,构建出一套彼此咬合的完整系统。它证明了一件重要的事:检索任务不是不能推理,而是过去缺少一种既能推理、又能承受候选规模的结构。
- 个人思考:我认为,这篇文章最值得重视的地方,不是“它用了 RL”,而是“它知道 RL 该用在哪里”。作者没有把更多计算粗暴堆到所有候选上,而是把推理资源视作一种稀缺预算,交给模型自己去调度:默认压缩,必要时细查;先学会答对,再学会少看。这样的系统设计,比单纯扩大模型规模更有前景。
当然,论文也并非没有局限。ICM 仍然带来轻微精度损失,这意味着压缩表示与完整语义之间的张力还没有被彻底解决。未来如果能让压缩机制更分层、更自适应,或者让召回阶段与推理阶段联合优化,这条路线仍有很大提升空间。
但无论如何,Retrv-R1 已经非常清楚地传递出一个方向:下一代多模态检索系统,不会只是更大的编码器,也不会只是更长的上下文,而会是更懂得何时压缩、何时回看、何时承认“不知道”的推理型系统。