《Retrv-R1》 2026.3.9《Retrv-R1: A Reasoning-Driven MLLM Framew

《Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval》

📖 摘要

这篇论文提出了一个面向通用多模态检索（Universal Multimodal Retrieval）的推理式框架 Retrv-R1。它不是把检索当成一次草率的“选项匹配”，而是把它改造成一个真正的逐步判断过程：先压缩候选信息，再在必要时展开细查，最后通过强化学习（Reinforcement Learning, RL）把这种判断能力打磨得更稳、更准、更省。结果上，Retrv-R1 在 M-BEIR 等基准上取得了当前最优（State-of-the-Art, SOTA）表现，同时显著改善了推理成本与泛化能力。

一、论文基本信息

论文标题：Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval
作者：Lanyun Zhu、Deyi Ji、Tianrun Chen、Haiyang Wu、Shiqi Wang；来自香港城市大学（City University of Hong Kong）、腾讯（Tencent）、浙江大学（Zhejiang University）。
出处：NeurIPS 2025。
DOI/链接：arXiv:2510.02745v2。

二、研究背景与动机

问题背景：今天的检索系统，早已不再局限于“文本找文本”。现实场景里的查询（query）可以是文本、图像、图文混合，候选项（candidate）也同样如此。所谓通用多模态检索（Universal Multimodal Retrieval），说到底，就是要求一个统一模型去处理各种输入形式与目标形式，并且在复杂场景下仍然判断准确、计算可控。
现有方法的不足：已有路线大体分成两类。一类依赖嵌入（embedding）与相似度计算，这类方法高效，但在细粒度差异、复杂语义关系或跨模态对齐上，往往显得粗糙。另一类则把检索改写成问答（Question Answering, QA）任务，让多模态大模型（Multimodal Large Language Model, MLLM）直接输出结果。它们比纯嵌入方法更强，但一个共同问题是：模型通常“直接答”，却并不“显式想”。一旦遇到复杂候选集，模型既容易武断，也容易幻觉（hallucination）。
本文动机：作者真正想解决的，不只是“让 MLLM 做检索”，而是“让 MLLM 以推理的方式做检索”。然而，直接把 DeepSeek-R1 一类强化学习推理范式照搬到检索上，会立刻遇到两大障碍：其一，候选过多，完整输入每个候选会造成巨大 token 开销；其二，检索奖励稀疏而脆弱，直接做 RL 容易训练不稳。Retrv-R1 的出发点，正是为了解决这两个现实问题。

三、核心方法与创新点

3.1 核心思想

Retrv-R1 的基本思路可以概括为一句话：让模型把“注意力”花在真正值得看的地方。 它首先用一个两阶段（two-stage）的检索结构，把大规模候选压缩到一个可管理的集合；然后在精排阶段，不是平铺直叙地比较所有候选，而是让模型以推理方式逐步筛查、复核与判断。这样一来，模型既能处理困难样本，又不会在所有候选上平均浪费昂贵上下文。

3.2 整体框架

论文的方法结构，最好结合下面这张总图来看。它把系统清楚地拆成三部分：左上是整体推理流水线，中下是信息压缩模块（Information Compression Module, ICM），右侧是三阶段训练流程。也就是说，这篇文章不是只提出一个“训练技巧”，而是同时重写了输入表示、推理流程与训练机制。在这里插入图片描述图1：Retrv-R1 的总体设计。图中展示了整体推理流程、信息压缩模块（ICM）的内部结构，以及从 ICM 预训练、合成 CoT 监督微调（Supervised Fine-Tuning, SFT）到强化学习优化的三阶段训练过程。

3.3 创新点拆解

创新点一：信息压缩模块（Information Compression Module, ICM）
这可以说是全文最有分量的结构创新。作者没有让每个候选都以完整 token 序列进入大模型，而是为每个候选构造两个压缩表示：一个内容 token（content token），保留候选本身的关键信息；一个关系 token（relationship token），保留候选与查询之间的匹配线索。这样一来，模型在大多数时候不必阅读“全文”，只需阅读“高度概括后的摘要”。
创新点二：细节检查机制（Details Inspection Mechanism, DIM）
压缩信息当然会有损失，所以作者又设计了一个非常聪明的补救机制：当模型在推理中发现某个候选难以判断时，它可以主动触发细节检查，把该候选的完整 token 重新拉回上下文中。于是系统形成了一种很自然的工作方式：平时看摘要，遇到难例再翻原文。
创新点三：先激活、后增强的训练范式
作者没有一上来就做 RL，而是先构造检索专用的合成推理数据，进行一次 SFT，让模型先学会“该怎么想”；随后再用 RL 去增强它的判断力、鲁棒性与效率。这个顺序很重要，因为真正有效的强化学习，往往建立在一个已经会“基本思考”的模型之上。
创新点四：课程式效率约束（Curriculum Efficiency Constraint）
如果只奖励答对，模型会倾向于把所有候选都展开细看，虽然正确，却极其昂贵。作者因此把“检查次数”也纳入奖励，并采用课程学习（curriculum learning）式的方式逐步增强这一约束：先让模型学会做对，再要求它做快。这个设计相当成熟。

3.4 技术细节

检索目标：
在两阶段结构中，模型最终要从召回后的候选集合中选出最优项，可写为：

\hat{c} = \theta(q, C)

其中， $q$ 表示查询（query）， $C$ 表示候选集合， $\theta$ 是带推理能力的精排模型。这个式子看似简单，真正重要的地方却在于：作者并不把 $\theta$ 视为一个普通匹配函数，而是把它实现为一个能够逐步分析候选、必要时回看细节、最终再做判断的推理模块。

ICM 的内容压缩：
对每个候选 $c_k$ ，模型先从原始 token 序列 $T_{c_k}$ 中抽取一个内容 token（content token），写作：

t^{c_k}_{con} = ATT_1(Q_{e_{con}}, K_{T_{c_k}}, V_{T_{c_k}})

这一步的含义可以理解为：用一个可学习的查询向量，从候选自身的表示中提炼出“最值得保留”的核心内容。换句话说，模型并不是把整个候选原封不动地搬进推理上下文，而是先做一次高度压缩，让后续推理有机会在有限预算里处理更多候选。

ICM 的关系压缩：
仅仅知道“候选本身是什么”还不够，因为检索问题从来不是孤立理解候选，而是理解“候选与查询之间是否匹配”。因此，作者进一步构造了关系 token（relationship token）：

t^{c_k}_{rel} = ATT_1(Q_{e_{con}}, K_{R_{q,c_k}}, V_{R_{q,c_k}})； R_{q,c_k} = ATT_2(Q_{T_{c_k}}, K_{T_q}, V_{T_q})

这里， $R_{q,c_k}$ 先显式建模候选 $c_k$ 与查询 $q$ 的交互结果；随后，再通过一次注意力聚合，把这种交互压缩成一个专门用于匹配判断的关系 token。于是，模型不仅保留了“候选内容”的摘要，也保留了“候选与查询关系”的摘要。这个设计很关键，因为检索的本质并不只是表征，而是比较。

自对齐预训练（Self-Alignment）：
为了让压缩后的 token 尽可能保留原始 token 的表达能力，作者在正式训练前先做了一步自对齐预训练（Self-Alignment）。在这一步中，语言模型（Language Model, LM）被冻结，训练目标是让压缩表示在 LM 空间中逼近原始输入的效果。对应损失写作：

L_{sa} = \mathbb{E}_{c_k} \Big[ L_{ce}\big(LM(I_{con}[t^{c_k}_{con}]), \, LM(I_{con}[T_{c_k}])\big) + L_{ce}\big(LM(I_{rel}[t^{c_k}_{rel}]), \, LM(I_{rel}[T_{c_k}; T_q])\big) \Big]

这个目标的直觉并不复杂：作者希望内容 token 在语义上尽量像原始候选，关系 token 在语义上尽量像“候选与查询联合输入”后的表达结果。这样做的好处是，ICM 不会变成一个纯粹依赖下游任务偶然学出来的压缩器，而是先具备一个比较扎实的表征基础。

细节检查机制（Details Inspection Mechanism, DIM）：
压缩带来效率，但也不可避免地损失信息。因此，作者没有把压缩表示当作最终答案，而是允许模型在推理过程中动态触发细节检查（inspection）。具体来说，大多数候选只以压缩 token 形式参与推理；只有当模型发现某个候选难以判断时，才会把它的完整 token 序列重新拉回上下文中做精查。这一步虽然没有一个复杂公式，却恰恰体现了 Retrv-R1 最成熟的设计思想：不是让所有候选平均消耗计算资源，而是让模型自己决定，哪些候选只值得“略读”，哪些候选必须“精读”。从系统角度看，这比一视同仁地处理所有候选合理得多。
强化学习目标与奖励设计：
在监督微调（Supervised Fine-Tuning, SFT）之后，作者进一步采用组相对策略优化（Group Relative Policy Optimization, GRPO）做强化学习训练。这里优化的，不只是最终答案是否正确，更是整个推理过程是否有效、是否节制。论文中一个很关键的奖励项写作：

r_r = \mathbf{1}(\hat{c} = \hat{c}_{gt}) \left( 1 - \lambda \frac{N_{ins}}{K} \right)

其中， $\hat{c}$ 表示模型预测的候选， $\hat{c}_{gt}$ 表示真实正确答案， $N_{ins}$ 表示推理过程中触发细节检查的次数， $K$ 表示候选总数， $\lambda$ 是效率惩罚系数。这个奖励的含义非常清楚：模型只有在答对时才有奖励，但即便答对了，如果检查了太多候选、消耗了太多额外计算，奖励也会被削弱。这实际上是在鼓励模型形成一种更高级的行为模式：它不能只是“靠多看来做对”，而必须学会“用尽量少的细看来做对”。也正因为如此，Retrv-R1 追求的并不是单纯意义上的高准确率，而是一种精度与效率兼顾的推理式检索能力。

课程式效率约束（Curriculum Efficiency Constraint）：
如果一开始就对细节检查施加很强惩罚，模型可能还没学会如何正确判断，就先被迫“节省”，结果反而既不准也不稳。作者因此采用了课程学习（curriculum learning）式的约束策略：训练早期，先允许模型多做检查、优先学会正确推理；训练后期，再逐步增强效率惩罚，让模型学会在保持正确的同时减少不必要的细查。这一点非常重要，因为它说明作者并没有把效率问题粗暴地硬塞给模型，而是按照能力形成的自然顺序来设计优化路径：先学会做对，再学会做快，最后学会只在真正困难的地方花计算。这种训练思想，本身就很有启发性。

四、实验与结果分析

4.1 数据集

主基准：作者主要在 M-BEIR 上验证方法，这是一个覆盖多种查询形式与候选形式的通用多模态检索基准。它能够较全面地测试模型是否真的具备“通用”能力。
扩展测试：除了主基准，论文还评估了未见数据集、保留任务，以及多模态序列推荐（multimodal sequential recommendation）场景，用来考察模型的泛化能力。这个实验设计是有说服力的，因为一个真正有价值的框架，不应只会“做题”，还应能跨任务迁移。

4.2 基线模型

零样本通用模型（zero-shot general-purpose models）：如 CLIP、SigLIP、BLIP、BLIP-2、Qwen2.5-VL。
R1 风格多模态推理模型：如 Vision-R1、VLM-R1。
检索专用 MLLM：如 MM-Embed、LamRA。

4.3 主要结论

定量结果：Retrv-R1 在 M-BEIR 上取得了当前最优表现，且 3B 版本已经在多数设定下超过更大的专用模型。更重要的是，模型不仅更准，而且更高效：在候选数增加时，时间与显存开销仍显著受控。
泛化结果：在未见数据集、未见任务以及推荐任务上，Retrv-R1 仍然保持竞争力甚至优势。这说明它提出的不是一个只对单一榜单有效的技巧，而是一种更普遍的检索型推理框架。

4.4 强化学习到底学到了什么

论文没有停留在“结果更好”这一层，而是进一步分析了 RL 阶段到底改变了模型什么行为。下面这张图非常关键，因为它揭示了两个变化：第一，模型在训练初期会更多依赖细节检查，随后逐渐学会节制；第二，模型的推理过程会慢慢摆脱固定模板，发展出更灵活的推理结构。在这里插入图片描述图2：强化学习微调（RL Fine-tuning）的分析结果。左图显示训练过程中细节检查次数先升后降；右图显示模型生成的推理格式逐渐偏离固定四步模板，说明模型在后期学会了更灵活、更自然的推理策略。这张图背后的意义其实很深。左图说明课程式奖励是有效的：模型先追求正确，再追求省算力；右图则说明 RL 并没有把模型训练成一个只会复述模板的机械体，而是促使它发展出更成熟的判断行为。作者还指出，后期模型甚至出现了两种很像“老练研究者”的能力：一种是自我反思（self-reflection），会重新审视先前可能误判的候选；另一种是承认当前候选集中根本没有正确答案，并建议扩大召回范围。

五、定性分析：

5.1 合成 CoT 数据到底教了模型什么

如果说 Retrv-R1 的 RL 阶段是在“打磨推理”，那么它的 SFT 阶段就在“点燃推理”。作者使用更强模型自动合成一批检索专用的 CoT（Chain-of-Thought）样本，让目标模型先学会一套相对稳定的思考顺序：先描述理想结果，再排除明显负样本，再指定需要展开检查的难例，最后完成细粒度判断。下面这张图，就是这种合成数据的直观例子。在这里插入图片描述图3：用于 SFT 的合成检索 CoT 数据示例。模型不是只看到答案，而是看到一条完整的检索推理链：如何先界定理想匹配，再排除错误候选，再对少数难例调用细节检查，最后得出结论。这一点很重要，因为它说明作者不是单纯在做“答案监督”，而是在做“过程监督”。换句话说，模型学到的不是“这个题的答案是 3”，而是“面对类似问题时，应该怎样一步一步排查”。这也为后续 RL 阶段提供了可被强化的推理骨架。

5.2 模型学会了回头看

好的检索系统，未必一眼就看对，但它至少应该知道什么时候需要重新判断。下面这个案例体现的，正是模型的这种“回看能力”。它不是一条直线地排除候选，而是在推理过程中保留修正余地，这种行为很像一个谨慎的专家，而不是一个急着交卷的学生。在这里插入图片描述

图4：检索定性案例。该例展示了模型在复杂候选之间进行逐步排查，并在必要时重新审视先前判断的能力，体现出一定程度的自我反思（self-reflection）。这张图最值得读的，不只是最终选中了谁，而是它的推理轨迹：模型并不满足于快速做出表面判断，而是会在局部证据不足时重启核对。对于检索系统来说，这种能力往往比“第一次就猜对”更有价值，因为真实世界里的候选常常并不干净、也不整齐。

5.3 知道没有答案，比硬选一个更难

许多系统最危险的毛病，不是不会，而是不肯承认不会。下面这张图展示的，正是 Retrv-R1 相当难得的一面：当当前 Top-K 候选里并不存在真正正确的结果时，它可以明确指出这一点，而不是强行从错误选项里挑一个“最像的”。在这里插入图片描述 图5：检索定性案例。模型最终输出“None”，并指出当前候选虽与主题相关，但都不满足查询所要求的关键条件，因此应考虑扩展召回范围。 这其实非常高级。因为从系统设计上讲，“拒答”比“乱答”更难：它要求模型不只判断相似度，还要判断候选集合本身是否充分。作者把这一点展示出来，说明 Retrv-R1 的推理不是装饰性的，而确实改变了模型面对不确定性时的行为方式。

5.4 摘要先行，难例再看全文

DIM 机制最核心的价值，不是在论文公式里，而是在这种具体案例里才能看出来。下面这个例子就很好地展示了：模型可以先依赖压缩表示进行大体筛选，再只对真正模棱两可的候选展开完整细查。在这里插入图片描述 图6：检索定性案例。模型先利用压缩信息排除显然无关项，再对难以区分的候选执行细节检查，从而区分“主题相关”与“真正回答查询”的差别。

这类案例很能说明 Retrv-R1 的设计哲学：不是让模型“看得更多”，而是让它“看得更值”。现实里的检索难点，常常不是候选完全无关，而是“都沾边，但只有一个真正对题”。能够在这种细缝里做判断，才是系统水平的体现。

5.5 定性案例四：风格检索比对象识别更难

最后这张图说明，Retrv-R1 的能力并不局限于“认出图里是什么”，它还能处理更抽象的匹配目标，例如画风、构图气质、视觉语调。风格检索本来就比语义识别更微妙，因为两个候选可以对象不同，却风格相近；也可以对象相同，却风格全然不同。在这里插入图片描述 图7：检索定性案例。模型不仅关注对象类别，还能进一步判断画风、构图与视觉表达层面的相似性，从而完成更高层次的风格检索。 这一例子说明作者的方法并没有被“具象物体识别”所限制，而是在朝着更抽象的多模态匹配能力迈进。也正因为如此，我更愿意把 Retrv-R1 看成一种“检索型推理框架”，而不只是一个在某个榜单上分数很高的模型。

六、总结与展望

- 论文贡献：这篇论文最核心的贡献，在于它第一次把 R1 风格的推理式训练范式，真正落到了通用多模态检索这个高难度场景里，并且不是停留在概念上，而是通过 ICM、DIM、合成 CoT 数据与课程式 RL 奖励，构建出一套彼此咬合的完整系统。它证明了一件重要的事：检索任务不是不能推理，而是过去缺少一种既能推理、又能承受候选规模的结构。

- 个人思考：我认为，这篇文章最值得重视的地方，不是“它用了 RL”，而是“它知道 RL 该用在哪里”。作者没有把更多计算粗暴堆到所有候选上，而是把推理资源视作一种稀缺预算，交给模型自己去调度：默认压缩，必要时细查；先学会答对，再学会少看。这样的系统设计，比单纯扩大模型规模更有前景。
当然，论文也并非没有局限。ICM 仍然带来轻微精度损失，这意味着压缩表示与完整语义之间的张力还没有被彻底解决。未来如果能让压缩机制更分层、更自适应，或者让召回阶段与推理阶段联合优化，这条路线仍有很大提升空间。
但无论如何，Retrv-R1 已经非常清楚地传递出一个方向：下一代多模态检索系统，不会只是更大的编码器，也不会只是更长的上下文，而会是更懂得何时压缩、何时回看、何时承认“不知道”的推理型系统。