ICML 2025 | 多模态理论研究 | 深入探究模态崩溃的理论成因!

121 阅读19分钟

前言 本文提出了一种通过显式基重新分配来防止模态崩溃的算法,并应用于处理缺失模态。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

本文转载自多模态论文每日速递

仅用于学术分享,若侵权请联系删除

CV方向的准研究生们,未来三年如何度过?

招聘高光谱图像、语义分割、diffusion等方向论文指导老师

Introduction

我们的目标是对模态崩溃有一个基本的理解,模态崩溃是最近观察到的一种经验现象,其中为多模态融合训练的模型往往只依赖于模态的子集,而忽略其余部分。我们表明,当一种模态的嘈杂特征通过融合头中的一组共享神经元与另一种模态的预测特征纠缠在一起时,就会发生模态崩溃,从而有效地掩盖了前一种模态的预测特征的积极贡献并导致其崩溃。我们进一步证明,跨模态知识蒸馏通过释放学生编码器中的秩瓶颈、对融合头输出进行去噪而不会对任一模态的预测特征产生负面影响,隐式地解开了这些表示。基于上述发现,我们提出了一种通过显式基重新分配来防止模态崩溃的算法,并应用于处理缺失模态。在多个多模态基准上进行的大量实验验证了我们的理论主张。项目页面:https://abhrac.github.io/mmcollapse/

Motivation

图 1.当一种模态的噪声特征与融合头中另一种模态的预测特征纠缠在一起时(其概率随着模态的数量而增加),它会导致次优解,其中前一种模态的预测值因噪声特征的不可避免的存在而减弱。释放秩瓶颈允许在不影响后一种模态的情况下沿独立维度对此类特征进行去噪,同时允许前一种模态的预测特征有助于减少

多模态学习文献中最近的一些工作观察到,旨在学习多种模态融合的模型通常最终仅依赖其中的一部分。这种现象被称为模态崩溃

尽管已经有过几次尝试来减轻模态崩溃,基于对可能导致模态崩溃的原因的先验猜想,例如冲突的梯度(Javaloy 等人,2022 年)或数据分布与融合策略之间的相互作用(马等人,2022 年),但据我们所知,之前没有努力发展对潜在学习理论现象的自下而上的理解。

我们的目标是通过开发一种与融合策略的特定选择无关的多模态特征编码的机械理论来弥合这一差距(参见第 3 节中的任务设置)。我们首先表明,模态崩溃是由于一组共享的多语义神经元(Elhage 等人,2022 年)的不同模态的嘈杂特征和预测特征之间意外纠缠而产生的,我们通过引理 1 观察到这些神经元随着模态的数量呈二次方增加。这意味着如果不包括来自其他模态的噪声特征,就无法学习某些模态的预测特征。然后,嘈杂的特征有效地抑制了它们来自的模态的预测价值,导致它们在融合表示中观察到的崩溃,我们在定理 1 中形式化了这一过程。

如图 1 所示,在优化环境中,崩溃对应于一个次优解,因此沿纠缠维度(这是给定状态下唯一可用于优化的维度)绕过它的任何步骤都会导致一种模态同时去噪,并忘记另一种模态的预测特征。如果模态背后的潜在因素足够互补,我们表明跨模态预测-预测特征纠缠比预测-噪声纠缠发生的可能性更小(引理 3)——因此,我们在这项工作中主要关注后者。

图 2.噪声特征和预测特征之间有和没有特征干扰的多义性。所有水平轴都对应于多语义神经元的权重值。对于 (b) 和 (c),垂直轴对应于列的标题。当模态 1 (M1) 的预测特征和模态 2 (M2) 的噪声特征在同一神经元(a - 顶部)的插值状态中沿同一区域激活时,它阻止了 M2 的预测特征有助于损失最小化

我们发现,这种特征的跨模态纠缠是由于在优化融合头(如图 2 所示)期间模态之间的神经容量分配错误(Scherlis 等人,2022 年)而发生的,我们在引理 2 中观察到这是众所周知的神经网络低秩简单性偏差的结果(Huh 等人,2023 年)限制了在任何给定层接收到的梯度更新的秩。

因此,通过定理 2,我们得出的结果是,这种梯度秩瓶颈迫使 SGD 以多语义方式参数化融合头神经元。

有趣的是,我们在定理 3 中观察到,知识从幸存下来的模态中提炼成崩溃的模态,隐含地避免了跨模态多语义纠缠。它通过释放学生编码器级别的等级瓶颈来实现这一点。因此,如图 1 所示,模态的噪声特征在潜在空间中被分配了专用维度,否则这些特征会崩溃,然后融合算子可以利用这些维度对输出表示进行降噪。这允许完全合并所有模态的预测特征,而不会受到任何嘈杂干扰,从而防止塌陷。

在模态特定因果因素的可识别性(Gulrajani & Hashimoto,2022)条件下,直至底层机制的等方差(Ahuja et al., 2022),我们提出了一种名为显式基重新分配(EBR)的算法,该算法自动识别跨模态特征纠缠并学习潜在空间中的独立去噪方向,以抵消它们对经验风险最小化的阻碍。因此,从 EBR 获得的跨模态的具体特征到基映射可用于确定合适的替代候选者用于在测试时处理缺失的模式。

Contribution

  • 提供基于融合头中导致不必要的跨模态纠缠的多语义神经元的模态崩溃的理论理解,以及神经网络的低秩简单性偏差

  • 表明将跨模态知识从幸存的模态中提炼到正在崩溃的模态中,具有通过解缠和去噪避免模态崩溃的隐含效果,在此基础上,我们提出了显式基重新分配(EBR),用于更系统的多模态嵌入的解缠和去噪

  • 在多个标准多模态基准上对我们的理论结果进行了广泛的实证验证,EBR 在应用在测试时处理缺失模态方面取得了最先进的 (SOTA) 结果,这是对算法对模态崩溃的鲁棒性的最具挑战性的测试之一。

Method

1. 多义性和跨模态纠缠

我们首先表明,随着模态数量的增加,跨模态多语义神经元的比例,即那些编码来自多种模态的特征的神经元(而不是从一种模态中只编码一个特征的单语义神经元)也会增加(引理 1)。这使得聚变头很难独立控制给定模态的贡献,而不会受到其他模态的潜在破坏性干扰(定理 1)。

引理 1(跨模态多语义冲突)。随着模态数量的增加,在给定的深度和宽度下,编码来自不同模态特征的多语义神经元的比例在模态数量中呈二次方增加,如下所示:

其中 p(w) 是神经元通过叠加实现多语义的概率,f 是输出维数最小的模态特定编码器。

定义 1(共轭特征)。共轭特征 z 是在给定模态中与另一个特征 z 共存的特征,因此其中至少一个具有一定的预测价值,但当结合考虑时,它们可以在语义上相互抵消,即

换句话说,z 和 z*相互干扰。

定理 1(干涉)。随着跨模态多语义碰撞数量的增加,预测的分数有助于减少任务损失的共轭特征减少,从而产生以下限制:

其中 z 表示 X 中的预测共轭特征。

面对上述对其特征空间损失减少的贡献的边际减少,是作为崩溃的一部分被消除的模态。接下来,我们展示了这种多语义干扰如何成为神经网络中低秩简单偏差的结果。

2.rank瓶颈

我们确定,随着迭代次数的增加,SGD 中的梯度更新往往会被限制在低秩流形中,其秩与平均梯度外积或 AGOP 的秩成正比(引理 2)。因此,在定理 2 中,我们能够推导出给定层中每个权重子空间的收敛上限,随着该层中的神经元变得越来越多语义,收敛上限会变得更紧(定义 2)。因此,跨模态多语义干扰是低秩简单性偏差的结果。

**引理 2.(渐变排名)**层 l 处 SGD 迭代的梯度更新等级是一个收敛序列,具有以下限制:

其中 φ(x) 和 ∇L 分别是 SGD 第 n 次迭代时 l 层损失 L 的输出和梯度,X 是数据集中 l 层的所有输入的集合。

定理 2(多语义瓶颈)。设 W 是给定φ层处的权重矩阵,w ≤ W 是 W 中的任何子空间。当每个特征提供的条件交叉熵 H(x; y|z) 的减少(持有的唯一标签信息量)相同时,即 I(x; y|z) = I(x; y|z) = ... = I(x; y|z),在 SGD 的任何迭代 n 处,w 与完整权重矩阵 W 的平均梯度外积 (AGOP) 之间的差值范数限制如下:

式中,γ(w)是 w 的多义程度。

定理 2 意味着,由于已知 AGOP 是 W 在 SGD 下收敛到的低秩子空间(Radhakrishnan 等人,2024 年)AGOP 和 w 之间的小距离(更紧密的界限)意味着 W 实际上收敛到多语义子空间 w。换句话说,SGD 更有可能使用低秩多语义神经元来参数化 W,而不是使用高秩单语义神经元。下面我们探讨如何打破这种隐式排名瓶颈,以规避跨模态多语义干扰。

3, 知识蒸馏释放了排名瓶颈

图 3.由于强制跨模态多语义干扰的秩瓶颈而导致的模态崩溃的图例(a),以及通过基重新分配释放这种瓶颈如何通过鼓励单义性(b)来促进消除噪声特征(红色)。

我们提出了一种简单的补救措施,以解决多模态融合模型在 SGD 的默认训练范式下可能遭受的跨模态多语义干扰。根据我们在定理 3 中的结果,解决方案是将崩溃下被消除的模态的特定于模态的编码器替换为通过跨模态知识蒸馏预训练的编码器。具体来说,知识蒸馏必须从融合中幸存下来的模式到在融合下被忽视的模式进行。当不止一种模式幸存下来时,我们通过实验发现,从最弱的模式开始,以最强的模式结束的顺序蒸馏可提供最佳结果(附录 C.3)。

**定理 3(动态收敛界限)。**当在某个距离度量 d 下,放置φ是动态的(例如,当单模态表示通过跨模态知识蒸馏对齐时),那么在 SGD 的任何迭代 n 中,对于所有模态 i、j ∈ M 和数据点 x ∈ X,w 和 W 的 AGOP 之间的差异范数限制如下:

其中 ̃xi, ̃xj= fi(xi), fj(xj), κ 是给定深度的常数,与该深度处沿整个权重矩阵 W 的 AGOP 成正比,ε 是任何一对模态特定编码之间距离的最大允许界限,并且 W 和 w 都是 x 和 x 的函数,因为它们是对 X 的预测的反向传播的结果。

根据定理 3,随着来自不同模态的表示在距离度量 d 下彼此靠近,这是在跨模态知识蒸馏过程中有效发生的情况,W 中单语义神经元的比例增加。这导致 W 的 AGOP 偏离其多语义子空间 w。换句话说,知识蒸馏通过释放等级瓶颈和鼓励必要的单义性,隐含地解开了跨模态干扰,允许沿新维度对特征进行独立的、模态方面的去噪。这种观察背后的直觉如图 3 所示。

4.显式basis重新分配

尽管知识蒸馏通过释放等级瓶颈促进了融合头中模态特定表示的独立去噪,但解缠和去噪的过程是隐式的,因此很慢。我们利用我们对知识蒸馏的解缠和去噪动力学的了解,并将它们用作一组归纳偏差来设计一种显式基重新分配算法,该算法以更加受控和高效的方式解决问题。

EBR 的所有修改都限制在单峰编码器级别,我们不会以任何方式改变融合算子,这使得它与融合算子的选择无关。我们介绍一个简单的编码器-解码器头 h·h, 在每个模态特定的编码器之上,使得每个模态 i 的单模态编码可以通过函数 f= ̄ f·h·h.为了符号方便起见,让 g= ̄ f·h.我们还引入了模态判别器网络ψ,该网络在 g(x) 上进行训练,以预测模态标签。h,手动ψ是简单的两层 MLP,因此增加的参数开销最小。我们共同优化以下两个标准:

其中,Land L 分别代表模态判别损失和语义损失(最终多模态预测)。特定于模态的参数集在 SGD 的每次迭代中更新如下:

**理论原理:**Lmd 的最大化将定理 3 中指定的 d 下ε邻域内的所有模态,实现噪声和预测特征的显式解缠。对ψ和 gare 的对抗性更新一直持续到最终的多模态预测损失 L(ˆy, y) 减少,以保留可识别的潜在因果因素(Gulrajani 和 Hashimoto,2022 年),以及特定于模态的语义相关特征(Chaudhuri 等人,2024 年),这些特征源于潜在因果机制共享的等方差(Ahuja 等人,2022 年)。将 g(x) 投影回 ̄ fvia h 的原始维数中,会得到一个去噪表示,该表示利用了 的竞争输出基础f 表示模态 I 的预测特征,从而增加单义性。

Experiment

图 4.MIMIC-IV:训练期间的语义丢失曲线,模态数量不断增加。多模态前缀是模态特定编码器上的语义丢失(线性)评估,对应于多模态训练期间消除的模态。单峰基线是相同的编码器,但经过额外优化以最大限度地减少其单峰语义损失。

**目标和设置:**我们通过研究与融合下消除的模态相对应的单模态编码器对最小化语义损失的影响,验证了我们关于跨模态多语义干扰的理论(第 3.1 节)。结果如图 4 所示。多模态前缀是因崩溃而被消除的模态的特定于模态的编码器。红色曲线表示其在多模态训练期间的语义损失,通过对其表示的线性评估进行计算。单峰基线是相同的编码器,但经过额外优化以保留单峰语义分类性能。因此,尽管两个编码器具有相同的架构并接收来自相同模态的输入,但多模态前缀仅通过融合头接收梯度更新,而单模态基线也直接优化了语义损失。**观察和分析:**正如引理 1 所预测的那样,随着模态数量的增加,下游融合头中的多语义特征数量也随之增加。现在,由于秩约束梯度更新(引理 2)导致多语义特征使融合头(定理 2)成为瓶颈,因此通过融合头反向传播到多模态前缀的梯度也受到秩约束,迫使它将分数容量分配给原本会以单语义表示的特征。这使得预测特征更难解码,导致观察到的两条曲线之间存在间隙。由于单模态模型还直接最小化了自身的语义损失,因此它受到跨模态干扰的可能性要低得多,使其能够成功地执行必要的容量分配,从而降低损失值,随着模态数量的增加,单峰基线和多模态前缀之间的差距也随之增加,与引理 1 和定理 1 的结论一致。

图 5.MIMIC-IV:在隐式 (KD) 和显式 (EBR) 基础重新分配机制下,在不同强度β崩溃下被消除的模态,模态与多模态表示的多模态等级和表示相似性。

**目标和设置:**我们通过观察多模态表示的等级与迫使多模态模型合并在崩溃时会消除的模态所需的提升量(β)之间的关系,实证验证了我们将跨模态多语义干扰与神经网络的低秩简单性偏差联系起来的理论(第 3.2 节)。结果如图 5(a)和(c)所示。默认设置(w/o KD 或 w/o EBR)对应于普通多模态模型,单模态基线是指单模态编码器在以独立方式训练时学习到的表示的秩,以最大限度地减少语义损失,而无需任何多模态融合。

**观察和分析:**随着β值(默认消除的模态强度)的增加,可以看到多模态排名在默认设置中下降得非常快。它在临界点 (β = 4) 附近发生得特别快,表现出一种相变形式,其中秩下降到低于单峰基线的值。由于多模态模型被迫合并更多的上述模态,它被迫从它已经学习的多语义子空间中选择其(主要是嘈杂的)特征(引理 2)。因此,由于多语义表示,该特征子空间的秩最终比其他情况低得多(如单峰基线所示)。然而,当我们通过基重新分配、通过 KD 或 EBR 释放等级瓶颈时,并没有观察到这种等级衰减,这意味着导致跨模态多语义干扰的等级瓶颈正是模态崩溃的根源。默认多模态表示的等级以临界点周围相变之外的单峰基线的等级为界,是定理 2 中提出的上限的结果。

欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

【技术文档】《从零搭建pytorch模型教程》122页PDF下载

QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。

其它文章

分享一个CV知识库,上千篇文章、专栏,CV所有资料都在这了

明年毕业,还不知道怎么做毕设的请抓紧机会了

告别知识漂移!实例级Top-k选择机制让模型自动适配最优教师路径,准确率最高提升12.3%

告别Transformer?上海交大「原生类脑」BriLLM首秀:信号流重塑大模型范式

YOLO小目标检测效果不佳?速收这10个涨点秘籍!

ICCV 2025 | 无需微调,Stable Diffusion解锁视觉上下文学习新范式

ICCV 2025 | Converse2D | 即插即用 | 卷积真正的逆 | 在图像恢复中的逆卷积

ICCV 2025 | DocThinker:用强化学习教大模型“思考”,让文档理解告别黑箱

ICCV 2025|DeT让你从人到熊猫无缝“换身”跳街舞,SOTA级运动迁移来了!

ICCV 2025 | HVPL:分层视觉提示学习,让“视频实例分割”模型告别灾难性遗忘

ICML 2025 | 千倍泛化不涨显存!蚂蚁推出新注意力机制,实现16M上下文精准检索

ICCV'25|ImageNet上实现 4 倍训练吞吐率!DC-AE 1.5:结构化 Latent 空间加速扩散模型收敛

AI最全资料汇总 | 基础入门、技术前沿、工业应用、部署框架、实战教程学习

计算机视觉入门1v3辅导班

计算机视觉交流群