【导读】
何恺明团队最新研究出手,给火爆的扩散模型加了个「收纳整理」功能!无需修改模型结构、不增参数、不靠外部数据,仅需一个即插即用的正则化项——Dispersive Loss,就能让模型内部特征自动“排排坐”,效果显著提升>>更多资讯可加入CV技术群获取了解哦~
扩散模型的风头正盛,何恺明团队的最新研究也聚焦于此。但这次,他们独辟蹊径——让扩散模型学会“整理收纳”,使其内部特征更加有序,生成的图像效果自然更逼真。
这项研究直指当前扩散模型的一大痛点:模型训练高度依赖回归目标(如去噪),却忽视了中间特征的正则化。这就像盖楼只注重外部结构,却不管内部管线排布是否合理。
Dispersive Loss
何恺明与合作者 Runqian Wang 在论文中提出了一种名为 Dispersive Loss 的即插即用正则化方法,核心思想非常清晰:
- 保留核心任务:模型仍以原始扩散损失(如去噪)为主目标
- 新增整理任务:额外引入一个正则化项,作用于模型中间层的特征表示
- 目标:分散特征:该正则化的目标是让同一批次样本的中间特征在表示空间中尽量分散开来,避免扎堆或坍缩
其中 LDiffLDiff 为扩散损失,LDispLDisp 为表征分散正则项,λ 为权重系数。
“无正样本”
看到“让特征分散”,你可能联想到自监督学习中的对比学习(Contrastive Learning)。对比学习确实通过拉近正样本对(如一张图片的不同裁剪)、推开负样本对(不同图片)来学习良好表征。
但 Dispersive Loss 的设计巧妙避开了对比学习的复杂性和局限性:
- 无需正样本对: 对比学习需要精心构造正样本对(通常通过数据增强)。Dispersive Loss 完全不需要定义什么是“相似”的正样本。它只关心一件事:让不同样本的表示互相远离(排斥)。
- 避免视图干扰: 对比学习通常需要为每个样本生成多个视图(增强版本)。在扩散模型中,输入本身已是加噪版本,额外视图的引入可能与去噪主任务冲突。Dispersive Loss 直接作用于原始训练批次的单一视图特征。
- 极简实现,零新增参数: 它直接在现有模型的某个(或某几个)中间层特征上计算,不需要添加任何新的可学习模块(如 Projection Head),计算开销微乎其微。
- 无缝集成: 只需在原有扩散损失上加一个带权重 λ 的 Dispersive Loss 项。当 λ=0 时,模型完全退化为原始扩散模型。
实验结果
团队在 ImageNet 256x256 生成任务上进行了大量实验,基线模型选择了当前主流且强大的扩散/流模型:DiT 和 SiT。
显著提升基线模型
在 SiT-B/2 模型上,仅添加 Dispersive Loss,FID (越低越好) 从 36.49 显著降至 32.35(相对提升 11.35%)。
这种提升在不同规模模型(S, B, L, XL)和不同架构(DiT, SiT)上普遍且一致。有趣的是,模型越大、基线越强,绝对和相对提升往往越大,表明其正则化效应对缓解大模型过拟合特别有效。
轻松超越对比学习方案
尝试在扩散模型中直接加入对比学习损失,效果不佳甚至有害。即使精心控制两个视图的噪声水平使其接近,其收益也远低于 Dispersive Loss,且实现更复杂。
这证明了 Dispersive Loss “无正样本”设计在扩散框架下的优越性。
助力单步生成刷新 SOTA
将 Dispersive Loss 应用于前沿的单步生成模型 MeanFlow 上。
在 ImageNet 256x256 上,MeanFlow-XL/2 的 FID 从 3.43 降至 3.21,刷新了单步扩散/流模型的 SOTA。
媲美重量级 REPA,成本极低
与需要依赖外部强大预训练模型(如 DINOv2)的表征对齐方法 REPA 相比:
- REPA:FID 1.80 (SiT-XL/2 + CFG + SDE)
- Dispersive Loss:FID 1.97 (同设置)
虽然 REPA 的绝对指标略优,但 Dispersive Loss 是完全自包含的:
- 无需外部预训练模型 (REPA 依赖 11 亿参数、在 1.42 亿图像上预训练的 DINOv2)
- 无需外部数据
- 不增加模型参数量
- 计算开销极低
意义
何恺明团队的这项工作,其价值不仅在于提出了一个简单有效的新损失函数,更在于它成功地在扩散模型和 表征学习 这两个长期相对独立发展的领域之间,架起了一座简洁而坚固的桥梁。
- 证明正则化的力量:明确展示了对生成模型中间表征进行正则化(特别是鼓励分散性/Dispersion)能有效提升其生成效果和泛化能力。
- 极简主义典范:Dispersive Loss 的设计哲学是最小化侵入性。它几乎不改变原有训练流程,不加参数,不增视图,不依赖外部数据或模型,效果却立竿见影。这种优雅简洁的设计非常具有吸引力。
- 开辟新方向:其“无正样本对比”的思路,为标准自监督学习领域也提供了一个有趣且尚未充分探索的研究视角(论文中称之为 “positive-free” contrastive learning)。
- 应用潜力广:论文展示了其在多步扩散、流匹配以及前沿的单步生成模型上的有效性。其通用性预示着它可能很容易被集成到各种现有的和未来的生成框架中,持续发挥“整理收纳”的作用,让模型的特征空间更规整,输出更优质。
随着扩散模型不断刷新图像生成的质量和效率纪录,何恺明团队这项“整理收纳术”的横空出世,为扩散模型的优化打开了新思路——有时候,让模型学会把内部特征“收拾整齐”,比一味堆砌数据和算力更有效。