前言
国际学习表征会议(简称:ICLR),是深度学习领域的顶级会议,顶中顶。本次评分情况可以看链接:papercopilot.com/statistics/…
最近 ICLR 2025 正在陆陆续续评分中,本次评议阶段真的是热闹啊,状况连连,官方没办法都将评审过程延长了一周。前些天有低分作者硬刚了审稿人,rebuttal 结果还相当成功,平均分提高 2 分,一举跃升为 top9 论文。但是这不是本篇文章的重点,出现了一个更为炸裂的事件,全 10 分论文:Scaling In-the-Wild Training for Diffusion-based Illumination Harmonization and Editing by Imposing Consistent Light Transport,这篇论文很多朋友应该不陌生,出来 ControlNet 作者张吕敏之手,并且这款新的 IC-Light 模型已经可以在 SD 和 Flux 中进行使用了。
IC-Light,是一种图像照明编辑技术,依托于扩散模型,能够根据文本指令精确地调整和改变图像中的光照效果。借助合适的提示词,用户可以针对特定的图像内容实现定制化的照明调整,达到期望的视觉效果。
例如下面是 LC-Light 在 SD 中的使用案例,左侧可以看到,LC-Light 可以较为完整的将人物从背景中提取出,然后借助 sunshine、warm autosphere 等提示词,便可以成功实现光照效果的改变。
张吕敏大佬不愧是图像领域的真神之一,一出手就是大作,下面来一起解读一下该满分论文。
研究背景
图像的光照编辑是指使用计算机图形学和图像处理技术来改变或调整图像中的光照效果,是计算机图像学领域的一项经典任务,在现实的世界中,看到一个物体的效果,很难说清楚到底是材质还是光线效果,两者紧密相连,光效可以有效地提升物体的展示效果,因此光照编辑广泛于摄影、电影、游戏、虚拟现实等诸多领域。
随着 stable diffusion 等扩散模型的推出,基于扩散原理的图像生成方法也逐渐成为光照编辑的新宠,可以有效处理更广泛的“野外”照明效果,而不仅仅是简单的改变光源的分布,甚至可以模拟和操纵各类光效,为光照编辑领域等提供了独特的工业价值。
但是,基于扩散图像的光照编辑方法存在一些挑战和问题:
-
训练扩展性问题:当前在扩展扩散模型进行光照编辑时,第一个挑战在于如何保持图像的细节和固有属性(例如,反照率)不变。直接使用复杂、多变或野外数据训练大型图像模型可能会导致模型偏离预期目标,变成一个结构引导的随机图像生成器,违背了精确控制照明的意图。
-
图像细节和固有属性保持问题:在修改照明时,需要保留图像的细节和固有属性,如反照率或反射颜色。扩散算法的随机性和潜在空间的编码-解码过程使得保留细粒度细节变得困难。
-
模型行为和学习目标的不确定性问题:随着数据集大小和多样性的增加,学习目标的映射和分布可能变得模糊和不确定。没有适当的约束,训练可能产生不符合预期照明编辑要求的输出。
-
数据源多样性和模型泛化问题:为了提高模型在各种照明相关下游任务中的鲁棒性和性能,需要在训练中使用大规模和多样化的数据源,包括真实照片、渲染图像和野外图像。如何有效地整合这些不同来源的数据,并确保模型能够从中学习到一致的照明编辑规则,是另一个需要克服的挑战。
鉴于此,论文提出提出在训练过程中施加一致的光传输(IC-Light)约束的方法,该方法基于光传输独立性的物理原理-不同照明条件下物体外观的线性混合与混合照明下的外观一致,提高了模型在实际应用中的泛化能力,且在保持图像细节和固有属性的同时,实现对图像照明的精确控制和编辑。
主要内容
如下图所示,论文使用多种可用的数据源类型(任意图像、3d 数据和光舞台图像)对照明效果的分布进行建模。多维度的数据来源囊括了现实世界的诸多照明场景,例如,背光,边缘光,辉光等。为简单起见,将所有数据处理为通用格式。
为了提高模型的鲁棒性和泛化性,采用的数据来源多,规模大,可能存在大量的嘈杂和复杂数据,若不采用合适的正则化和约束,模型很难有效地整合这些不同来源的数据,并从中学习到一致的照明编辑规则,从而退化为与预期光照不符的随机行为。
物体的外观在不同照明条件下的线性混合与混合照明条件下保持一致,研究者参考上述物理原理,提出在训练的过程中,施加一致光(IC-Light)传输。
如图 3a 所示,以经典的 Stable Diffusion UNet 为例,修改其原本的架构,输入卷积层增加 4 个通道来接受目标物体的随机重亮外观或退化图像。给定一组条件,包括时间步长 t,光照条件 L,以及输入退化 I,图像扩散算法学习网络 δ 来预测噪声:
然而由于光照数据存在噪声,单一目标通常会导致模型的随机行为,例如颜色不匹配,细节错误等。光传输的理论证明,考虑任意外观 IL 和相关环境照明 L,矩阵 T 总是存在
其中,T 表示原始高动态范围的图像,真实世界的测量证实 T 可以使用单个矩阵进行表示,无需进行任何非线性变换。
其中 L1 和 L2 为两个任意环境光照值,这也就解释了上面所述的物理原理:不同照明条件下的线性混合与混合照明条件下保持一致。光传输一致性的核心思想是指在扩散训练过程中保持上面公式的不变,以约束模型只修改图像光照而不改变其他固有属性。
在实际实现中,考虑到大多数扩散模型不是在 HDR 图像上训练的像素扩散模型,因此需要对潜在扩散或 LDR 像素扩散进行转换,使用一个科学系的多层感知器 MLP 来实现。
下面是光传输一致性的最终形式和其损失函数:
实验结果
实验设计
- 优化器:学习率为 1e-5 的 AdamW 优化器
- 预训练模型:sd1.5、SDXL 和 Flux.1.0-dev
- 训练策略:采用多阶段训练策略,分别训练模型的双流部分和单流部分,使用梯度冻结来冻结梯度图的部分
- 训练细节:在训练开始阶段,野外图像数据和 3D 渲染数据以相同的概率出现,随着训练迭代次数的增加,光照图像数据在每批中出现的概率增加。
消融实验
Experient1:去除野外图像增强数据,结果如下图:
野外图像数据的去除严重影响了模型的泛化性,尤其是人像类型的复杂图像,例如上述人物头像的帽子会以错误的颜色进行呈现。
Experient2:移除光传输一致性约束,模型产生一致照明和保留反照率(反射颜色)等固有属性的能力将明显下降。例如,在某些图像中,红蓝的差异变得不明显,并且会出现明显的色彩饱和度问题。
消融实实验表明,完整的方法,更好的整合这些不同来源的数据,并确保模型能够从中学习到一致的照明编辑规则,可以有效地保持图像细节和固有属性,同时提升光照编辑的准确性。
其他应用
研究者在论文中展示了其他案例应用,例如利用背景条件协调光照,如下图所示。通过对背景的额外通道进行训练,训练模型支持 sd1.5,sdxl 和 flux 等,获得的模型可以无需依赖环境映射,实现根据背景图生成照明效果。
定量评估
从数据集中提取了 50,000 个未见过的 3D 渲染数据样本的子集,采用峰值信噪比(PSNR)、结构相似指数(SSIM)和学习感知图像斑块相似度(LPIPS)等指标进行了定量评估。
对比方法:SwitchLight、DiLightNet 和当前方法的消融体(不包含 IC-Light、不包含野外增强数据、不包含三维数据等),结果如下表:
其中,LPIPS 指数所提方法取得最优,表明具备更卓越的感知质量。本次测试中仅使用了三维渲染数据,该情形下 PSNR 也获得了最高。综上所述,结果表明完整的方法更好的整合这些不同来源的数据,实现了在感知质量和性能之间的有效平衡。
视觉比较
研究者还进行了视觉比较,如下图所示,与 rellighting Harmonization 相比,由于采用的数据集更多源更庞大,对阴影的鲁棒性更高。SwitchLight 的重新照明效果与本文模型相仿。本模型采用合并和从多个外观中提取阴影的方法,生成的法线贴图更加细致,质量高于 GeoWizard 和 dsin。
实验结论
论文提出使用施加一直光传输来扩大基于光照编辑模型训练的方法,该方法可以实现精准的光照编辑,同时保留了固有的图像特征,例如反照率和各种细节。
光传输的一致性,有助于稳定跨不同数据源的训练,例如野外图像、3D 渲染图像等。通过广泛的对比试验和消融实验,IC-Light 方法降低了不确定性,提高了模型对于各种光照条件的泛化能力。此外,IC-Light 方法还支持更多扩展应用,例如背景感知重照明,法线贴图生成等,非常适合于基于图像的照明编辑应用。