本文讨论了扩散模型 (DM) 用于图像生成的局限性,因为它们直接在像素空间中运行,这使得优化和推理变得昂贵。为了解决这些限制,作者建议在预训练自动编码器的潜在空间中使用 DM,这样可以在复杂性降低和细节保留之间取得更好的平衡。这种方法称为潜在扩散模型 (LDM) ,还可以使用交叉注意层从文本或边界框等一般条件输入生成高分辨率图像。作者证明 LDM 在图像修复和类条件图像合成方面实现了最先进的结果,并且在无条件图像生成、文本到图像合成和超分辨率方面具有竞争力,同时显着降低了计算要求到基于像素的 DM。
民主化高分辨率图像合成
扩散模型 (DM) 是基于似然的模型,可以花费大量计算资源对数据的难以察觉的细节进行建模。在 RGB 图像上训练和评估此类模型需要大量计算资源,并且它们的模式覆盖行为通常会导致容量使用过多。因此,许多研究人员无法访问 DM,并且碳足迹很大。为了解决这个问题,需要一种方法来降低 DM 的计算复杂性而不影响其性能,从而使研究人员和用户更容易使用它们。
前往潜在空间
研究人员的方法包括分析像素空间中已经训练好的扩散模型,以找到一个计算效率更高的空间来训练用于高分辨率图像合成的扩散模型。他们将学习分为两个阶段:感知压缩阶段和语义压缩阶段.(下图展示了训练模型的率失真权衡)他们的目标是找到一个在感知上等同于数据空间但在计算上更适合训练扩散模型的空间。为此,他们训练了一个自动编码器来提供低维且高效的表示空间。然后,研究人员在学习到的潜在空间中训练 DM,它在空间维度方面表现出更好的缩放特性,从而产生了一个称为潜在扩散模型 (LDM) 的模型类。
方法
作者提出了一种方法来减少高分辨率图像合成的训练扩散模型的计算需求。他们观察到,尽管扩散模型可以忽略感知上不相关的细节,但它们仍然需要在像素空间中进行代价高昂的函数评估。为了解决这个问题,他们引入了一个自动编码模型,该模型学习一个在感知上等同于图像空间的低维空间。这提供了几个优势,例如使 DM 的计算效率更高,并且可以训练多个生成模型。生成的模型类称为潜在扩散模型 (LDM)。在接下来的小节中,我将介绍 LDM 中应用的所有重要方法。
感知图像压缩
作者使用编码器-解码器架构将 RGB 图像 x 编码为潜在表示 z,然后从 z 重建图像 x。编码器通过因子 f 对图像进行下采样,并尝试使用不同的下采样因子。为了避免高方差潜在空间,他们使用两种不同类型的正则化:KL-reg。 和VQ-reg。 VQ-reg。在解码器中使用矢量量化层。通过使用温和的压缩率,作者实现了比以前的作品更好的重建,后者依赖于潜在空间的任意一维排序。
潜在扩散模型
扩散模型是概率模型,通过逐渐对正态分布变量进行去噪来学习数据分布 p(x)。他们依赖于 p(x) 变分下界的重新加权变体,它反映了去噪分数匹配。对于图像合成,成功的模型依赖于等权重的去噪自动编码器序列,经过训练以预测其输入的去噪变体,目标如下:
作者提出了一种将图像压缩到更小、更高效的空间,同时保留重要细节的新方法。这种压缩空间允许更快、更有效的生成模型。与以前使用复杂模型的方法不同,这种新方法利用图像的结构来更好地压缩它们。该模型使用 UNet 神经网络,该网络针对压缩图像进行了优化,并且可以通过一次解码器网络高效地生成新图像。因此,新目标可以执行为:
调节机制
与其他类型的生成模型类似,扩散模型通常具有对条件分布进行建模的潜在能力,以及通过不同类型的输入(例如文本或语义图)控制合成过程的可能性。然而,在图像合成的背景下,使用类标签或模糊输入图像之外的其他类型的调节没有得到很好的研究。为了解决这个问题,作者提出了一种具有交叉注意力机制的扩充扩散模型,这对于学习各种输入模式的基于注意力的模型非常有效。作者还引入了一个特定领域的编码器来预处理来自各种模态的输入,并通过交叉注意层将其映射到 UNet。
这里,φ_i 表示一个(扁平化的)中间表示。基于图像调节对,我们然后通过以下方式学习条件 LDM
本文描述了所提出的潜在扩散模型在不牺牲质量的情况下提高去噪扩散模型的训练和采样效率方面的成功。结合交叉注意调节机制,实验表明,所提出的模型在各种条件图像合成任务中优于最先进的方法,而无需特定于任务的架构。