一致性模型:生成式人工智能的下一步(扩散模型)

691 阅读13分钟

image.png

Open AI 使用扩散模型在图像、音频和视频生成方面取得了重大突破。然而,这些模型依赖于迭代生成过程,导致采样速度缓慢,限制了它们在实时应用中的潜力。然而,这种性能是有代价的,因为扩散模型的迭代采样过程逐渐消除噪声以生成高质量输出,通常需要比传统的单步生成模型(例如生成对抗网络 (GAN))多 10-2000 倍的计算量。为了解决这一局限性,我们提出了一致性模型,这是一个新的生成模型家族,无需对抗训练即可实现高样本质量。

arxiv.org/pdf/2303.01…

一致性模型旨在支持快速一步生成,并且仍然可以允许几步采样以用计算换取样本质量。他们还提供零镜头数据编辑,例如图像修复、着色和超分辨率,而无需对这些任务进行明确的培训。

这些模型可以作为提取预训练扩散模型或作为独立生成模型的一种方式进行训练。大量实验表明,一致性模型在一步生成和几步生成中优于现有的扩散模型蒸馏技术。例如,我们在 CIFAR10 上实现了新的最先进的 FID 3.55,在 ImageNet 64 x 64 上实现了 6.20 的一步生成。

image.png 当作为独立生成模型进行训练时, 一致性模型在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等标准基准测试中的表现优于单步、非对抗性生成模型。

介绍

扩散模型是生成模型,在图像生成、音频合成和视频生成等各个领域都取得了显着的成功。与其他生成模型相比,这些模型不依赖于对抗训练,并且对模型架构的限制更少。然而,他们的迭代采样过程需要大量的计算,限制了他们的实时应用。

为了解决这个问题,研究人员建议创建一致性模型,以促进高效的单步生成,同时又不牺牲迭代优化的好处。一致性模型基于连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE),可将数据分布平滑地转变为易于处理的噪声分布。所提出的模型将任何时间步长的任何点映射到轨迹的起点,从而实现自洽。

一致性模型仅通过一次网络评估即可生成数据样本,并且通过在多个时间步长链接它们的输出,可以提高样本质量。研究人员提供了两种基于增强自洽性属性来训练一致性模型的方法。第一种方法通过最小化 PF ODE 轨迹上相邻点对的模型输出之间的差异,将扩散模型提炼为一致性模型。第二种方法消除了对预训练扩散模型的需要,并允许单独训练一致性模型。

根据经验,一致性模型在各种数据集和采样步骤数量上优于渐进式蒸馏。他们分别通过一次和两次网络评估在 CIFAR-10 和 ImageNet 64^64 上实现了新的最先进的 FID。尽管无法访问预训练的扩散模型,但一致性模型实现了与单步生成的渐进式蒸馏相当的性能。此外,一致性模型可用于执行零样本数据编辑任务,例如图像去噪、插值、修复、着色、超分辨率和笔画引导图像编辑。

扩散模型

扩散模型使用高斯扰动通过顺序去噪噪声来生成数据。他们首先使用随机微分方程 (SDE) 扩散数据分布,生成概率流 (PF) ODE,其解轨迹根据数据分布分布。扩散模型也称为基于分数的生成模型,通过分数匹配训练分数模型以获得 PF ODE 的经验估计。数值 ODE 求解器用于及时向后求解经验 PF ODE,并从数据分布中获得近似样本。由于评估评分模型的计算成本,扩散模型的采样速度较慢。现有的更快采样方法包括更快的数值 ODE 求解器和蒸馏技术,但它们仍然需要许多评估步骤。渐进式蒸馏是唯一一种不需要在蒸馏前从扩散模型中提取大量样本的蒸馏方法。

什么是一致性模型?

该论文描述了“一致性模型”,这是一种新型的生成模型,它在其设计的核心支持单步生成,同时仍然允许迭代生成以进行零样本数据编辑以及样本质量和计算之间的权衡。

一致性模型是一种新型的生成模型,支持作为其设计核心的单步生成,同时仍允许迭代生成以进行零样本数据编辑以及样本质量和计算之间的权衡。主要思想是学习一个一致性函数,该函数将概率流常微分方程 (PF ODE) 的任何轨迹上的点映射到轨迹的原点。该函数具有自一致性的特性,这意味着它的输出对于属于同一 PF ODE 轨迹的任意点对是一致的。

为了实现这个想法,一致性模型被训练来强制一致性函数的自一致性属性。这可以在蒸馏模式或分离模式下完成。在前一种情况下,一致性模型将预训练扩散模型的知识提取到单步采样器中,显着提高了其他蒸馏方法的样本质量,同时允许零镜头图像编辑应用程序。在后一种情况下,一致性模型是孤立训练的,不依赖于预训练的扩散模型,使它们成为一类独立的新生成模型。

要使用训练有素的一致性模型生成样本,可以从初始分布中采样,然后评估样本的一致性模型。这仅涉及一次通过一致性模型的正向传递并在单个步骤中生成样本。还可以通过交替去噪和噪声注入步骤多次评估一致性模型,以提高样本质量。这种多步采样程序提供了以计算换取样本质量的灵活性,并且在零样本数据编辑中具有重要应用。

一致性模型支持零镜头中的各种数据编辑和操作应用程序。例如,它们可以通过遍历潜在空间轻松地在样本之间进行插值。他们还可以对各种噪声水平进行去噪,并通过使用类似于扩散模型的迭代替换过程来解决零镜头中的某些逆问题。这使得图像编辑环境中的许多应用成为可能,包括修复、着色、超分辨率和笔画引导图像编辑。

训练

近年来,生成模型以深度学习架构的形式取得了重大进展,可以对复杂的数据分布进行建模。特别是扩散模型,它使用 Fokker-Planck 方程来模拟概率密度随时间的演变,已被证明可有效地从各种数据集生成高质量样本。然而,这些模型的训练在计算上可能很昂贵并且需要大量数据。

为了解决这个问题,最近的研究集中于开发一致性模型,这些模型经过训练可以预测扩散模型生成的两个连续样本之间的差异。这些模型比扩散模型更容易、更快地训练,并且可用于通过强制一致性约束来提高扩散生成的样本的质量。

训练一致性模型的一种方法是基于蒸馏,其中使用预训练的分数模型来近似扩散模型的分数函数。得分函数是数据分布对数似然的梯度,其估计是扩散模型和一致性模型训练的关键。通过使用可以在大型数据集上进行预训练的分数模型,分数函数的估计变得更加有效。

image.png

一致性蒸馏方法涉及将预训练的分数模型代入 Fokker-Planck 方程,以获得近似概率密度随时间演变的经验方程。该方程被离散化为一组子区间,并使用 ODE 求解器计算每个时间步长的密度。生成的轨迹用于生成相邻样本对,然后用于通过蒸馏损失来训练一致性模型,该蒸馏损失最小化模型预测与地面实况差异之间的差异。

为了提高训练的稳定性,蒸馏损失是针对目标网络计算的,它是一致性模型参数的指数移动平均值。这种方法类似于深度强化学习和基于动量的对比学习中使用的方法。此外,ODE 求解器的步长在训练过程中逐渐减小,从而提高了密度估计的准确性。

一致性蒸馏的一个重要特征是它可以用于训练一致性模型而不依赖于任何预训练的扩散模型。这使得一致性模型成为一个新的独立的生成模型家族,可以从头开始训练。为了估计这种情况下的得分函数,使用了无偏蒙特卡罗估计器,它涉及生成相邻样本对并计算它们的差异。

一致性蒸馏方法的有效性已在多个数据集上得到证明,包括 CelebA-HQ 和 LSUN Church。由此产生的一致性模型已被证明可以提高扩散生成样本的质量,并且优于其他基于一致性的方法。

除了一致性蒸馏,另一种训练一致性模型的方法是基于一致性训练,它涉及直接从数据分布中估计两个相邻样本之间的差异,而不是依赖于预训练的评分模型。在这种方法中,ODE 求解器用于模拟密度随时间的演变,所得轨迹用于生成相邻样本对,然后通过一致性损失来训练一致性模型,该一致性损失最小化之间的差异模型预测和地面实况差异。

与一致性蒸馏相比,一致性训练的主要优势在于它不需要预先训练的分数模型,而这在计算上可能是昂贵的。然而,密度演变的估计在这种方法中更具挑战性,因为它需要为每对相邻样本求解 ODE。此外,所产生的一致性模型的收敛特性还没有得到很好的理解。

总的来说,一致性模型代表了一种很有前途的生成建模方法,可以提高扩散生成样本的质量,并在图像和视频合成中实现新的应用。

该论文提出了一种称为一致性建模的训练生成模型的新方法,该方法旨在加强模型生成的样本与扩散模型的输出之间的一致性。该方法基于以下观察:扩散模型可以学习消除噪声,而生成模型可以学习生成清晰的图像。通过结合这两种模型的优势,作者建议学习既敏锐又逼真的生成模型。

为了训练生成模型,作者介绍了两种算法:一致性蒸馏和一致性训练。一致性蒸馏通过最小化两个模型输出之间的差异,从预训练的扩散模型中提取生成模型。另一方面,一致性训练通过使用步长和噪声水平的自适应计划迭代改进模型,从头开始训练生成模型。

作者在几个图像数据集上评估了所提出的方法,包括 CIFAR-10、ImageNet 64x64、LSUN Bedroom 256x256 和 LSUN Cat 256x256。他们将他们的方法与几个最先进的生成模型进行了比较,并报告说他们的方法实现了更高的保真度和更清晰的图像。他们还进行消融研究,以分析各种超参数对其方法性能的影响。最后,他们展示了他们的方法在少镜头图像生成任务上的有效性,其中所提出的方法优于现有方法。

结论

总之,一致性模型是一种很有前途的生成建模方法,与现有技术相比具有多种优势,特别是在单步和少步生成领域。通过我们的实证评估,我们已经证明了我们的一致性蒸馏方法在多个图像基准和各种采样迭代上优于其他扩散模型蒸馏技术的有效性。

此外,一致性模型被证明是一个强大的独立生成模型,超过了除 GAN 之外的其他允许单步生成的可用模型。这些模型还提供零镜头图像编辑应用程序,包括修复、着色、超分辨率、去噪、插值和笔画引导图像生成。这些功能使一致性模型对现实世界的应用特别有吸引力,包括计算机视觉、数字艺术和图像编辑。

一致性模型的关键优势之一是它们能够利用与其他领域使用的技术的相似性,例如深度 Q 学习和基于动量的对比学习。随着研究人员继续探索这些模型的可能性和局限性,这为不同领域的思想和方法的交叉授粉提供了令人兴奋的前景。

然而,与任何建模技术一样,一致性模型也有局限性和需要改进的地方。例如,虽然他们擅长一步生成和几步生成,但他们可能难以生成更复杂、高分辨率的图像或视频。此外,关于这些模型的可解释性和可解释性仍然存在悬而未决的问题,这对于透明度和问责制至关重要的应用程序来说是一个重要的考虑因素。

尽管有这些限制,一致性模型的潜力是不可否认的。随着研究人员不断完善和改进这些模型,他们有可能在从计算机视觉到数字艺术等领域开启新的可能性。通过建立现有技术的优势并结合来自不同领域的新想法,一致性模型为生成建模提供了一条有希望的前进道路。

一致性模型代表了生成建模领域令人兴奋的发展,它们能够支持一步和几步生成,提供零样本图像编辑功能,并利用来自其他领域的见解。虽然仍有需要改进的地方和需要回答的问题,但这些模型的潜力是巨大而令人兴奋的,我们期待看到它们在未来几年将如何继续发展