计算机视觉论文 :去噪扩散概率模型

219 阅读5分钟

生成模型是人工智能研究的一个重要领域,它专注于生成模拟真实世界数据特征的合成数据。生成模型的最新进展使其成为机器学习中最强大的工具之一。

最流行和最成功的生成建模方法之一就是使用扩散模型。这些模型由于能够合成高质量的数据而受到广泛关注,即使在复杂的场景中也是如此。

扩散模型令人印象深刻的性能可归因于它们使用简单扩散过程对复杂分布建模的能力。最新和最先进的扩散模型,例如去噪扩散概率模型,在扩展扩散模型的能力方面取得了重大进展。这些模型已广泛用于各种应用,包括图像生成、语音合成和自然语言处理。

Denoising Diffusion Probabilistic Model 特别是一种强大的图像去噪技术,并在各种现实场景中表现出出色的性能。它的成功可以归功于它能够同时对底层噪声分布和图像数据分布进行建模。总的来说,扩散模型,尤其是去噪扩散概率模型,代表了生成建模的重大突破,具有广泛应用的巨大潜力。

下面显示了我自己和其他人的一些特殊生成结果。和自然语言处理。

image.png 提示:**一座用集装箱建造的城市。夜晚、数字艺术、复古未来主义和赛博朋克

image.png

提示:高耸的摩天大楼、熙熙攘攘的街道和五颜六色的灯光,充满活力和活力的城市景观

image.png

提示:创建一张 1920x1080 的幻灯片,背景为白色。将显示图表的笔记本电脑图像放在幻灯片中间,周围环绕着植物和咖啡杯。图像应缩放以适合幻灯片。

背景

扩散模型是扩散概率模型的缩写,是一种强大的机器学习技术,涉及使用变分推理训练参数化马尔可夫链。该模型的目标是在有限的时间后生成与现实世界数据分布相匹配的合成数据。该模型通过学习可以逆转扩散过程的转换来实现这一点,扩散过程是一种马尔可夫链,它逐渐向相反采样方向的数据添加噪声,直到信号被破坏。简而言之,扩散模型的工作原理是逐渐从数据中去除噪声,直到它类似于真实世界的数据。

为了使这个过程有效,必须仔细选择采样链的转换。当扩散过程涉及少量高斯噪声时,将采样链的转换设置为条件高斯就足够了。这允许简单的神经网络参数化,可以有效地模拟数据分布。通过仔细选择这些转换并使用变分推理,扩散模型可以生成与现实世界数据分布非常匹配的高质量合成数据。

总的来说,扩散模型是一种很有前途的生成建模技术,在广泛的领域具有潜在的应用,包括图像和语音合成、自然语言处理等。他们使用简单的扩散过程对复杂分布进行建模的能力使他们成为机器学习未来令人兴奋的研究领域。整体图如下所示。

image.png

本文考虑的有向图模型

方法

逆向处理

扩散模型是如下形式的潜在变量模型,其中 x_1, …. , x_T 是潜在变量。下式所示的联合分布称为“逆过程”,它被定义为具有学习高斯转换的马尔可夫链:

image.png

正向过程(扩散过程)

反向过程的相反方向可以被认为是如下所示的近似后验,固定到马尔可夫链,该马尔可夫链根据方差时间表 β_1 ,逐渐将高斯噪声添加到数据中。. . , β_T :

image.png

培训目标

训练是通过优化负对数似然的通常变分界限来进行的:

image.png

β 可以通过重新参数化技巧或保持不变来学习。正向过程的一个显着特性是它允许在任意时间步 t 以封闭形式对 x_t 进行采样:

image.png

通过使用随机梯度下降优化 L 的随机项,可以有效地训练模型。此外,模型的性能可以通过实施方差减少技术进一步提高,这涉及重写 L.

image.png

上式使用 KL-divergence 直接比较 pθ 与前向后验,在训练过程中易于处理,条件为:

image.png

因此,所有 KL 散度都是高斯分布之间的比较,因此可以使用封闭形式表达式而不是高方差蒙特卡罗估计以 Rao-Blackwellized 方式计算它们。

正向过程和 L_T

在本文中,他们忽略了正向过程方差 βt 可通过重新参数化学习这一事实,而是将它们固定为常数。

逆向处理和 L_{1:T-1}

让我们回忆一下高斯分布的逆向过程 p_θ 的选择。为了表示均值,作者提出了一种特定的参数化,其动机是对 L_t 进行以下分析。通过以下交替:

image.png

我们可以写:

image.png

因此,我们看到 μ_θ 最直接的参数化是预测 μ_t 的模型,它是前向后验均值。

image.png

在本文中,他们没有预测训练样本的均值,而是选择预测具有上述类似动机的添加噪声。如果你想了解更多关于它的细节,请耐心和时间参考原始论文。本文使用的最终目标如下所示:

image.png

结论

在这篇论文中,我只提到了论文的一些核心思想,包括正向过程和反向过程。然而,扩散模型背后的机制相当复杂。我希望这篇文章可以帮助您轻松了解 Diffusion 模型的全貌。