用 MNIST 训练 Diffusion 模型的代码模仿 Stable Diffusion 3 实现的 diffusio

总览

模仿 Stable Diffusion 3 实现的 diffusion 模型，使用 MNIST 数据集进行训练。

本项目主要用于自己练习，熟悉扩散模型和流匹配模型的原理，以及模型训练过程。

训练 300 个 epoch。

训练过程与结果

主要使用了 Stable Diffusion 3 那套 DiT 的网络结构，简单来说是将用于图像生成的 UNet 换为了 Transformer 网络。

其他值得一提的细节：

训练时使用以下式子获得 $t$ 时刻的加噪图像 $x_t$ ：

x_t=\sigma_t\epsilon+(1-\sigma_t)x_0

其中 $x_0$ 为原始图像， $\sigma_t$ 为对应时间步 $t$ 的噪声占比， $\epsilon$ 为高斯噪声。

损失函数：

\mathrm{loss}=\mathrm{MSE}(x_t - \epsilon, v_t)

其中 $\epsilon$ 是从 $x_0$ 获得 $x_t$ 所使用的高斯噪声， $v_t$ 是模型预测结果。

一步采样：

x_t=x_{t-1}+(\sigma_{t-1} - \sigma_t)v_t

感谢这些文章和项目。

github.com/owenliang/m…
github.com/TongTong313…
周弈帆，“Stable Diffusion 3 论文及源码概览”，zhouyifan.net/2024/07/14/…
周弈帆，“Stable Diffusion 3「精神续作」FLUX.1 源码深度前瞻解读”，zhouyifan.net/2024/09/03/…
来自 Stability AI 团队的 Stable Diffusion，以及来自 Black Forest Labs 团队的 FLUX.1
Huggingface 的 diffusers 库：github.com/huggingface…
“Scaling Rectified Flow Transformers for High-Resolution Image Synthesis”，arxiv.org/pdf/2112.10…