大家好,这里是好评笔记,本文为试读,查看全文请移步公主号:Goodnote。本文详细介绍Transformer架构图像生成方面的应用,将Diffusion和Transformer结合起来的模型:DiT。目前DiT已经成为了AIGC时代的新宠儿,视频和图像生成不可缺少的一部分。
@[toc]
论文
Scalable Diffusion Models with Transformers
定义
DiT是基于Transformer架构的扩散模型。用于各种图像(SD3、FLUX等)和视频(Sora等)生成任务。
DiT证明了Transformer思想与扩散模型结合的有效性,并且还验证了Transformer架构在扩散模型上具备较强的Scaling能力,在稳步增大DiT模型参数量与增强数据质量时,DiT的生成性能稳步提升。
其中最大的DiT-XL/2模型在ImageNet 256x256的类别条件生成上达到了当时的SOTA【最先进的(State Of The Art)】(FID为2.27)性能。同时在SD3和FLUX.1中也说明了较强的Scaling能力。
架构
DiT架构如下所示:
图3.扩散Transformer(DiT)架构。左:我们训练条件潜在DiT模型。输入的潜在被分解成补丁和处理的几个DiT块。右图:DiT区块的详细信息。我们用标准Transformer块的变体进行了实验,这些块通过自适应层归一化、交叉注意和额外输入的令牌(上下文环境) 来进行调节,其中自适应层规范效果最好。
- 左侧主要架构图:训练条件潜在DiT模型(conditional latent DiT models), 潜在输入和条件被分解成patch并结合条件信息通过几个DiT blocks处理。本质就是噪声图片减掉预测的噪声以实现逐步复原。
- DiT blocks前: 比如当输入是一张256x256x3的图片,得到32x32x4的Noised Latent,之后进行Patch和位置编码,结合当前的Timestep t、Label y作为输入。
详细全文请移步公主号:Goodnote。