多模态论文笔记——U-ViT本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来

大家好，这里是好评笔记，本文为试读，查看全文请移步公主号：Goodnote。本文详细介绍U-ViT的模型架构和实验细节，虽然没有后续的DiT在AIGC领域火爆，但为后来的研究奠定了基础，但其开创性的探索值得学习。

@[toc]

在前面的多模态系列文章中，我们介绍了DiT，其作为AIGC时代的新宠儿，将Transformer和Diffusion结合起来的，是近几年图像和视频生成的领域的优选结构。其实早在2022年9月，清华大学团队就发布了用「基于Transformer的架构U-ViT」替代基于卷积架构的U-Net，只不过没有现在的DiT火热。下面详细介绍U-ViT：

论文

All are Worth Words: A ViT Backbone for Diffusion Models

背景

扩散模型是一种强大的深度生成模型，近年来在高质量图像生成任务中展现了巨大的潜力。它们的发展速度迅猛，广泛应用于文本到图像生成、图像到图像生成、视频生成、语音合成以及3D合成等领域。

在目前的扩散模型中，骨干(backbones)结构的变革在扩散模型中起着核心作用。目前火热的扩散模型，如SD系列模型就是基于CNN的U-Net的，并取得了优异的性能。它通过下采样（encoding）和上采样（decoding）操作，结合跳跃连接，在捕捉局部细节和全局结构方面表现突出。

在SD 3 之前的扩散模型使用的是以基于CNN的U-Net为骨干结构的，在SD 3 之后的系列中，则是使用了DiT作为了骨干结构。扩散模型系列参考：SD合集

将视觉和Transformer相结合的 ViT 在各种视觉任务中显现出了前景，而基于CNN的U-Net在扩散模型中仍占主导地位。本文中设计了一个简单而通用的基于ViT的架构(U-ViT)，替代扩散模型中的U-Net，用于生成图像。

ViT参考：多模态论文笔记——ViT、ViLT

设计一个基于其他架构（如ViT）的模型，要在性能上达到甚至超越U-Net并不容易。
ViT作为Transformer家族的一员，擅长处理全局特征，但其对局部细节的捕捉能力不如CNN。因此，直接用ViT替代U-Net并不现实。

U-ViT 核心设计如下：

U-ViT是基于ViT（Vision Transformer）架构的，它借鉴了U-Net的结构，用于替代扩散模型中的基于 CNN 的 U-Net，以生成图像。
它将时间、条件和噪声图像补丁作为 token 输入，并使用**长跳跃连接（long skip connections）**连接浅层和深层。

效果：

在无条件、类条件图像生成和文本到图像生成任务中，U-ViT表现出色。

研究表明，长跳跃连接对于扩散模型中的图像建模至关重要，而 CNN-based U-Net 中的下采样和上采样操作并非总是必需的。

架构

本文中，作者设计的U-ViT架构，如下图所示：在这里插入图片描述

图1. 用于扩散模型的U-ViT架构，其特点是将所有输入（包括时间、条件和噪声图像补丁）作为token，并在浅层和深层之间采用(#Blocks-1)/2个长跳跃连接。

详细全文请移步公主号：Goodnote。

参考：欢迎来到好评笔记（Goodnote）！