Sora 技术参考文献

-- Generating long videos of dynamic scenes

计划根据openai关于Sora介绍的参考文献，做一系列的技术介绍。

openai 关于Sora的介绍网址。对于该文章的翻译和简介见文章

Nüwa: Visual synthesis pre-training for neural visual world creation

论文链接

文章主要内容

可以实现文本到图像的转化、由草图直接生成图像、缺失图像补全、还能直接在原图像上进行创作

论文提出了一个统一的多模态预训练模型，称为N̈UWA，可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。

为了在不同的场景下同时涵盖语言、图像和视频，设计了一种三维transformer编解码解码器框架，该框架既能将视频处理为三维数据，又能将文本和图像分别处理为一维和二维数据。

此外，还提出了一种 3D nearby attention(3DNA) 机制，以考虑视觉数据的性质，降低计算复杂度。

本文介绍了一个统一的多模态预训练模型，名为NÜWA，它能够生成新的视觉数据或操作现有的视觉数据（即图像和视频），以完成各种视觉合成任务。为了同时涵盖不同场景下的语言、图像和视频，设计了一个3D变换器编码器-解码器框架，该框架不仅可以将视频作为3D数据处理，还可以分别适应作为1D和2D数据的文本和图像。还提出了一个3D邻近注意力（3DNA）机制，以考虑视觉数据的特性并降低计算复杂性。我们在8个下游任务上评估了NÜWA。与几个强基线相比，NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外，它在文本引导的图像和视频操作任务上也表现出惊人的零样本能力。

笔者总结

作者的贡献主要在于

提出了女娲模型，3D的编码解码架构，涵盖了语言、图像、视频。
设计了3D Nearby Attention机制。

笔者总结：

该文章提出的编码解码架构能够整合起来语言、图像和视频信息。这能够利用更多的训练数据进行模型训练。
3DNA 注意力机制只对附近的Token进行注意力机制，说是可以减少计算量。实际上，有两个问题。1）如果是自注意力部分还好，如果是文本和图像进行交叉注意力机制，文本和图像并没有物理和时间上的局部对应关系。2）计算位置映射，即ijk的时候，需要额外的计算量，而且对于显存的访问需要精细设计，否则可能存在显存的大量读写；编写相应的代码要求也较高，并不一定是十分有效的设计。

实验部分的思考（不是针对该篇文章）：

实验结果展示了很多生成的结果，效果也比其他方法好很多。但是这种展示个例的实验对比方法，本身存在一些问题。

实验结果如何保证公平？有可能的一种情况是：对比方法的结果随机选的，而论文提出的方法的结果是精心选择的。那就失去了实验对比的公平性。

模型

整体算法逻辑如上图所示

首先将不同模态数据统一为3D数据
将数据输入到一个编码-解码网络
编码和解码过程是迭代多层3DNA模块而形成的
输出指定模态类型的输出数据

3D Data Representation

为所有文字、图片和视频或草图，定义一个统一的3 d 表示 $𝑋∈𝑅^{ℎ×𝑤×𝑠×𝑑}$ ，h和w分别表示空间中高度和宽度，s表示时间轴上的维度，和d为通道数。

文本可以编码为 $𝑅^{1×1×𝑠×𝑑}$

图像可以编码为 $𝑅^{ℎ×𝑤×1×𝑑}$

视频可以编码为 $𝑅^{ℎ×𝑤×𝑠×𝑑}$ ， $s$ 表示视频帧数

3D Nearby Self-Attention

3DNA模块，支持自注意和交叉注意 (这个地方的符号表示不太好，3DNA容易让人觉得是 3*DNA)

$𝑌=3𝐷𝑁𝐴(𝑋,𝐶;𝑊)$

其中， $𝑋∈𝑅^{ℎ×𝑤×𝑠×𝑑_{𝑖𝑛}}$

$𝐶∈𝑅^{ℎ'×𝑤'×𝑠'×𝑑_{𝑖𝑛}}$

如果 $𝐶=𝑋$ ，那么 $3DNA$ 计算 $𝑋$ 的自注意力

如果 $𝐶≠𝑋$ ，那么 $3DNA$ 计算 $𝑋$ 和 $𝐶$ 的交叉注意力

$𝑊$ 表示可学习权重

在𝑋上的一点 $(i, j, k)$ ，对应𝐶上的点 $(𝑖',𝑗',𝑘')$ ， $(𝑖',𝑗',𝑘')$ = $(⌊𝑖\frac{ℎ'}{ℎ}⌋,⌊𝑗\frac{𝑤'}{𝑤}⌋,⌊𝑘\frac{𝑠'}{𝑠}⌋)$

𝐶上点 $(𝑖',𝑗',𝑘')$ 的一个特定尺寸 $𝑒^𝑤,𝑒^ℎ,𝑒^𝑠$ 的局部区域 $𝑁(𝑖,𝑗,𝑘)∈𝑅^{𝑒^ℎ×𝑒^𝑤×𝑒^𝑠×𝑑_{𝑖𝑛}}$

那么3DNA可以表示为

$𝑄^{(𝑖,𝑗,𝑘)}=𝑋𝑊^𝑄$

$𝐾^{(𝑖,𝑗,𝑘)}=𝑁^{(𝑖,𝑗,𝑘)}𝑊^𝐾$

$𝑉^{(𝑖,𝑗,𝑘)}=𝑁^{(𝑖,𝑗,𝑘)}𝑊^𝑉$

$𝑦_{𝑖𝑗𝑘}=softmax⁡(\frac{(𝑄^{(𝑖,𝑗,𝑘)})^⊤𝐾^{(𝑖,𝑗,𝑘)}}{\sqrt{𝑑^{𝑖𝑛}}})V^{(𝑖,𝑗,𝑘)}$

这样𝑋中点(𝑖,𝑗,𝑘)提出queries，并收集𝐶的局部领域信息

该注意力机制的创新点是nearby

3D Encoder-Decoder

目标：为了在𝐶的条件下生成目标𝑌

将𝐶输入到𝐿层3DNA模块（解码器）， $𝐶(𝑙)=3𝐷𝑁𝐴(𝐶^{(𝑙−1)},𝐶^{(𝑙−1)})$
类似地，解码器也是一个𝐿个3DNA层的堆栈。解码器计算生成结果的自注意力和生成结果与条件之间的交叉注意。第l层表示为:

初始 $𝑉_{0,0,0}^{(1)}$ 是一个可训练的token

Training Objective

以文本到图像(T2I)、视频预测(V2V)和文本到视频(T2V)三个任务来训练模型。这三个任务的训练目标是交叉熵

Sora 文献 （9）Nüwa: Visual synthesis pre-training for neural visual world creation