Sora 技术参考文献
-- Generating long videos of dynamic scenes
计划根据openai关于Sora介绍的参考文献,做一系列的技术介绍。
openai 关于Sora的介绍网址。 对于该文章的翻译和简介见文章
Nüwa: Visual synthesis pre-training for neural visual world creation
文章主要内容
可以实现文本到图像的转化、由草图直接生成图像、缺失图像补全、还能直接在原图像上进行创作
论文提出了一个统一的多模态预训练模型,称为N̈UWA,可以为各种视觉合成任务生成新的或操作现有的视觉数据(即图像和视频)。
为了在不同的场景下同时涵盖语言、图像和视频,设计了一种三维transformer编解码解码器框架,该框架既能将视频处理为三维数据,又能将文本和图像分别处理为一维和二维数据。
此外,还提出了一种 3D nearby attention(3DNA) 机制,以考虑视觉数据的性质,降低计算复杂度。
本文介绍了一个统一的多模态预训练模型,名为NÜWA,它能够生成新的视觉数据或操作现有的视觉数据(即图像和视频),以完成各种视觉合成任务。为了同时涵盖不同场景下的语言、图像和视频,设计了一个3D变换器编码器-解码器框架,该框架不仅可以将视频作为3D数据处理,还可以分别适应作为1D和2D数据的文本和图像。还提出了一个3D邻近注意力(3DNA)机制,以考虑视觉数据的特性并降低计算复杂性。我们在8个下游任务上评估了NÜWA。与几个强基线相比,NÜWA在文本到图像生成、文本到视频生成、视频预测等方面取得了最先进的结果。此外,它在文本引导的图像和视频操作任务上也表现出惊人的零样本能力。
笔者总结
作者的贡献主要在于
- 提出了女娲模型,3D的编码解码架构,涵盖了语言、图像、视频。
- 设计了3D Nearby Attention机制。
笔者总结:
-
该文章提出的编码解码架构能够整合起来语言、图像和视频信息。这能够利用更多的训练数据进行模型训练。
-
3DNA 注意力机制只对附近的Token进行注意力机制,说是可以减少计算量。实际上,有两个问题。1)如果是自注意力部分还好,如果是文本和图像进行交叉注意力机制,文本和图像并没有物理和时间上的局部对应关系。2) 计算位置映射,即ijk的时候,需要额外的计算量,而且对于显存的访问需要精细设计,否则可能存在显存的大量读写;编写相应的代码要求也较高,并不一定是十分有效的设计。
实验部分的思考(不是针对该篇文章):
实验结果展示了很多生成的结果,效果也比其他方法好很多。但是这种展示个例的实验对比方法,本身存在一些问题。
实验结果如何保证公平?有可能的一种情况是: 对比方法的结果随机选的,而论文提出的方法的结果是精心选择的。那就失去了实验对比的公平性。
模型
整体算法逻辑如上图所示
- 首先将不同模态数据统一为3D数据
- 将数据输入到一个编码-解码网络
- 编码和解码过程是迭代多层3DNA模块而形成的
- 输出指定模态类型的输出数据
3D Data Representation
为所有文字、图片和视频或草图,定义一个统一的3 d 表示 ,h和w分别表示空间中高度和宽度,s表示时间轴上的维度,和d为通道数。
文本可以编码为
图像可以编码为
视频可以编码为,表示视频帧数
3D Nearby Self-Attention
3DNA模块,支持自注意和交叉注意 (这个地方的符号表示不太好,3DNA容易让人觉得是 3*DNA)
其中,
如果 ,那么计算的自注意力
如果,那么计算和的交叉注意力
表示可学习权重
在𝑋上的一点,对应𝐶上的点,=
𝐶上点的一个特定尺寸的局部区域
那么3DNA可以表示为
这样𝑋中点(𝑖,𝑗,𝑘)提出queries,并收集𝐶的局部领域信息
该注意力机制的创新点是nearby
3D Encoder-Decoder
目标:为了在𝐶的条件下生成目标𝑌
-
将𝐶输入到𝐿层3DNA模块(解码器),
-
类似地,解码器也是一个𝐿个3DNA层的堆栈。解码器计算生成结果的自注意力和生成结果与条件之间的交叉注意。第l层表示为:
初始是一个可训练的token
Training Objective
以文本到图像(T2I)、视频预测(V2V)和文本到视频(T2V)三个任务来训练模型。这三个任务的训练目标是交叉熵