Sora 文献 (10)Imagen video: High definition video generation with diffusion models

261 阅读5分钟

Sora 技术参考文献

-- Generating long videos of dynamic scenes

计划根据openai关于Sora介绍的参考文献,做一系列的技术介绍。

openai 关于Sora的介绍网址。 对于该文章的翻译和简介见文章

Imagen video: High definition video generation with diffusion models

论文链接

文章主要内容

本文提出了Imagen Video,是一款基于视频扩散模型级联的文本条件视频生成系统。给定一个文本提示,Imagen Video主要架构包含了T5文本编码器,一个基础视频扩散模型,以及交错空间和时间超分辨率扩散模型。将64帧128128的视频扩展为128帧1280768的视频,每秒24帧播放。

Imagen Video不仅能够生成高保真度的视频,而且具有高度的可控性和世界知识,包括生成各种艺术风格和具有3D对象理解的多样化视频和文本动画的能力。

image.png

笔者总结

作者的贡献主要在于:

在这项工作中,Imagen Video能够生成具有高帧保真度、强时间一致性和深度语言理解的高清视频。Imagen Video从先前64帧128×128视频以每秒24帧扩展到128帧1280×768高清视频,每秒24帧。Imagen Video具有简单的架构:模型由一个冻结的T5文本编码器、一个基础视频扩散模型以及交错的空间和时间超分辨率扩散模型组成。主要贡献如下:

  1. 展示了级联扩散视频模型在高清视频生成中的简单性和有效性。
  2. 确认了文本到图像设置中的近期发现可以转移到视频生成中,例如冻结编码器文本条件的有效性和无分类器引导的有效性。
  3. 展示了对视频扩散模型的新发现,这些发现对扩散模型在一般情况下都有意义,例如v-预测参数化对样本质量的有效性,以及对引导扩散模型进行渐进式蒸馏对文本条件视频生成设置的有效性。
  4. 展示了Imagen Video中的定性可控性,例如3D对象理解、文本动画生成以及各种艺术风格的视频生成。

笔者总结:

  • 级联模型架构的设计,可以使得每个小模型可以分别训练,每个模型都可以保持很简单。
  • 先对于文本,使用语言模型进行压缩成向量表示,可以将语义转换成向量。
  • 开始生成的视频是小size的,而且帧率较小的,可以在保留文本语义的同时,减少计算量
  • 生成视频的时候,分开使用空间注意力和时间注意力,也是减少计算量的操作
  • 后续使用空间超分和时间上的超分,扩充视频size和帧率,这样能够保证画面的连续性的同时,提升画面清晰度

缺陷:

  • 级联的设计,可以使得每个模型单独训练,但是模型没有进行端到端的良好训练,可能会产生误差的累积效应,降低整体的生成效果。现在Sora应该是进行端到端的训练
  • 分模型的训练,可能导致整体的参数比端到端的模型参数量更多
  • 级联的模型生成视频的速度不会很快。因为需要串联执行各个模型
  • 级联的模型无法共享一些中间表示,例如在两个空间超分的模型上,前一个超分模型生成的是图片,图片进入第二个超分模型,在第二个超分模型,还需要重新将图片编码成latent vector,增加了很多计算量。一个相似的例子是Faster CNN在目标检测的任务中,就是共享了这些高层的latent vector 使得计算量大大减少。

模型

Imagen Video,是一个视频扩散模型的级联。它由7个子模型组成,这些子模型执行文本条件视频生成、空间超分辨率和时间超分辨率。通过整个级联,Imagen Video以每秒24帧的速度生成1280×768(宽度×高度)的高清视频,共128帧(约5.3秒)——大约1.26亿像素。

image.png

图: 级联采样流程从文本提示输入开始,生成一个5.3秒、1280×768分辨率、24帧每秒的视频。"SSR"和"TSR"分别表示空间和时间超分辨率,视频以帧数×宽度×高度进行标记。在实践中,文本嵌入被注入到所有模型中,而不仅仅是基础模型。

框架包含一个冻结的文本编码器,一个基本的视频扩散模型,3个SSR(空间超分)和3个TSR(时间超分)模型。SSR增加所有帧的空间分辨率,TSR通过填充帧增加时间分辨率。 每个扩散模型可以独立训练。 这里使用时间卷积,而不是时间注意力

工作建立于U-Net上,利用视频扩散模型同时对多个视频帧进行操作,一次生成整个视频帧块

image.png

图:Video U-Net 模块。空间操作在帧上独立执行,共享参数,而时间操作则在帧之间混合帧的表示。基础模型使用空间卷积、空间自注意力和时间自注意力。为了内存效率,空间和时间超分辨率模型使用时间卷积而不是注意力,并且最高空间分辨率的模型没有空间注意力。