Sora 技术参考文献
-- Generating Videos with Scene Dynamics
计划根据openai关于Sora介绍的参考文献,做一系列的技术介绍。
openai 关于Sora的介绍网址。 对于该文章的翻译和简介见文章
Generating Videos with Scene Dynamics
文章主要工作
文章利用大量未标记的视频数据,以便学习场景动态模型,用于视频识别任务(例如动作分类)和视频生成任务(例如未来预测)。作者提出了一种具有时空卷积架构的生成对抗网络,用于视频处理,它可以将场景的前景与背景分离。实验表明,这个模型可以生成长达一秒钟的短视频,帧率优于简单的基线模型,并且展示了它在预测静态图像可能的未来方面的实用性。此外,实验和可视化表明,该模型内部学习了有用的特征,以最少的监督来识别动作,这表明场景动态是表示学习的一个有前景的信号。生成视频模型可以影响视频理解和模拟的许多应用。
笔者总结
本文的主要贡献是展示了如何利用大量未标记的视频来获取关于场景动态的先验知识。次要贡献是开发了一个视频的生成模型。
文章的贡献点:
- 使用未标记的视频数据进行模型训练
- 提出使用GAN架构进行视频生成模型的训练
- 视频生成模型分为前景和背景的两个部分生成
最终的实验,验证了模型的效果。但是这篇文章是属于比较早了,所以生成的效果一般。
而且作者提出视频分为前景和背景生成。笔者本人认为这种方式并不是很好。因为视频没有天然的区分前景和背景,都是需要人为指定的。其次,作者认为背景是不动的,前景是在运动的,这种想法也不太符合真实情况,因为背景可能也是在变动的,只是我们人在看的时候不太关注而已。
模型
作者提出了一种基于GAN模型的生成模型。GAN模型架构主要包括生成模型和判别模型两个部分。
生成模型
生成模型负责从一个随机数向量生成视频。模型的架构如下图所示。
模型主要包括两个流。上方的蓝色是根据随机数向量生成视频桢的图像前景,即视频中运动的物体;以及一个Mask张量,负责前景和背景的融合。
下方红色的部分是根据随机数向量生成视频桢的背景。然后前景和背景通过Mask张量进行融合,从而获得最终的视频。
判别模型
作者使用一个五层的卷积神经网络,作为判别模型,判别最终的图像,是由模型生成的,还是真实的图象。