Sora 是 OpenAI 于 2024 年 2 月发布的文本到视频生成式 AI 模型。其综述《Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models》已经开源。俗话说得好,了解一个领域最好的方法就是读它的综述,下面,本文将带领大家了解火爆AI圈的Sora模型的底层技术。
原理介绍
Sora可以从文本提示生成逼真或富有想象力的场景视频。与以前的视频生成模型相比,Sora 的特点是能够制作长达 1 分钟的高质量视频。这涉及开发人工智能模型,这些模型不仅能够解释复杂的用户指令,而且还能够应用这种理解通过动态和上下文丰富的模拟来解决现实世界的问题。
上图展示了Sora从文本到视频的实例,首先向Sora模型提供一系列文本指令,Sora模型将解析这些文本指令,生成详细的场景,其中包括多个角色,这些角色在复杂的背景下执行特定操作。
Sora核心技术
Sora的核心是一个预先训练的扩散变压器,具有灵活的采样尺寸,如图4所示。它分为三个部分:
- 时空压缩器首先将原始视频映射到潜在空间中。
- 然后,ViT 处理标记化的潜在表示并输出去噪的潜在表示。
- 类似CLIP的条件反射机制接收LLM增强的用户指令和潜在的视觉提示,以指导扩散模型生成样式或主题的视频。经过多次降噪得到生成的视频的潜在表示,然后用相应的解码器映射回像素空间。
实际上,传入Sora模型并进行训练还需要许多繁杂的步骤:数据预处理-->建模-->语言指令-->解码指令,一个好的AI生成视频,需要非常繁杂的数据处理工作,对其感兴趣的可以阅读综述,谢谢观看。