OpenAI 大杀四方，Sora 彻底革了视频的命太叹为观止了！再一次刷新认知！当春节值班写稿子的笔者还在为 GPT-

太叹为观止了！再一次刷新认知！

当春节值班写稿子的笔者还在为 GPT-4 真香而疯狂打 call 之时，OpenAI 发布了全新的 Sora 以其极强的视频生成之力大杀四方，看着 OpenAI 官方发布的各种视频效果，真的太震撼了！Sora 一出，现有的视频生成顿时黯然失色。行走在大模型前线的周鸿祎就评价「Sora 意味着 AGI 实现将从 10 年缩短到 1 年」。

Sora 生成的春节舞龙视频

用 OpenAI 官方的话来说，Sora 实现了对物理世界极强的模拟能力。“Sora 具备生成高保真度、长达一分钟视频的能力。我们的研究成果表明，发展视频生成模型是向着打造全方位模拟物理世界的通用工具迈出的一大步。”

当我问好搭档 GPT-4 怎么看待 Sora 的发布时，它将其称为文本变视频的「AI 魔法」，它这样说道：

“Sora 作为 OpenAI 最新发布的视频生成模型，展现出了巨大的潜力和一系列令人印象深刻的能力，尤其是在视频内容的生成和模拟方面。以下是对 Sora 的几点评价：

技术突破：Sora 通过处理不同时长、分辨率和宽高比的视频和图像，展现了强大的通用性和适应性。这标志着在视频生成领域的一大技术进步，尤其是通过联合训练文本条件扩散模型和利用变换器架构来操作视频和图像的时空补丁。

创新的表示方法：将视频转化为时空补丁的方法，借鉴了大型语言模型处理多样化文本的技术，为视频和图像内容的生成提供了一个高度可扩展和有效的表示。这种方法的成功应用可能会对未来的视觉数据处理模型产生深远影响。

多功能性和灵活性：Sora 能够生成不仅限于特定格式或尺寸的视频，还能够基于文本提示进行定制化内容创作。这一点对于适应不同的展示平台和内容需求至关重要，显示了模型在实际应用中的广泛适用性。

模拟能力的探索：Sora 在模拟物理世界和数字世界，以及其中的人类、动物和环境方面显示出了初步的能力。这些能力的探索不仅为视频生成技术的应用开辟了新的可能性，也为未来通过增强现实和虚拟现实技术创造更加丰富和互动的体验奠定了基础。

挑战和局限性：虽然 Sora 的能力令人印象深刻，但它也面临着诸如模拟物理互动准确性、长时间视频的连贯性和对象持久性等挑战。这些局限性突显了继续发展和优化视频生成模型的重要性，以及在模拟复杂世界互动方面需要进一步研究和创新的地方。

总的来说，Sora 的推出不仅展示了 OpenAI 在人工智能和深度学习领域的持续创新和领导地位，也为未来的多媒体内容创作、游戏开发、虚拟现实等领域提供了新的工具和可能性。随着技术的进一步发展和优化，我们可以期待 Sora 和类似模型将如何重新定义我们与数字世界的互动方式。”

一如 ChatGPT 发布之时那般，OpenAI 也公布了 Sora 详细的技术报告，接下来让我们一起来看，Sora 的神奇效果是如何实现的。

以下内容经由 GPT-4 熟读报告后输出：

本技术报告着重介绍了两个方面：（1）我们如何将各类视觉数据转化为统一的形式，以便于生成模型的大规模训练；（2）对 Sora 模型的能力及其局限性进行了定性分析。报告中未涉及具体的模型和实现细节。

以往的研究主要通过各种技术手段对视频数据进行生成建模，包括循环网络、对抗生成网络、自回归变换器和扩散模型等。这些研究往往限定在特定类别的视觉数据、较短视频或固定尺寸的视频上。与之不同，Sora 是一款通用的视觉数据模型，能够生成覆盖广泛时长、宽高比和分辨率的视频和图片，甚至达到一分钟的高清视频。

视觉数据的补丁化处理

我们从大规模语言模型的训练中得到启示，这些模型通过处理互联网规模的数据来获得通用能力。类似地，我们探讨了如何让视觉数据生成模型享受到相似的好处。如果说大型语言模型处理的是文本令牌，那么 Sora 处理的就是视觉补丁。过去的研究已经证明，补丁是一种对视觉数据建模非常有效的表示形式。我们发现，补丁不仅可扩展性强，而且对于训练多种类型的视频和图片而言，是一种非常有效的表示方法。

我们通过首先将视频压缩到低维的潜在空间，然后将其分解为时空补丁的方式，将视频转换为补丁。

视频压缩网络

我们开发了一个能够降低视觉数据维度的网络。该网络能够接收原始视频作为输入，并输出在时间和空间上都进行了压缩的潜在表示。Sora 在这个压缩后的潜在空间中接受训练，并据此生成视频。同时，我们也开发了一个相应的解码器模型，能够将生成的潜在表示转换回像素空间。

时空潜在补丁

对于压缩后的输入视频，我们提取一系列时空补丁，它们作为变换器的令牌使用。这种方案同样适用于图像，因为图像可以被视为只有单帧的视频。基于补丁的表示法使得 Sora 能够处理不同分辨率、时长和宽高比的视频和图像。在推理时，我们可以通过合理安排随机初始化的补丁在一个网格中，来控制生成视频的尺寸。

扩展变换器以生成视频

Sora 采用扩散模型的形式，它能够根据输入的噪声补丁（以及如文本提示等条件信息）预测出原始的“干净”补丁。值得注意的是，Sora 是一种扩散变换器，变换器技术已经在多个领域展现出了卓越的扩展性，包括语言建模、计算机视觉及图像生成。

本研究发现，扩散变换器同样可以有效地应用于视频模型。我们展示了训练过程中固定输入和种子下视频样本质量的显著提升，随着训练计算量的增加，样本质量有了明显的提高。 ————————————————