OpenAI 的视频生成模型 Sora 被捧上天，但他们自己说还有这几个缺陷过年期间是不是被 OpenAI 的 Sora

过年期间是不是被 OpenAI 的 Sora 刷屏了？但这些短视频都是在捧，信息量有限。不如跟着魔法哥去它的官网，看 OpenAI 自己怎么说。

缺陷

OpenAI 描述了目前 Sora 模型的缺陷：

“它可能难以模拟复杂场景的物理行为，并且可能无法理解特定的因果关系。例如，一个人咬了一口饼干之后，饼干上可能并没有留下咬痕。”

“模型也可能混淆提示词中的空间细节，例如混淆左右。此外，在处理随时间发生的事件时可能遇到困难，比如跟随特定的摄像机轨迹等。”

以下案例摘自 Sora 官网。

提示词：一个人奔跑的场景，Step-printing 风格，35 毫米电影拍摄。

缺陷：Sora 有时会创造出在生理上不太合理的动作。（奔跑方向反了，手脚动作节奏不合理。）

提示词：五只灰狼幼崽在偏远的碎石路上嬉戏追逐，周围是长满草的景象。幼崽们奔跑跳跃，相互追逐、咬来咬去，玩耍。

缺陷：动物或人物可能会无规律地出现，尤其是在包含大量实体的场景中。（狼崽凭空分裂出现，又合并消失。）

提示词：篮球穿过篮筐然后爆炸。

缺陷：不准确的物理建模和不自然的物体形状变化。（篮球不自然地穿过篮网，凭空出现，与篮框发生 “穿模”。）

提示词：考古学家在沙漠中发现了一把普通的塑料椅子，他们非常小心地进行挖掘和清洁。

缺陷：Sora 未能将椅子建模为刚性物体，导致了不准确的物理交互。（椅子飘动、分裂、变形。）

提示词：一位梳理整洁的银发奶奶站在木制餐桌后面，桌上放着一个彩色生日蛋糕，上面插满了蜡烛……她俯身轻轻吹灭蜡烛……奶奶穿着印有花纹的浅蓝色衬衫，可以看到几位坐在桌旁庆祝的快乐朋友和家人……

缺陷：Sora 目前还很难正确模拟物体和多个角色之间的复杂互动，有时会产生滑稽的结果。（蜡烛火焰方向奇怪，吹气后蜡烛无反应，背景人物动作不自然等。）

观察官网上的其他演示，我们还可以发现诸如 “行走时脚在地面滑动”、“人物眼神不自然”、“人物表情略有恐怖谷效应” 等现象。

不过这都是 Sora 的 “越级” 能力所暴露出来的问题。当下同一赛道的其他产品还无法生成自由度如此之高的视频。

Sora 目前还处在内测阶段，还没有正式开放。OpenAI 目前只面向安全领域和创作领域的部分专家开放、征询意见。如果现在有人说可以帮你开通 Sora 账号，那一定是骗子。
Sora 生成的视频中会嵌入 C2PA 元数据。DALL·E 3 在生成图片时也会这样做。（C2PA 是一项开放的技术标准，用于在媒体文件中嵌入元数据，以验证其来源和相关信息。它不仅适用于 AI 生成的图像，也被相机制造商和新闻机构广泛采用。）
Sora 是一个扩散模型。它从一个看起来像静态噪音的视频开始，然后逐步通过多个步骤去除噪音，最终生成视频。（这里的 “扩散”，就是 Stable Diffusion 中的 “diffusion”。）
Sora 采用 Transformer 架构。（这里的 “Transformer”，就是 GPT 中的 “T”。）
除了 “文生视频” 以外，Sora 还具有 “图生视频”、对现有视频进行前后延长和衔接过渡的能力。
OpenAI 认为，Sora 可以作为理解和模拟现实世界的基础模型。他们相信这种能力将是实现 AGI 的重要里程碑。
在 Sora 的贡献者名单中，可以看到多个华人姓氏和全名。
“Sora” 这个名字来源于日语，意为 “天空”。因此这个单词原本的发音应该是 ['sɔːrɑː]。不过在英文语境中，它往往发音为 ['səʊrə]。