过年期间是不是被 OpenAI 的 Sora 刷屏了?但这些短视频都是在捧,信息量有限。不如跟着魔法哥去它的官网,看 OpenAI 自己怎么说。
缺陷
OpenAI 描述了目前 Sora 模型的缺陷:
“它可能难以模拟复杂场景的物理行为,并且可能无法理解特定的因果关系。例如,一个人咬了一口饼干之后,饼干上可能并没有留下咬痕。”
“模型也可能混淆提示词中的空间细节,例如混淆左右。此外,在处理随时间发生的事件时可能遇到困难,比如跟随特定的摄像机轨迹等。”
以下案例摘自 Sora 官网。
案例一
提示词:一个人奔跑的场景,Step-printing 风格,35 毫米电影拍摄。
缺陷:Sora 有时会创造出在生理上不太合理的动作。(奔跑方向反了,手脚动作节奏不合理。)
案例二
提示词:五只灰狼幼崽在偏远的碎石路上嬉戏追逐,周围是长满草的景象。幼崽们奔跑跳跃,相互追逐、咬来咬去,玩耍。
缺陷:动物或人物可能会无规律地出现,尤其是在包含大量实体的场景中。(狼崽凭空分裂出现,又合并消失。)
案例三
提示词:篮球穿过篮筐然后爆炸。
缺陷:不准确的物理建模和不自然的物体形状变化。(篮球不自然地穿过篮网,凭空出现,与篮框发生 “穿模”。)
案例四
提示词:考古学家在沙漠中发现了一把普通的塑料椅子,他们非常小心地进行挖掘和清洁。
缺陷:Sora 未能将椅子建模为刚性物体,导致了不准确的物理交互。(椅子飘动、分裂、变形。)
案例五
提示词:一位梳理整洁的银发奶奶站在木制餐桌后面,桌上放着一个彩色生日蛋糕,上面插满了蜡烛……她俯身轻轻吹灭蜡烛……奶奶穿着印有花纹的浅蓝色衬衫,可以看到几位坐在桌旁庆祝的快乐朋友和家人……
缺陷:Sora 目前还很难正确模拟物体和多个角色之间的复杂互动,有时会产生滑稽的结果。(蜡烛火焰方向奇怪,吹气后蜡烛无反应,背景人物动作不自然等。)
其他观察
观察官网上的其他演示,我们还可以发现诸如 “行走时脚在地面滑动”、“人物眼神不自然”、“人物表情略有恐怖谷效应” 等现象。
不过这都是 Sora 的 “越级” 能力所暴露出来的问题。当下同一赛道的其他产品还无法生成自由度如此之高的视频。
再补充一些有意思的信息
-
Sora 目前还处在内测阶段,还没有正式开放。OpenAI 目前只面向安全领域和创作领域的部分专家开放、征询意见。如果现在有人说可以帮你开通 Sora 账号,那一定是骗子。
-
Sora 生成的视频中会嵌入 C2PA 元数据。DALL·E 3 在生成图片时也会这样做。(C2PA 是一项开放的技术标准,用于在媒体文件中嵌入元数据,以验证其来源和相关信息。它不仅适用于 AI 生成的图像,也被相机制造商和新闻机构广泛采用。)
-
Sora 是一个扩散模型。它从一个看起来像静态噪音的视频开始,然后逐步通过多个步骤去除噪音,最终生成视频。(这里的 “扩散”,就是 Stable Diffusion 中的 “diffusion”。)
-
Sora 采用 Transformer 架构。(这里的 “Transformer”,就是 GPT 中的 “T”。)
-
除了 “文生视频” 以外,Sora 还具有 “图生视频”、对现有视频进行前后延长和衔接过渡的能力。
-
OpenAI 认为,Sora 可以作为理解和模拟现实世界的基础模型。他们相信这种能力将是实现 AGI 的重要里程碑。
-
在 Sora 的贡献者名单中,可以看到多个华人姓氏和全名。
-
“Sora” 这个名字来源于日语,意为 “天空”。因此这个单词原本的发音应该是 ['sɔːrɑː]。不过在英文语境中,它往往发音为 ['səʊrə]。
附录
- Sora 官网: openai.com/sora
- Sora 技术报告: openai.com/research/vi…
© Creative Commons BY-NC-ND 4.0