关注公众号 '程序员小胖' 每日技术干货,第一时间送达!
导语
今天在刷社交媒体的时候看到奥特曼(Sam Altman)发布的一条动态说是新发布的一个视频生成模型接下来我们来了解下Sora是个什么好玩意儿
Sora是什么
Sora 是一个AI模型,可以根据文本指令创建现实且富有想象力的场景 听起来很复杂,理解起来也不简单。
Sora有哪些能力
- 将视觉数据转化为补丁、
从大型语言模型中获得灵感,这些模型通过互联网规模数据的训练来获得通用能力。13、14LLM 范式的成功部分归功于令牌的使用, 这些令牌优雅地统一了文本代码、数学和各种自然语言的不同模式。在这项工作中,我们考虑视觉数据的生成模型如何继承这些好处。LLM 有文本标记,而 Sora 有视觉补丁。此前,补丁已被证明是视觉数据模型的有效表示。15 ,16 ,17、18我们发现补丁是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型。
- 用于视频生成的缩放变压器
Sora是一个扩散模型21、22、23、24、25; 给定输入噪声补丁(以及文本提示等调节信息),它被训练来预测原始的“干净”补丁。重要的是,Sora 是一个扩散变压器。26Transformer 在各个领域都表现出了卓越的扩展特性,包括语言建模、13、14计算机视觉,15 ,16 ,17、18和图像生成。27、28 ,29
基础计算
4 倍计算
16 倍计算
- 采样灵活性
Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。这使得 Sora 可以直接以其原生宽高比为不同设备创建内容。它还使我们能够在以全分辨率生成之前快速以较低尺寸制作原型内容 - 所有这些都使用相同的模型。
- 改进的框架和构图
根据经验发现, 以原始长宽比对视频进行训练可以改善构图和取景. 我们将 Sora 与将所有训练视频裁剪为正方形的模型版本进行比较,这是训练生成模型时的常见做法。在方形作物(左)上训练的模型有时会生成仅部分可见主体的视频。相比之下,Sora(右)的视频取景有所改善。
- 语言理解
训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们应用了 DALL·E 3 中引入的重新字幕技术30到视频。我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。与 DALL·E 3 类似,我们还利用 GPT 将简短的用户提示转换为较长的详细字幕,然后发送到视频模型。这使得 Sora 能够生成准确遵循用户提示的高质量视频。
关键字
一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。
**,时长00:59
关键字
几只巨大的毛茸茸的猛犸象踏着白雪皑皑的草地走近,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高高地挂在空中距离产生温暖的光芒,低相机视角令人惊叹地捕捉到大型毛茸茸的哺乳动物,具有美丽的摄影和景深。
**,时长00:10
- 根据图像肯提示生成视频
Sora 能够生成提供图像和提示作为输入的视频。下面我们展示基于DALL·E 2生成的示例视频31和达尔·E 330图片。
关键字
写有"SORA"的现实云的图像。
生成对应的视频
**,时长00:03
- 扩展生成的视频
Sora 还能够在时间上向前或向后扩展视频。下面是四个视频,它们都是从生成的视频片段开始向后延伸的。因此,这四个视频的开头都不同,但所有四个视频的结局都是相同的。
**,时长00:20
还可以使用此方法向前和向后扩展视频以产生无缝的无限循环。
- 视频到视频编辑
扩散模型启用了多种根据文本提示编辑图像和视频的方法。下面我们应用其中一种方法,SDEdit,32到索拉。这项技术使 Sora 能够零镜头地改变输入视频的风格和环境。
输入普通视频
**,时长00:25
有恐龙场景
**,时长00:25
- 生成连续的视频
我们还可以使用 Sora 在两个输入视频之间逐渐进行插值,从而在具有完全不同主题和场景构成的视频之间创建无缝过渡。在下面的示例中,中心的视频插值在左侧和右侧的相应视频之间。
- 图像生成能力Sora 还能够生成图像。我们通过在时间范围为一帧的空间网格中排列高斯噪声块来实现这一点。该模型可以生成各种高分辨率的图像。
关键字
秋季女性特写肖像照,极其细节,浅景深
关键字
充满活力的珊瑚礁,充满色彩缤纷的鱼类和海洋生物
关键字
苹果树下一只小老虎的数字艺术,采用哑光绘画风格,细节华丽
关键字
雪山村庄,拥有舒适的小屋和北极光显示屏,高细节和逼真的数码单反相机
- 新兴的模拟功能:我们发现,视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差——它们纯粹是尺度现象。
-
- 3D 一致性:Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。
- **,时长00:17
-
- 远程相干性和物体持久性:视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。我们发现 Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,我们的模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。
- **,时长00:20
-
- 与世界互动。索拉有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。
- **,时长00:10
-
- 模拟数字世界。Sora 还能够模拟人工过程——一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过用提及“我的世界”的标题提示 Sora 来零射击。
- **,时长00:20
这些功能表明,视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。
参考链接:openai.com/sora