如何使用Sora呢?目前Sora只对ChatGPT Plus和ChatGPT Pro用户推出,也就是你想使用Sora的话,就需要升级的你的GPT为Plus 或者 Pro。
如果你不知道如何升级自己的GPT的话,可以根据这个教程来,很简单:国内如何升级订阅ChatGPT Plus Pro,最新GPT升级教程
Sora的使用介绍
Plus和Pro的生成区别:
- Plus用户拥有1千积分,最多可以生成50个视频、分辨率720p、时间为5秒、且有水印。
- Pro用户拥有1万积分,最多可以生成500个视频、分辨率1080p、时间为20、支持5个并发生成、无水印。
Sora的视频是通过你账号的积分进行生成的,如果没有了就需要等下个月。并且无法购买积分! 如果是Plus用户只能升级到Pro才能拥有更多积分。
另外,Sora的积分不可累积,也不会结转至下个月。它们在每个计费周期结束时到期。
生成的视频对应分辨率所需要的积分如下:
| 5秒 | 10秒 | 15秒 | 20秒 | |
|---|---|---|---|---|
| 480p square | 20 积分 | 40 积分 | 60 积分 | 80 积分 |
| 480p | 25 积分 | 50 积分 | 100 积分 | 150 积分 |
| 720p square | 30 积分 | 75 积分 | 150 积分 | 225 积分 |
| 720p | 60 积分 | 180 积分 | 360 积分 | 540 积分 |
| 1080p square | 100 积分 | 300 积分 | 650 积分 | 1000 积分 |
| 1080p | 200 积分 | 600 积分 | 1300 积分 | 2000 积分 |
打不开Sora官网的原因
如果打开Sora官网是出现了 Sorry, you have been blocked,You are unable to access sora.com 的警告时,这只是你当前的网络地区不支持Sora,可以到官方文档查看支持的地区,修改到对应的地区,就可以正常访问Sora官网了。
Sora的技术原理
(1)将视觉数据转换为补丁
受到大型语言模型的启发,这些模型通过在互联网规模数据上进行训练获得了通用能力。语言模型的成功在一定程度上得益于优雅地统一了文本、代码、数学和各种自然语言等不同形式的标记。在这项工作中,我们考虑了生成视觉数据模型如何继承这些优势。与语言模型具有文本标记不同,Sora 使用视觉补丁。先前已经证明,补丁是视觉数据模型的有效表示。我们发现,对于训练生成各种类型的视频和图像模型,补丁是一种高度可扩展和有效的表示方法。
(2)采用patches统一训练数据格式
最早在ViT中出现将图片分patch输入给transformer。Sora的有点不太一样,首先通过一个encoder(VAE结构)将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。
Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间
将变压器用于视频生成规模化,Sora是一个扩散模型;给定输入的噪声补丁(以及文本提示等条件信息),它被训练为预测原始的“干净”补丁。重要的是,Sora是一个扩散变压器。变压器已经在各种领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。
(3)Sora在视频生成方面的优势可以总结如下:
-
基于补丁的表示:Sora使用基于补丁的表示方法,使其能够处理具有不同分辨率、持续时间和宽高比的视频和图像。
-
扩散变压器:作为扩散模型的一种,Sora在处理输入噪声补丁时,通过训练预测原始“干净”补丁,这有助于提高生成质量。
-
可扩展性:Sora是基于变压器的模型,而变压器已经在多个领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。
-
生成控制:在推断时,可以通过合理排列随机初始化的补丁来控制生成视频的大小,这增强了对生成过程的控制能力。
-
对图像的适用性:Sora的设计也适用于处理图像数据,因为图像本质上只是单帧视频。
(4) 使用re-captioning获得text-videos对
在训练阶段,将视频按1帧或者隔n帧用DALL·E3按照一定的规范形成对应的描述文本,然后输入模型训练。在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。
(5)网络结构
DiT(Diffusion in Transformers)
DiT(Diffusion in Transformers)结构是将transformer和**DDPM(Diffusion Models)**结合在一起的模型。简单来说,它使用transformer结构替换了稳定扩散中的U-Net结构,用于噪声去除。这种替换带来了以下优势:
-
随着数据规模或训练时间的增加,模型效果越好:这意味着随着模型的规模和训练时间的增加,模型的性能会进一步提升,这是一个非常有吸引力的特性。(也就是大力出奇迹,暴力文学)
-
模型越大、补丁越小,效果越好:这表明使用更大的模型和更小的补丁可以进一步提高模型的性能。
(6) 整体的结构
下图来自B站UP主ZOMI酱的画的一个Sora结构:
在Conditioning阶段,可能不是一帧对应一个文本,而是几帧甚至十几帧对应一段文本描述。在编码成时空潜在补丁时,可能使用了ViViT的时空编码方式。输入给解码器(encoder)的内容应该是去噪之后的补丁序列,用补丁(patches)描述比使用Tokens更准确一些。