关于Sora的技术原理和使用介绍,Sora只对ChatGPT Plus和Pro用户开放推出

1,896 阅读6分钟

如何使用Sora呢?目前Sora只对ChatGPT Plus和ChatGPT Pro用户推出,也就是你想使用Sora的话,就需要升级的你的GPT为Plus 或者 Pro。

如果你不知道如何升级自己的GPT的话,可以根据这个教程来,很简单:国内如何升级订阅ChatGPT Plus Pro,最新GPT升级教程

Sora的使用介绍

Plus和Pro的生成区别:

  • Plus用户拥有1千积分,最多可以生成50个视频、分辨率720p、时间为5秒、且有水印。
  • Pro用户拥有1万积分,最多可以生成500个视频、分辨率1080p、时间为20、支持5个并发生成、无水印。

Sora的视频是通过你账号的积分进行生成的,如果没有了就需要等下个月。并且无法购买积分! 如果是Plus用户只能升级到Pro才能拥有更多积分。

另外,Sora的积分不可累积,也不会结转至下个月。它们在每个计费周期结束时到期。

生成的视频对应分辨率所需要的积分如下:

5秒10秒15秒20秒
480p square20 积分40 积分60 积分80 积分
480p25 积分50 积分100 积分150 积分
720p square30 积分75 积分150 积分225 积分
720p60 积分180 积分360 积分540 积分
1080p square100 积分300 积分650 积分1000 积分
1080p200 积分600 积分1300 积分2000 积分

打不开Sora官网的原因

如果打开Sora官网是出现了 Sorry, you have been blocked,You are unable to access sora.com 的警告时,这只是你当前的网络地区不支持Sora,可以到官方文档查看支持的地区,修改到对应的地区,就可以正常访问Sora官网了。

Sora的技术原理

(1)将视觉数据转换为补丁

受到大型语言模型的启发,这些模型通过在互联网规模数据上进行训练获得了通用能力。语言模型的成功在一定程度上得益于优雅地统一了文本、代码、数学和各种自然语言等不同形式的标记。在这项工作中,我们考虑了生成视觉数据模型如何继承这些优势。与语言模型具有文本标记不同,Sora 使用视觉补丁。先前已经证明,补丁是视觉数据模型的有效表示。我们发现,对于训练生成各种类型的视频和图像模型,补丁是一种高度可扩展和有效的表示方法。

(2)采用patches统一训练数据格式

最早在ViT中出现将图片分patch输入给transformer。Sora的有点不太一样,首先通过一个encoder(VAE结构)将视频帧压缩到一个低维度隐式空间(包含时间和空间上的压缩),然后展开成序列的形式送入模型训练,同样的模型预测也是隐式的序列,然后用decoder解码器去解码映射回像素空间形成视频。

Sora 在这个压缩的潜在空间上进行训练,并随后生成视频。还训练了一个相应的解码器模型,将生成的潜在表示映射回像素空间

将变压器用于视频生成规模化,Sora是一个扩散模型;给定输入的噪声补丁(以及文本提示等条件信息),它被训练为预测原始的“干净”补丁。重要的是,Sora是一个扩散变压器。变压器已经在各种领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。

(3)Sora在视频生成方面的优势可以总结如下:

  1. 基于补丁的表示:Sora使用基于补丁的表示方法,使其能够处理具有不同分辨率、持续时间和宽高比的视频和图像。

  2. 扩散变压器:作为扩散模型的一种,Sora在处理输入噪声补丁时,通过训练预测原始“干净”补丁,这有助于提高生成质量。

  3. 可扩展性:Sora是基于变压器的模型,而变压器已经在多个领域展示了出色的规模化性能,包括语言建模、计算机视觉和图像生成。

  4. 生成控制:在推断时,可以通过合理排列随机初始化的补丁来控制生成视频的大小,这增强了对生成过程的控制能力。

  5. 对图像的适用性:Sora的设计也适用于处理图像数据,因为图像本质上只是单帧视频。

(4) 使用re-captioning获得text-videos对

在训练阶段,将视频按1帧或者隔n帧用DALL·E3按照一定的规范形成对应的描述文本,然后输入模型训练。在推理阶段,首先将用户输入的prompt用GPT4按照一定的规范把它详细化,然后输入模型得到结果。

(5)网络结构

DiT(Diffusion in Transformers)

DiT(Diffusion in Transformers)结构是将transformer和**DDPM(Diffusion Models)**结合在一起的模型。简单来说,它使用transformer结构替换了稳定扩散中的U-Net结构,用于噪声去除。这种替换带来了以下优势:

  1. 随着数据规模或训练时间的增加,模型效果越好:这意味着随着模型的规模和训练时间的增加,模型的性能会进一步提升,这是一个非常有吸引力的特性。(也就是大力出奇迹,暴力文学)

  2. 模型越大、补丁越小,效果越好:这表明使用更大的模型和更小的补丁可以进一步提高模型的性能。

(6) 整体的结构

下图来自B站UP主ZOMI酱的画的一个Sora结构:

在Conditioning阶段,可能不是一帧对应一个文本,而是几帧甚至十几帧对应一段文本描述。在编码成时空潜在补丁时,可能使用了ViViT的时空编码方式。输入给解码器(encoder)的内容应该是去噪之后的补丁序列,用补丁(patches)描述比使用Tokens更准确一些。

其他

  1. 国内如何升级支付ChatGPT Plus费用,最新GPT4升级教程,免费升级ChatGPT Plus

  2. OpenAI 支付出现「您的银行卡被拒绝/your card has been declined」怎么办?