OPENAI又一突破-SORA，元宇宙NEXT STEP?Sora的诞生意味着AI的技术已经突破到了视频领域，将对影视、

SORA概述

北京时间2月16日凌晨2点左右，OpenAI公司正式发布其首个文本-视频生成模型Sora。Sora 能够通过简单的prompt、图片、视频，一次性生成1分钟逼真视频或者向前向后扩展视频。这是继Runway、Pika、谷歌和 Meta 之后，OpenAI 正式加入到这场 AI 视频生成领域，同时也是GPT、DALL·E之后，2024年 OpenAI 发布的最新、最重要的 AI 产品系列。OpenAI认为“Sora 为能够理解和模拟现实世界的模型奠定了基础，我们相信这将是实现 AGI 的一个重要里程碑”。

Research摘要

Scaling transformers For 视频生成

Sora采用扩散模型(diffusion model)，它通过从一个看起来像静态噪音的视频开始，并通过许多步骤消除噪音来逐渐改变它来生成视频。Sora 能一次生成整个视频，或者对生成的视频进行延长。通过让模型一次预览多个帧，确保即使某个对象暂时离开视野，也能保持一致性。

与 GPT 模型类似，Sora 使用了Transformer 架构，实现了卓越的扩展性能。下面，我们展示了在训练过程中，固定种子和输入的视频样本的比较。随着训练计算量的增加，样本质量明显提高。

暂时无法在飞书文档外展示此内容

将视觉数据转化为数据块

将视频和图像表示为被称为数据块(patches)的数据较小的单元集合，每个patches类似于 GPT 中的一个token。通过统一我们对数据的表示方式，我们可以在比以往更广泛的视觉数据范围内训练扩散 Transformer，包括不同的时长、分辨率和纵横比。

语言理解

Sora 以 DALL·E 和 GPT 模型的研究为基础。它使用了 DALL·E 3 中的「文本描述重新生成技术」(re-captioning technique)，该技术涉及对视觉训练数据生成描述性很强的文本说明。因此，该模型能够更忠实于用户的文本指令，提高文本的保真度以及生成视频的整体质量。

支持图片和视频提示词

除了能够仅根据文本指令生成视频外，该模型还能够使用现有的静止图像生成视频，精确动画图像的内容，并注意小细节。该模型还可以使用现有的视频并对其进行扩展或填充缺失的帧。

A Shiba Inu dog wearing a beret and black turtleneck.

暂时无法在飞书文档外展示此内容

局限性

物理交互模拟局限

OpenAI使用公开可用的视频以及获得授权的版权视频来训练该模型，但没有透露视频的数量或确切来源。在其发布时，OpenAI承认Sora的一些缺点，包括难以模拟复杂的物理学、理解因果关系以及区分左右。

安全限制

OpenAI表示，为了遵守公司现有的安全实践，Sora将限制文本提示，以避免生成性、暴力、仇恨或名人形象的图像，以及包含现有知识产权的内容。

幻觉可能

长序列一致性，由于视频的信息密度比文本大很多，序列建模的复杂度O(LBd)，L = sequence length，B = batch_size，d = embedding dimension，视频要在物体描述，风格等细节完全保持一致非常困难，以概率生成方式就可能出现幻觉。

展望

Sora的诞生意味着，在文字、图片之后，AI的技术已经突破到了视频领域。虽然在此之前，Runway Gen 2、Pika等AI视频工具已经发布过类似的模型，但相较之下，别家的大模型还在致力于突破几秒内的连贯性，OpenAI已经可以实现60秒的超精细视频制作，这一技术可以说是史诗级别的突破。同时，出色的视频制作能力瞬间“点燃”科技圈。英伟达人工智能研究院首席研究科学家Jim Fan直言，这是视频生成领域的GPT-3时刻。360集团创始人、董事长周鸿祎则称，随着Sora的到来，人类离AGI真的就不远了，不是10年、20年的问题，可能一两年很快就可以实现。

内容创作变革

Sora作为一种强大的视频生成工具，可以极大地降低视频制作的门槛和成本，使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、 VR ** AR 等诸多行业产生深远的影响，具有广泛的应用前景。

例如在影视行业，人人都是导演的时代即将来临，Sora可以快速生成逼真的场景和特效，帮助制作人员更好地实现创意，提高制作效率。在广告行业，Sora可以根据品牌需求和营销目标，快速生成高质量的广告。

内容创作的方式变革后，文学创作领域也将迎来复兴，小说可以直接生成动漫、电视剧。视频内容集中爆发，自媒体行业也将迎来重新洗牌。随着技术的不断深挖，未来Sora会将在更多领域得到推广应用。

元宇宙NEXT STEP

Sora能够基于文本描述准确生成高度逼真的场景，同时融入丰富的想象元素，打破了以往AI视频内容创造的限制，不论是构建虚拟视频还是虚拟空间，Sora都有了巨大飞跃。既然Sora可以生成这么多风格不同的连贯视频，那么更进一步的虚拟空间、虚拟世界构建自然也存在可能。AI生成虚拟世界这一天的到来，或许会比想象中更快——正如去年的许多人也不曾预想到AI视频内容生成的发展会如此迅速一样。Sora的“模拟数字世界”能力对于元宇宙的发展将起到关键性作用。

目前，Sora已经能够在像《我的世界》这样的游戏中渲染世界及其动态，并控制玩家角色，在此类虚拟空间构建平台中，Sora几乎像一个数据驱动的物理引擎，而非仅仅是一个创意生成工具。

这表明，通过Sora驱动虚拟空间的全自动搭建已经在逐步成为现实。

从目前的情况来看，Sora对元宇宙的颠覆性影响主要体现在两个方面：首先，它能够直接根据需求生成虚拟视频，迅速构建元宇宙所需的场景；其次，它展现出生成可供深入探索的虚拟空间的潜力。另一方面，其有望直接生成可以深入探索的虚拟空间。

这意味着不论从技术层面、社会层面还是文化层面，元宇宙都将进入全新的发展阶段。

在技术层面，对于元宇宙的建设者来说，快速搭建丰富多样的虚拟场景变得前所未有地容易。传统上，创建逼真的虚拟环境需要大量的时间、人力和资源投入，而Sora的技术可以大大简化这一过程，使得元宇宙的扩展和多样化成为可能。

这不仅能够加速元宇宙的构建进程，还能够降低进入门槛，让更多的创作者和开发者有机会参与到元宇宙的构建中来。

同时，在未来此类技术将不仅能够生成静态的虚拟场景，还有望直接生成可深入探索的动态虚拟空间。这些空间不仅仅是视觉上的呈现，而是可以与之互动、探索和体验的完整虚拟世界。

元宇宙中的空间将不再是简单的背景或设置，而是充满了物理规则、动态事件和互动元素的生动世界。这将极大地丰富用户在元宇宙中的体验，使其不仅仅是观察者，而是能够实际参与和影响虚拟世界的发展。

社会层面，AI技术的进步将使元宇宙能够提供高度个性化的体验，根据每个用户的偏好、历史行为和社交互动来定制内容和互动。这种个性化不仅限于内容推荐，也扩展到元宇宙中的角色、环境和故事情节的定制。

同时这样的变化还会催生出新的社交互动形式，如AI驱动的虚拟角色与人类用户之间的互动，或者通过如在线演唱会、教育课程、社交聚会等虚拟活动连接全球用户。

文化层面，就像自媒体、短视频时代对传统传媒形成冲击一样，虚拟内容创作门槛的降低，无疑会进一步冲击传统影视业的发展，同时，更多个体和文化背景的人们能够创作和分享自己的故事，促进全球文化的多样性和交流。

此外，元宇宙社群的真正兴起也会带动全新的虚拟文化兴起，这种文化将完全从元宇宙中诞生、发展和传播，形成独特的文化标识和社区归属感。

References

可以在技术报告中了解更多

OPENAI又一突破-SORA，元宇宙NEXT STEP?

SORA概述

Research摘要

Scaling transformers For 视频生成

将视觉数据转化为数据块

语言理解

支持图片和视频提示词

局限性

物理交互模拟局限

安全限制

幻觉可能

展望

内容创作变革

元宇宙NEXT STEP

References