OPENAI又一突破-SORA,元宇宙NEXT STEP?

402 阅读8分钟
  1. SORA概述

北京时间2月16日凌晨2点左右,OpenAI公司正式发布其首个文本-视频生成模型Sora。Sora 能够通过简单的prompt、图片、视频,一次性生成1分钟逼真视频或者向前向后扩展视频。这是继Runway、Pika、谷歌和 Meta 之后,OpenAI 正式加入到这场 AI 视频生成领域,同时也是GPT、DALL·E之后,2024年 OpenAI 发布的最新、最重要的 AI 产品系列。OpenAI认为“Sora 为能够理解和模拟现实世界的模型奠定了基础,我们相信这将是实现 AGI 的一个重要里程碑”。

  1. Research摘要

  1. Scaling transformers For 视频生成

Sora采用扩散模型(diffusion model),它通过从一个看起来像静态噪音的视频开始,并通过许多步骤消除噪音来逐渐改变它来生成视频。Sora 能一次生成整个视频,或者对生成的视频进行延长。通过让模型一次预览多个帧,确保即使某个对象暂时离开视野,也能保持一致性。

与 GPT 模型类似,Sora 使用了Transformer 架构,实现了卓越的扩展性能。下面,我们展示了在训练过程中,固定种子和输入的视频样本的比较。随着训练计算量的增加,样本质量明显提高。

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

暂时无法在飞书文档外展示此内容

  1. 将视觉数据转化为数据块

将视频和图像表示为被称为数据块(patches)的数据较小的单元集合,每个patches类似于 GPT 中的一个token。通过统一我们对数据的表示方式,我们可以在比以往更广泛的视觉数据范围内训练扩散 Transformer,包括不同的时长、分辨率和纵横比。

  1. 语言理解

Sora 以 DALL·E 和 GPT 模型的研究为基础。它使用了 DALL·E 3 中的「文本描述重新生成技术」(re-captioning technique),该技术涉及对视觉训练数据生成描述性很强的文本说明。因此,该模型能够更忠实于用户的文本指令,提高文本的保真度以及生成视频的整体质量。

  1. 支持图片和视频提示词

除了能够仅根据文本指令生成视频外,该模型还能够使用现有的静止图像生成视频,精确动画图像的内容,并注意小细节。该模型还可以使用现有的视频并对其进行扩展或填充缺失的帧。

A Shiba Inu dog wearing a beret and black turtleneck.

暂时无法在飞书文档外展示此内容

  1. 局限性

  1. 物理交互模拟局限

OpenAI使用公开可用的视频以及获得授权的版权视频来训练该模型,但没有透露视频的数量或确切来源。在其发布时,OpenAI承认Sora的一些缺点,包括难以模拟复杂的物理学、理解因果关系以及区分左右。

  1. 安全限制

OpenAI表示,为了遵守公司现有的安全实践,Sora将限制文本提示,以避免生成性、暴力、仇恨或名人形象的图像,以及包含现有知识产权的内容。

  1. 幻觉可能

长序列一致性,由于视频的信息密度比文本大很多,序列建模的复杂度O(LBd),L = sequence length,B = batch_size,d = embedding dimension,视频要在物体描述,风格等细节完全保持一致非常困难,以概率生成方式就可能出现幻觉。

  1. 展望

Sora的诞生意味着,在文字、图片之后,AI的技术已经突破到了视频领域。虽然在此之前,Runway Gen 2、Pika等AI视频工具已经发布过类似的模型,但相较之下,别家的大模型还在致力于突破几秒内的连贯性,OpenAI已经可以实现60秒的超精细视频制作,这一技术可以说是史诗级别的突破。同时,出色的视频制作能力瞬间“点燃”科技圈。英伟达人工智能研究院首席研究科学家Jim Fan直言,这是视频生成领域的GPT-3时刻。360集团创始人、董事长周鸿祎则称,随着Sora的到来,人类离AGI真的就不远了,不是10年、20年的问题,可能一两年很快就可以实现。

  1. 内容创作变革

Sora作为一种强大的视频生成工具,可以极大地降低视频制作的门槛和成本,使得更多人能够轻松创建高质量的视频内容。这将对影视、广告、游戏、新闻、教育、 VR ** AR 等诸多行业产生深远的影响,具有广泛的应用前景。

例如在影视行业,人人都是导演的时代即将来临,Sora可以快速生成逼真的场景和特效,帮助制作人员更好地实现创意,提高制作效率。在广告行业,Sora可以根据品牌需求和营销目标,快速生成高质量的广告。

内容创作的方式变革后,文学创作领域也将迎来复兴,小说可以直接生成动漫、电视剧。视频内容集中爆发,自媒体行业也将迎来重新洗牌。随着技术的不断深挖,未来Sora会将在更多领域得到推广应用。

  1. 元宇宙NEXT STEP

Sora能够基于文本描述准确生成高度逼真的场景,同时融入丰富的想象元素,打破了以往AI视频内容创造的限制,不论是构建虚拟视频还是虚拟空间,Sora都有了巨大飞跃。既然Sora可以生成这么多风格不同的连贯视频,那么更进一步的虚拟空间、虚拟世界构建自然也存在可能。AI生成虚拟世界这一天的到来,或许会比想象中更快——正如去年的许多人也不曾预想到AI视频内容生成的发展会如此迅速一样。Sora的“模拟数字世界”能力对于元宇宙的发展将起到关键性作用。

目前,Sora已经能够在像《我的世界》这样的游戏中渲染世界及其动态,并控制玩家角色,在此类虚拟空间构建平台中,Sora几乎像一个数据驱动的物理引擎,而非仅仅是一个创意生成工具。

这表明,通过Sora驱动虚拟空间的全自动搭建已经在逐步成为现实。

从目前的情况来看,Sora对元宇宙的颠覆性影响主要体现在两个方面:首先,它能够直接根据需求生成虚拟视频,迅速构建元宇宙所需的场景;其次,它展现出生成可供深入探索的虚拟空间的潜力。另一方面,其有望直接生成可以深入探索的虚拟空间。

这意味着不论从技术层面、社会层面还是文化层面,元宇宙都将进入全新的发展阶段。

技术层面,对于元宇宙的建设者来说,快速搭建丰富多样的虚拟场景变得前所未有地容易。传统上,创建逼真的虚拟环境需要大量的时间、人力和资源投入,而Sora的技术可以大大简化这一过程,使得元宇宙的扩展和多样化成为可能。

这不仅能够加速元宇宙的构建进程,还能够降低进入门槛,让更多的创作者和开发者有机会参与到元宇宙的构建中来。

同时,在未来此类技术将不仅能够生成静态的虚拟场景,还有望直接生成可深入探索的动态虚拟空间。这些空间不仅仅是视觉上的呈现,而是可以与之互动、探索和体验的完整虚拟世界。

元宇宙中的空间将不再是简单的背景或设置,而是充满了物理规则、动态事件和互动元素的生动世界。这将极大地丰富用户在元宇宙中的体验,使其不仅仅是观察者,而是能够实际参与和影响虚拟世界的发展。

社会层面,AI技术的进步将使元宇宙能够提供高度个性化的体验,根据每个用户的偏好、历史行为和社交互动来定制内容和互动。这种个性化不仅限于内容推荐,也扩展到元宇宙中的角色、环境和故事情节的定制。

同时这样的变化还会催生出新的社交互动形式,如AI驱动的虚拟角色与人类用户之间的互动,或者通过如在线演唱会、教育课程、社交聚会等虚拟活动连接全球用户。

文化层面,就像自媒体、短视频时代对传统传媒形成冲击一样,虚拟内容创作门槛的降低,无疑会进一步冲击传统影视业的发展,同时,更多个体和文化背景的人们能够创作和分享自己的故事,促进全球文化的多样性和交流。

此外,元宇宙社群的真正兴起也会带动全新的虚拟文化兴起,这种文化将完全从元宇宙中诞生、发展和传播,形成独特的文化标识和社区归属感。

  1. References

可以在技术报告中了解更多