为什么央视把 Sora 称为首个视频生成大模型?

133 阅读3分钟

文章来源:www.zhihu.com/question/64…

央视将Sora 称为OpenAi首个视频生成大模型,那是因为确实是OpenAi的文生视频产品首发。

而且目前的文生视频产品,只有Sora做到了与真实世界一致,从真正意义上理解并进行视频生成,而不是二维图像动态填补。

图片

Sora这几天的爆炸性新闻,让所有人工智能相关从业者及对应用感兴趣的人群都感到沸腾,震撼到央视也在进行相关的讨论,简直可以和2023年初ChatGPT讨论带来的热潮一般。

我整理了下最近两天的国内的相关内容给大家做大略的回顾参考(更多内容,可查看文章开头的原文)。

1.Sora 论文

OPENAI对于Sora的论文可以详见下列链接:

openai.com/research/vi…

图片

图片中文翻译:

视频生成模型作为世界模拟器 我们探讨了在视频数据上对生成模型进行大规模训练。具体来说,我们共同训练了文本条件扩散模型,这些模型能够处理不同时长、分辨率和宽高比的视频和图像。我们利用了一种变压器架构,该架构能够处理视频和图像潜在代码的空间时间块。我们最大的模型,Sora,能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建通用物理世界模拟器的有希望的道路。

图片

中文翻译:

语言理解 训练文本到视频生成系统需要大量的带有相应文本字幕的视频。我们将DALL·E330中引入的重新字幕技术应用到视频中。我们首先训练一个高度描述性的字幕模型然后使用它为训练集中的所有视频生成文本字幕。我们发现,高度描述性的视频字幕训练提高了文本保真度以及视频的整体质量。与DALL·E3类似,我们还利用GPT将简短的用户提示转换为较长的详细字幕,并发送给视频模型。这使得Sora能够准确地按照用户提示生成高质量的视频。

而关于论文内部详细的内容,网上有整理好的资料,建议可以参考这个飞书文档,有对这个论文的翻译及详细的解析,分享给大家,不用花冤枉钱去购买。

caaiartlab.feishu.cn/docx/LgmFdX…

 2.Sora怎么使用

截止2024年2月27日。目前Sora只向“红色成员”提供,用来发现潜在的危害和风险,另外还向一些视觉艺术家,电影制作人开放,并征求他们的意见对Sora进行改进,所以现在不是对外开放的。

另外根据文生图模型 DALL·E 案例,开放后一定是先给 ChatGPT Plus 用户使用,需要注册或升级可以看这:ChatGPT Plus教程:

3.国内关于Sora的讨论

图片

图片

结语

Sora通过分析大量的视频数据、学习物理规律的表现,并利用先进的算法理解和模拟时空连续性,从而能够生成看起来符合物理规律的视频。

这一过程涉及到复杂的计算和大量的数据处理,最终使得Sora生成的视频在视觉上既真实又符合逻辑。

AGI的未来或许真的不远了!