未来已来,OpenAI炸裂发布文生视频模型Sora

823 阅读6分钟

前言

在去年九月份的时候,我就和朋友在聊OpenAI的多模态能力应该加入视频这个类型,那个时候DALLE3都还没出,只有DALLE2。但是当时我依然认为一个真正强大的大模型的多模态能力应该是三位一体的:“文”,“图”,“视频”,一个都不能少,少一个我都觉得有点别扭。没想到OpenAI半年就实现了我的愿望,就在15个小时之前,北京时间2月16日凌晨,OpenAI炸裂发布文生视频模型Sora。

image.png

模型效果

在OpenAI的官方介绍里Sora可以创建长达60秒的视频,其中可以包含高度细节的场景,复杂的摄像机运动以及充满活力和感情的多个角色。这里看不了视频给大家放张照片

美丽、白雪皑皑的东京熙熙攘攘。镜头穿过熙熙攘攘的城市街道,跟随几个人享受美丽的雪天并在附近的摊位购物。绚丽的樱花花瓣随着雪花随风飘扬。

image.png

一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去。

image.png

电影预告片讲述了30岁宇航员戴着红色羊毛针织摩托车头盔的冒险经历,蓝天、盐漠,电影风格,35毫米胶片拍摄,色彩鲜艳。

image.png

一群纸飞机在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。

image.png

上面这几个就是官方发布的或者比较优秀的作品了,但是我仍然找到了一些其他比较有趣的作品和提示词分享给大家

image.png

image.png

image.png

模型原理

OpenAI关于Sora相关的技术报告:《Video generation models as world simulators | 视频生成模型:构建虚拟世界的模拟器》

这篇技术报告主要介绍了两方面内容:(1) OpenAI如何将各种类型的视觉数据转化为统一的表示形式,从而实现生成模型的大规模训练;(2) 对 Sora 模型能力和局限性的定性评价。

报告中没有包含模型和实施的详细信息。

Sora 属于扩散型 Transformer(diffusion transformer)。

我们知道,传统的 Transformer,主要有Encoder和Decoder,Encoder是将文本编码成 Token,从而可以将自然语言变成可以统一处理的数字或代码。而 Decoder 则是将 Token 反向解码成文本。

而 Sora 也是类似的思路,只不过它编码的结果不是Token,报告里面叫 Patches(patch 其实就是图片拆成 nxn 的小方格生成的 embedding,比如一张 256x256 的图片,把它打碎成 256 张 16x16 的小图就叫做 patches),Encoder 将视频压缩为低维潜空间,再将其分解为 Patches。同样 Sora 也能从 Patches 反向解码成视频图像。

Sora 同时还是一种扩散模型,能将有噪声的图像块,基于 Prompt 还原出清晰的图像。

据说微软前一段时间给OpenAI搞了五千亿个视频用于训练。

另外,报告中特地提到了:“我们的研究显示,扩展视频生成模型的规模是向着创建能够模拟物理世界的通用工具迈出的有前途的一步。”

  • 跟大语言模型一样,Sora也有涌现的模拟能力

我们发现,在大规模训练下,视频模型展示出了一系列引人注目的涌现能力。这些功能让 Sora 有能力在一定程度上模拟现实世界中的人、动物和环境。这种能力的涌现,并不需要对三维空间、物体等有任何特定的预设偏好 —— 它们纯粹是由数据规模驱动的结果。

  • 三维空间的连贯性。

Sora 能生成带有动态视角变化的视频。当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间中保持连贯移动。

  • 远距离连续性与物体持久性。

在生成长视频时,保持时间上的连续性一直是个挑战。我们观察到,Sora 通常能够有效处理短距离和长距离的依赖关系。比如,即使人物、动物或物体被遮挡或移出画面,我们的模型也能保持它们的连续存在。同样,它能在同一视频样本中多次展示同一角色,确保其外观贯穿始终。

  • 与世界的互动。

Sora 有时能模拟出简单地影响世界状态的行为。例如,画家在画布上留下的笔触随时间持久存在,或者某人吃汉堡留下的咬痕。

作为一个模拟器,Sora 当前还有许多局限。比如,它无法精确模拟像玻璃破碎这样的基本物理互动。有些互动,比如吃东西,并不总能正确反映物体状态的改变等问题。

应用展望

其实今天早上看到Sora的时候,我立刻想到的是我可以通过AI创作音乐MV了。是这样子前段时间我一直在用Sono制作音乐嘛,后来我就想做音乐视频,所以我尝试过用GPT的生图能力帮我对歌词进行绘图,这样子我就做出了一个有视觉有听觉的作品了,这样的作品我做了10个左右,这里就有一个问题,他只是图他不会动,看起来的效果就没有那么好。所以当我看到OpenAI发布Sora时我立刻觉得为我的音乐作品制作音乐MV好像有救了。不过目前Sora还没有开放给全部用户,再等等吧。等到时候二So合体OMG,不敢相信!!!

OK,回归正题。其实已经有很多讨论已经出来了,Sora对影视,动画,广告,包括游戏等等,说到好听一点就是有很好的应用前景,说得不好听就是有很大的冲击和颠覆,包括像个人电影,个人动漫,IP电影制作等等,这些好像也不是特别遥远了,你只要有文本资料放进去再加点提示词就是一个电影,放本小说进去《红楼梦新传》出来了,放个流水账进去vlog出来了,放本剧本进去《庆余年3》出来了《小时代10086》出来了,好吧这有点夸张,但这就是趋势。

总结

就像奥特曼说的,我们应该以通用人工智能的实现为前提进行创业和技术开发。因为你说不定OpenAI明天又要放出什么新的模型能力和商业模式的布局,前一个月我还在说pika,runway多么牛逼,但是现在我相信他们倍感压力。不管如何未来已来,AI的世界太奇妙,太惊喜,相信未来还有更多,AI的道路你我同行,共勉!HeteroCat