OpenAI的视频生成工具Sora能力到底如何?结合博主实际测评,讲解简洁有趣易懂

386 阅读10分钟

OpenAI Sora能力全解析:结合博主测评的深度探讨

一、OpenAI Sora实际测评 OpenAI的Sora视频生成工具自发布以来就备受关注。在实际测评中,它展现出了许多令人印象深刻的特性。

首先,从生成视频的基本能力来看,Sora能够根据用户输入的简短文字描述生成视频。早期通过泄露事件可知,它可以生成高达1080p分辨率的10秒短视频,而如今正式发布后,功能更加强大。例如,在一些测试中,用户输入如“长毛猛犸象在沙漠中行走,广角镜头拍摄”这样的描述,就能得到非常真实、有质感且基本遵照指令的视频。Sora还可以根据用户需求选择视频的画面比、分辨率、时长(5 - 20秒)以及生成视频的数量(最多可生成四段以供挑选)等 。

在画面呈现方面,Sora的表现相当出色。从之前的一些案例来看,比如描述“一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她戴着墨镜,涂着红色口红。她自信而随意地走路。许多行人四处走动”,Sora生成的视频中,东京街道、霓虹灯、人物的穿着打扮以及那种自信而随意的神态都能很好地呈现出来。而且在画面精细度上,无论是近景人物脸部的细节,还是远景中人物的面部特征都能较好地保留,这一点在之前的一些测评中也得到了验证 。

另外,Sora的稳定性也是值得一提的。不像一些早期的视频生成工具,在生成较长视频时容易出现画面风格、对象和角色不稳定的情况。虽然早期版本可能存在需要生成数百个片段才能得到一段可用成果的情况,但随着技术的发展,这种情况已经得到了改善。

然而,Sora也并非完美无缺。在一些复杂场景的物理效果模拟上,仍然存在一定的挑战。例如,可能会出现像人物咬饼干但饼干没有咬痕这样的情况,对一些因果关系的理解还不够深入。同时,在空间细节方面,可能会出现混淆左右的问题,对于随时间发生的事件的描绘也可能不够准确,比如难以准确遵循特定的相机轨迹 。

二、OpenAI Sora能力介绍:博主测评 知名Youtube播客主马奎斯·布朗利(Marques Brownlee)对Sora进行了测评,并将结果分享给了他的近2000万订阅者。他指出Sora既有优势也存在劣势。

在优势方面,Sora可以制作关于深空宇宙事件和其他抽象事物的挑衅性视频。这表明Sora在处理一些富有想象力和创意性的主题时具有很强的能力。例如,对于一些科幻场景或者奇幻的概念,Sora能够根据用户的文字描述将其转化为视觉上的视频内容。

但是,他也提到Sora在日常生活中对物理的现实描绘方面存在困难,比如一个带着足球跑步的人这样的场景。这反映出Sora在处理一些常见的、基于现实物理规律的场景时,还需要进一步提高准确性。他还提到Sora在视频右下角添加的小水印可以被裁剪掉,这可能会引发一些关于内容真实性和版权方面的担忧。他认为虽然Sora是一个非常强大的工具,但也有可能被滥用,将我们进一步推向一个不能相信在网上看到的任何东西的时代,人类需要对大量由Sora生成的内容进行消化和甄别 。

三、OpenAI Sora效果分析:简洁有趣讲解 Sora就像是一个拥有神奇画笔的画家,但这个画笔有时候还不够精细。

当你给它描述一个充满奇幻色彩的场景,比如“一个二十多岁的年轻男子正坐在天空的一片云上,正在阅读一本书”,它能画出一幅让你惊叹的画面,人物形态自然,书页随风而动,就像是从童话世界里搬出来的一样。这就像是画家在创作幻想画作时,能够肆意挥洒灵感,将脑海中的奇思妙想转化为生动的画面。

可是,当你让它画一个日常生活中的场景,像有人在操场上踢足球,它可能就会出现一些小失误,比如球员的动作不够自然或者球的运动轨迹不符合物理规律。这就好比画家在画写实场景时,对一些细节的把握还不够精准。

再看看它的视频生成长度和分辨率,就像厨师做菜的分量和摆盘。它现在能生成一定时长(5 - 20秒)和较高分辨率(最高1080p)的视频,这就像是厨师能做出分量合适且摆盘精美的菜肴。但如果与未来可能的发展相比,现在的水平可能只是一个开胃菜,随着技术的发展,我们期待它能做出更加丰盛、更加完美的大餐。

而且Sora生成视频的过程就像是一场魔术表演。你输入文字描述,就像是给魔术师一个指令,然后它就能变出一个视频来。但有时候这个魔术可能会出现一些小瑕疵,就像魔术师偶尔也会失手一样。不过,即使有这些小问题,Sora的表演还是足够精彩,让我们对未来的改进充满期待。

四、OpenAI Sora能力与其他工具对比 与其他视频生成工具相比,Sora有着自己独特的优势。

在视频生成的基本能力方面,像Runway Gen2、Pika等平台,视频生成默认时长较短,即便通过扩展手段,最多也只能生成十几秒的视频,而Sora可以生成长达20秒(Plus会员5秒,Pro会员20秒)甚至早期版本能生成60秒的视频。在视频尺寸方面,Sora也更加自由,它可以采样宽屏1920x1080视频、竖屏1080x1920视频以及介于两者之间的所有尺寸视频,而Runway Gen2在文本生成视频时只能选择特定的长宽比,如16:9,9:16,1:1,4:3,3:4,以及21:9,并且默认清晰度为1408×768px,Sora默认则是1080P。

在视频扩展功能上,其他平台的视频扩展通常是在当前视频的基础上继续向前生成几秒的视频,而Sora可以在视频的基础上向前或者向后扩展。例如给定一个视频,Sora可以为该视频创造不同的开头,最后都是以该视频结尾,过程非常连续,甚至可以在一个视频上同时向前和向后扩展,以产生一个无限连续的循环视频。

Sora还具有将两个视频揉合在一起生成新视频的能力,例如给一个无人机穿越古罗马建筑的视频,再给一个蝴蝶在海底珊瑚飞行的视频,Sora可以生成一个新的视频,让无人机变成蝴蝶,古罗马建筑变成珊瑚风格。这是其他工具较少具备的能力。

在模拟真实物理世界方面,Sora可以以运动相机拍摄的方式来展示视频,包括运动相机的转换、旋转等,并且运动相机拍摄的结果通常要与物理世界的三维空间一致,这一点也是Sora的独特之处,其他平台在这方面的表现相对较弱。同时,Sora经常(但并非总是)能够有效地对短距离和长距离依赖关系进行建模,能在单个样本中生成同一人物的多个镜头,并在整个视频中保持其外观,例如人物吃东西留下咬痕等,而其他平台在这方面可能存在不足 。

五、OpenAI Sora实际应用案例和效果 在实际应用中,Sora已经展现出了广泛的应用潜力。

(一)创意内容创作 对于创作者来说,Sora是一个非常强大的创意工具。比如在故事创作方面,利用Sora的故事板(storyboard)功能,可以像电影分镜一样创作视频。例如,先创建一个“美丽的白鹤站在小溪中,拥有一条黄色的尾巴”的分镜,再创建“鹤将头探入水中,并捉出一条鱼”的分镜,设置好间隔,Sora就能自动生成一个完整的视频镜头。而且在这个过程中,创作要素不只是故事卡,也可以是直接的图片、视频。以视频为例,将白鹤的视频切下来导入故事板,进行剪切后,就可以给视频的前方和后方留出继续创作的间隙,即可以有新的开头和结尾,这就为无限创作提供了可能,就像一个剪辑师、导演通过对分镜设计和镜头素材的不断生成剪辑,慢慢剪出自己心中的片子。这种创作方式突破了传统创作的限制,为创作者提供了更多的创意空间 。

(二)营销和广告领域 在营销和广告中,Sora可以快速生成符合需求的视频内容。例如,品牌商想要推广一款新产品,可以简单地输入产品的特点、使用场景等描述,Sora就能生成吸引人的视频。比如描述一款运动饮料,“在炎热的沙漠中,一位运动员在奔跑后喝了我们的运动饮料,瞬间充满活力,继续向前冲刺”,Sora可以生成相应的视频,展示出产品的效果和使用场景,而且可以根据不同的营销需求调整视频的风格、时长、画面比等参数,从而制作出个性化的营销视频。

(三)教育领域 在教育方面,Sora可以帮助教师更生动地讲解知识。例如,教师在讲解历史事件时,可以输入如“古代罗马士兵在战场上战斗的场景”,Sora生成的视频可以让学生更直观地了解历史场景。或者在讲解科学知识时,像“地球的公转和自转”这样的概念,Sora可以生成动画视频来辅助教学,使抽象的知识变得更加直观易懂。

总的来说,OpenAI的Sora在视频生成能力方面具有很大的潜力,虽然目前还存在一些不足之处,但随着技术的不断发展和改进,相信它在未来会在更多的领域发挥出更大的作用。