Sora会对视频剪辑软件造成什么冲击?是否会替代剪影?

256 阅读9分钟

本文全面介绍了OpenAI最新发布的视频生成模型Sora,这是一款划时代的产品,能够生成长达60秒的视频,并支持单视频的多角度镜头切换。这对字节跳动旗下的剪映而言,可能构成了巨大挑战,因为剪映正专注于Sora所涵盖的视频生成领域。同时,文中也探讨了Sora对AI视频生成行业其他创业公司的影响。

主要亮点:

  • 💥 Sora的创新之处:Sora能生成超过60秒的视频,支持多角度镜头切换,为还原现实世界的真实场景提供了更大的可能性。
  • 🔥 对剪映的影响:Sora的出现对剪映构成了直接竞争,后者正聚焦于Sora所处的视频生成领域。
  • 对AI视频生成领域的挑战:Sora对包括Midjourney、Stability AI、Runway等在内的AI视频生成领域独角兽企业构成了挑战。

行业反响:

  • Sora的推出再次证明了OpenAI在AI领域的领先地位。
  • Sora的性能表明,ChatGPT上验证的模型性能缩放法则同样适用于视频领域,强化了“大模型带来更好性能”的理念。
  • 行业内对Sora的反应各异,有的公司准备迎接挑战,有的则开始筹备对标产品。

对字节跳动的影响:

  • 字节跳动可能面临挑战,因为Sora直接涉足其AI创新的关键方向。
  • 抖音前CEO张楠正计划在AI生成视频领域大展拳脚,但Sora的出现可能给其带来了前所未有的竞争压力。

AI视频生成的市场前景:

  • 截至2023年底,AI视频生成领域已涌现出众多独角兽公司,显示出该领域的巨大潜力。
  • Sora的出现可能会加剧这一领域的竞争,促使行业进一步发展。

综上所述,Sora的推出对AI视频生成领域意义重大,不仅因其技术创新,也因为它对现有市场格局的潜在影响。这一变化对于行业内的企业来说,既是机遇也是挑战。

字节跳动的AI视频生成进展:MagicVideo-V2

在OpenAI发布Sora之前,字节跳动并非毫无准备。字节的研究团队已经在arXiv上发表了一篇重要的论文,揭示了他们正在开发的一款革命性文本到视频的AI模型——MagicVideo-V2。这个模型通过集成多个先进模块,包括文本到图像模型、视频运动生成器、参考图像嵌入模块和插值模块,能够实现文字到视频的自动化生成。

MagicVideo-V2的目标在于解决当前市场上AI视频生成产品普遍存在的问题,比如视频保真度不高、动作不自然、分辨率和风格多样性不足等。这些挑战同样影响着字节旗下的剪映产品,尤其是其“图文成片”功能。

随着MagicVideo-V2的研发逐步成熟,从demo阶段走向量产,张楠及其团队在过去一个月中通过用户访谈收集了许多一线创作者对AI视频生成产品的不满和期望。其中一个关键反馈是,许多创作者为了更好地表达自己的创意,不得不跨越多个产品,通过复杂的编辑和交互流程来完成作品。

例如,去年8月UP主数字生命卡兹克在制作爆款视频《流浪地球3预告片》时,就需要借助MidJourney、Runway等多款产品,并投入了长达5天的后期剪辑和拼接工作。

这背后的主要问题在于现有AI视频生成软件的智能化和便捷性不足。在Sora出现之前,业界常规的做法是生成单一、静态视角的短视频片段,而且背景风格多为赛博朋克风格。

然而,Sora的登场彻底改变了这一局面。它能够应对复杂的视角和场景切换,仅通过简单的提示词即可生成视频,既保证了便捷性,又最大限度地确保了生成内容与现实物理世界的相似度。

Sora的创新与挑战

字节跳动及其研究负责人张楠所期望的AI视频生成技术的高标准——如更高的保真度、更清晰的画面质量以及更加流畅自然的逻辑理解能力——在OpenAI的Sora中得到了初步实现。这标志着AI视频生成技术的一个重大突破,但也带来了新的挑战。

尽管Sora在技术上取得了显著进展,但据官方声明,这个系统还“处于世界模型研究应用的初期阶段”,这意味着它仍然存在一些不完善之处。事实上,Meta的首席科学家杨立昆对Sora提出了质疑,他指出,仅能根据提示生成逼真视频,并不等同于系统真正理解了物理世界。

OpenAI官网也指出,Sora可能难以准确模拟复杂场景的物理原理,理解因果关系,以及处理空间细节如左右的混淆。此外,Sora在描述随时间推移的事件时,如遵循特定的相机轨迹,也可能表现不佳。这些限制可能导致生成一些逻辑上不合理的视频,例如一个人在跑步机上跑错方向的情况。

这些未解决的问题是OpenAI暂时未全面开放Sora的原因之一。目前,OpenAI正在有选择地对部分用户进行内部测试,以评估关键领域的潜在危害或风险。这样的测试旨在收集用户反馈,以便进一步改进和优化模型。这种谨慎的方法反映了OpenAI对于其创新技术可能带来的影响和风险的高度关注。

AI视频生成模型助力通往AGI的道路

随着ChatGPT的发布,外界开始更加清晰地看到实现通用人工智能(AGI)的可能性,而像Sora这样的视频生成模型无疑成为了这一进程的重要推动力。

OpenAI在其官方网站上明确表示:“Sora提供了理解和模拟真实世界的基础,我们相信这是实现AGI的一个关键里程碑。”

除了OpenAI,其他公司也在积极探索利用视频生成模型推进AGI的发展。例如,Runway在去年12月提出了开发通用世界模型(General World Model)的目标,并计划用其视频生成技术Gen-2来模拟整个世界。他们相信,理解视觉世界及其动态是人工智能下一个重大进步的关键。

**对现实世界物理法则的理解,是通往AGI的关键一步。**360公司创始人周鸿祎在评论Sora时指出,一旦AI可以通过摄像头观察并理解所有现有视频,其对世界的理解能力将远超过仅通过文字学习。“我们可能离真正的AGI已经不远了,这不是十年二十年的问题,可能只需一两年。”

这种对AGI概念的关注推动了AI图像和视频领域垂直领域大模型公司的估值飙升,孕育了如Midjourney、Stability AI、Runway等一批明星独角兽公司。

在字节跳动的业务层面,图片/视频生成技术不仅有助于提升创意效率,还能帮助广告客户低成本、便捷地制作视频。据字节内部人士透露,字节广告客户的总投放成本中约有10%-20%用于视频制作。从去年开始,字节已在开发相关产品帮助广告客户降低这部分成本。

尽管在推出类似文生视频产品方面稍显落后,但这也为张楠等人提供了一个借鉴Sora的机会。

在ChatGPT亮相之前,算法上的不足曾是制约对话大模型研发的主要障碍之一。人工智能专家丁磊博士解释说,一些大模型创业公司在训练大模型方面还不够成熟。“如果训练方法不正确,再多的GPU也无济于事。”

Pika创始人郭文景在谈到追赶Sora的过程中提到,当前生成式视频发展的一个重要限制是算法的成熟度。“尽管语言对话模型的方法已经相对成熟,但视频领域还缺乏有效的算法。”

Sora的发布无疑为整个行业提供了一个有效的解决方案,也为郭文景和张楠等领域内创业者提供了成熟的算法参考路径。

随着Sora的推出和ChatGPT的影响力,越来越多的公司开始专注于AI和视频生成领域的研究和开发。字节跳动作为一家主要的科技公司,在追赶这一潮流方面显得稍显迟缓。对比于百度和阿里等中国国内的大型科技公司早期投入到AI大模型的研发,字节跳动的进展似乎没有那么迅速。

从报道来看,字节跳动曾在2020年试图开发自己的语言生成模型,但因为其模型的参数规模较小,生成能力一般,且看不到明显的商业化前景,最终没有继续深入开发。随着AI技术的快速发展和外界压力的增加,字节跳动似乎开始加快其在AI领域的步伐,尤其是在视频生成领域。

除了追赶技术发展的挑战,字节跳动和其他中国科技公司还面临着芯片供应的问题。去年10月,英伟达的几种主要GPU芯片对中国的供应受到限制,这对依赖高算力的AI模型研发构成了重大障碍。在全球AI技术的竞赛中,算力成为关键因素之一。这意味着,除了技术开发本身,字节跳动还需要解决算力资源的问题,才能有效地追赶并实现其AI战略目标。

参考资料:

《剪映全员信》张楠

《Sora发布后,Pika创始人独家回应钛媒体:很振奋,我们将直接冲》钛媒体

想使用Sora的可以参考这篇文章: 【保姆级】OpenAI Sora:最新文生视频教程,Sora怎么用(新手小白)