AI生成视频迎来革命性“变革”?

159 阅读20分钟

AI生成视频的最新变革:从技术突破到应用拓展的全面演进

2023 - 2024年期间是AI视频生成取得重大变革的时期。在这期间,数十种视频生成产品受到全球大量用户的关注。以Gen - 2、Pika等为代表的产品成为爆款,这标志着AI视频生成走向大众视野。

过去AI视频生成工具相对受限,多数只能生成3 - 4秒的短视频,并且质量参差不齐,如角色一致性等问题也尚未得到较好解决,距离制作出如皮克斯级别那样高质量的短片还很远。然而,如今的变革趋势显示,世界正处于类似于图像生成领域经历过的大规模变革早期阶段。文本到视频的模型不断改进,众多产品让用户只需输入文字,就能够初步生成视频内容。并且图像到视频、视频到视频等分支也蓬勃发展,不断拓宽AI视频生成的应用边界。

同时,其分发模式也产生了变革。起初AI视频生成产品大多来自初创公司,其中很多是用Discord bots来分发,这一模式可以利用Discord每月1.5亿活跃用户的基础进行传播,公共渠道还能给新用户提供获取创作灵感(比如查看他人创作内容)。但是随着技术成熟,越来越多AI视频产品开始建立自己的网站甚至APP,逐渐摆脱这种单一的依赖模式,更好地控制用户体验和改进自己的工作流程,以吸引更多不使用Discord(因界面混乱和操作困惑)的潜在用户。

大型科技公司在这个变革浪潮中有自己的节奏。到目前为之,多数大型科技公司虽然没有推出自己的公开AI视频产品,但通过发表各类视频生成的论文,展示自己在这个领域的研究深度。像谷歌有文本生成视频的模型Lumiere,但考虑到法律、安全、版权等多方面的担忧,他们暂时没有将其转化为直接面向市场的产品,这种较保守的姿态也从侧面反映了当前变革过程中存在的挑战问题。

AI生成视频内容质量及功能改进变革补充 在内容质量方面,从最开始生成的视频质量差,内容简单,逐渐发展到可以理解一些稍微复杂的指令并生成相应预想中的视频。例如早期只能生成一些物体或是简单场景,现在可以根据设定的故事场景、如科幻场景下不同角色的交互来生成视频。在控制功能上也有变革,以前只是简单地按照大致设定生成视频,现在部分产品增加了如镜头zoom、pan或者添加特效等功能,以满足创作者对视频更多的操控需求。如Runway的motionbrush允许用户选定图像的特定区域并确定其运动方式,改善了生成视频的可控性方面的缺陷。

AI生成视频的技术突破:算法、时长和模型优化下的视频生成飞跃

时长突破:标志着AI视频生成能力的重大跃升 从时长的角度来看,AI视频生成技术有着显著的突破。最初RunwayAI发布的视频时长仅有模糊卡顿的4秒,这限制了视频内容的完整性和丰富度。但在后续发展中,该公司在短短四个月后将视频效果提升至4K超逼真水平,同时实现了时长突破到18秒这一重要进展。这过程中涉及大量的算法改进、数据优化等技术研发工作,为整个AI视频生成领域开拓了发展的方向和增强了研发信心。然而这一成绩并未能长期保持“峰值”,OpenAI于2024年2月16日凌晨发布的Sora模型再次掀起了技术革新高潮,该模型能够生成长达60秒的视频。这一突破不仅仅是在数字上的简单增长,更是在视频内容连贯性和自然性上取得了显著的进步。此外,清华大学与生数科技联合发布的视频大模型Vidu也有着突出表现,它可以支持一键生成长达16秒、分辨率高达1080p的高清视频内容,并且在画面效果上十分惊艳,可虚构出超现实画面,在多镜头语言、时间和空间一致性、遵循物理规律等多方面表现卓越,为国产AI视频生成技术带来了重大的突破和标志性成果。

算法及模型的技术革新 算法上,例如W.A.L.T.扩散模型的出现。它是由斯坦福大学教授李飞飞团队与谷歌、佐治亚理工学院联合推出的用于生成逼真视频的扩散模型。这个模型是一个基于Transformer的扩散模型,其独特之处在于通过在共享潜在空间中训练图像和视频生成,以达成高质量视频生成目的。它采用扩散模型的经典方法,将随机噪声添加到潜在表示中,然后使用经过严格训练的解码器把带噪的潜在表示恢复为原始视频,从而生成全新的视频内容。这一模型的创新之处在于从算法底层逻辑角度探索视频生成问题的解决之道,为整个领域提供了新的技术思路和研究方法的参考。在模型创新上,Sora的模型算法对于AI如何理解和生成视频内容有着重要突破,比如它能够理解输入文字、图片背后隐含的语义关系,除传统的文生视频之外,还能实现像根据一张图片生成视频、向前扩展视频制作保证故事连贯性、融合多个无关联视频片段生成完整故事等一系列复杂的视频创作功能。这些创新和突破均表明在AI视频生成技术领域,技术迭代朝着更加智能化、人性化的方向发展,使人工干预与智能算法的协作更加高效融合,为更高质量和更多样化的视频生成奠定理论和技术基础。

技术突破带来的行业变化与挑战补充 技术的不断突破对整个行业生态提出了新的要求。一方面大量初创公司专注于利用已有的技术突破创新产品,如利用增加的视频时长来制作一些小型的微电影级别的作品;科学家们则依据相关成果继续深耕算法改进等理论研究。另一方面也面临着问题,这种快速的技术迭代导致对硬件资源需求不断增加,数据安全、隐私保护等方面的技术难度陡增,因为随着AI视频生成能力和生成质量提升要处理的数据更多更复杂,如何保护用户输入数据、AI模型所依赖的训练数据成为重要问题。

AI生成视频变革的影响:从创作领域到社会层面的全方位颠覆与重塑

对创作领域的影响:创作模式和市场格局的重塑 视频制作的变革 AI生成视频对视频制作环节产生了深刻的影响。首先,在制作效率方面有着巨大提升。过往需要耗费大量人力、物力和时间的视频制作流程,因AI技术的介入变得更为高效和便捷。传统的视频制作从剧本创作、选角、拍摄、剪辑到后期特效处理等,每个环节都需要专业人员长时间投入。而AI生成视频技术能够简化部分环节甚至直接生成一些符合需求的片段或初版成品。例如借助一些AI工具生成特定场景、角色动画等素材,并直接运用到影片制作中,可以大大节省素材准备时间。像《千秋诗颂》这部动画的制作就借助了AI辅助从美术设计到动效生成再到后期成片,从一个月1集加速到一个月3集,速度提升两倍,展现出了AI在视频制作流程中的效率提升作用。其次,制作的创意内容扩展。AI模型从海量数据中学习,能够自动生成新颖的创意作品。创作者可以通过这种方式获得更多创意元素灵感或者以AI作品为基础进一步加工创作。例如,AI可以根据设定的风格生成特定元素内容,创作者基于此添加上自己的创意构思,创作出融合AI特点和个人思想的独特作品。

创作者结构及市场竞争的冲击 在创作者结构上,对于原本的创作者既存在挑战也意味着机遇。AI如果能够学习人类的视频运镜和剪辑手法,在技术成熟后就可能高频次地输出精品内容,这会对一些低质量创作者(例如缺乏创意只做基础剪辑拼接的创作者)形成毁灭性的打击。但对于高水平的创意型创作者而言,AI是一个强大的助手,可以帮助他们实现一些以前难以达成的视觉效果,释放更多的创作精力到创意构思之中。在影视产业链条中的编剧行业,也会因AI的创作能力面临内容创作方式和竞争格局的改变。从市场竞争角度来看,一些AI视频生成产品背后的公司可能凭借技术优势快速占据市场份额,像OpenAI发布Sora之后,迅速引起行业内对其在视频制作等多种应用场景下的广泛关注可能会改变AI视频生成产品的市场竞争格局。

对社会层面的影响:改变了信息传播方式与社会体验 信息传播方式的变革 AI生成视频改变了信息传播中的内容构成和传播速度。在内容构成上,将会有大量的AI生成视频内容流动在各种信息渠道中,这些视频可能会涉及各个领域的知识、娱乐等内容。对于普通大众获取知识而言,也许他们能够更便捷地从AI生成的教育类视频获得相关信息(例如使用AI生成文科知识讲解视频用于辅助学习)。在传播速度上,因为AI生成视频的高效性,一旦有新的事件或者话题,可能在短时间内就会有大量基于此的AI视频出现并快速扩散。例如新闻事件发生后,AI可以根据新闻内容快速生成视频信息或者解读内容通过社交媒体等快速传播。

社会体验的变化 从社会体验的角度,AI生成视频会给大众带来更多不同的视觉体验。例如Sora生成的视频质量之高、内容丰富度之广,将会提升大众对高质量视频获取的期望和体验感。然而,与此同时也面临着挑战,社会公众可能会面临着更多的虚假信息或者说误导性视频。因为AI可以合成一些看似真实的场景,如果被不良目的利用就可能产生如政治谣言、混淆公众对事件认知等情况。同时从知识产权角度来看,如果AI视频在创作过程中不慎侵犯到了版权或者知识产权,可能会造成社会法律纠纷增多或者创意激励的扭曲(因为会存在一些依靠侵权获取内容的负面现象)。特别是像一些商业场景利用AI生成视频进行广告宣传等时候更容易涉及侵权风险问题。

影响的延伸思考补充 在长远的影响方面,AI生成视频可能会重塑现代文化格局。随着大众对AI视频的使用习惯化,可能会产生独特的AI生成视频文化,其中会包含特定的视觉风格、内容偏好等文化元素。例如未来可能会出现一种基于AI生成超现实元素的新艺术流派或者网络视频文化现象。而在道德伦理层面,如何判断AI视频是否违背公序良俗、是否包含歧视性或不良导向内容也是需要随着AI视频变革深入而持续探讨的话题。

AI生成视频变革的案例:技术变革背后的精彩实践

OpenAI的Sora:AI视频生成的新时代象征 OpenAI发布的Sora模型是AI视频生成变革中的一个标志性案例。它可以接收文本指令生成长达60秒的短视频,且视频不仅在普通连贯性上表现出色,而且在真实感、内容丰富度上达到令人赞叹的水平。比如在Sora的案例视频中,一个通过AI技术生成的戴墨镜的日本街头女主角,不仅仅可以行动自如,还能开口说话、唱歌,展现出高度的拟人化和真实感。Sora不仅支持文生视频,还有其他更强大的功能。例如能根据一张图片生成视频,这一功能打破了传统创作界限,如果提供一张赛车的照片,它可以生成一段紧张激烈的赛车比赛视频;它还能进行向前扩展视频制作,能够从当前画面既向前编织故事,又能反向拓展创造视频开头部分,确保整个故事完整连贯;并且可以融合看似毫无关联的视频片段变成一个完整而富有逻辑的故事。这些功能体现了Sora对视频内容深度的理解能力,它并不是只机械地按照指令生成视频,而是通过大量数据学习和分析后,呈现出对这个世界诸多元素之间逻辑关系的深度把握能力,进而能创作出如此丰富功能的视频内容。

阿里的EMO:图片与音频转视频的奇迹 2024年2月28日阿里巴巴智能计算研究所发布的EMO(EmotePortraitAlive)是一款令人瞩目的生成式AI模型。它仅需一张人物肖像照片和音频,便可让照片中的人物按照音频内容张嘴唱歌、说话,并且口型基本一致,面部表情和头部姿态相当自然。这个模型支持多种语言的口语音频,成功地将不同风格的肖像画、绘画以及3D模型和AI生成的内容制作成栩栩如生的动画视频。例如,能够让画中的蒙娜丽莎一展歌喉、能使《狂飙》中的高启强畅谈罗翔普法,甚至只要提供一张人物的图片,就能通过音频配合让图中人来上一段RAP,并且口型和表演都贴合得很好。这一案例展示了AI技术在多媒体融合生成视频方面的奇妙能力,为数字创意产业带来了更多创作的想象空间,它可以广泛应用在如短视频创作、虚拟网红制作等新兴产业之中。

国内《千秋诗颂》:AI助推动画制作的典范 国内上海人工智能实验室研发的文生视频大模型书生·筑梦在AI辅助动画制作领域有着积极的示范意义。在中央电视台首播的动画作品《千秋诗颂》共26集,每集约7分钟,通过这个AI模型综合运用可控图像生成、人物动态生成、文生视频等技术成果,高度再现了中国古诗词中的人物造型、场景和道具。《千秋诗颂》的出现展示了AI在动画这种艺术形式创作过程中大规模全流程参与制作的可能。AI不仅在提高动画制作效率方面发挥了重要作用(例如流速从一个月1集加速到一个月3集),还在文化传承方面体现价值。通过自动生成的方式将古代诗词变成了可视化的艺术作品,向广大观众尤其是年轻观众们传播了中国的古典诗词文化,这体现了AI视频生成在文化艺术创作方面的积极贡献。

案例补充与分析角度变化 从商业营销领域来看,美国服装品牌Diesel利用AI生成视频广告,为每个用户生成个性化的广告内容。通过分析用户的兴趣和行为数据,使得广告更符合不同用户的喜好,提高了广告的吸引力和点击率。从这个案例可以看出AI生成视频技术在商业盈利性领域中的价值挖掘潜力。它有助于企业针对性地传递产品信息、提升品牌知名度并在广告营销竞争日益激烈的市场中脱颖而出。在各种不同类型的案例中完整呈现了AI生成视频变革在不同场景下的应用方式、达到的效果以及由此对各个领域产生的推进或者变革影响力。这些案例作为一个个鲜活的范例能够直观地让我们看到AI生成视频技术在当代的发展状态和未来变革的潜力方向。

AI生成视频未来发展趋势:向着更高质量、多元应用、健康伦理的方向进军

技术持续优化提高视频质量和效率 随着算法的持续改进,特别是在深度学习算法、Transformer架构的发展等方面,AI生成视频的质量将会不断上升。一方面,将会产生更高分辨率、色彩更加逼真、细节更加丰富的视频内容。例如以往AI生成的视频可能存在画面不够细腻、色彩过渡不流畅等问题,未来有望得到解决。另一方面是速度的提升,神经网络运算速度加快,减少处理视频相关数据的时间,从而实现快速生成高时长、高质量的视频内容。像从之前之才能够生成4秒、18秒、60秒视频这样的逐步发展过程,未来很短时间内生成分钟级甚至更长时间视频也成为可能。并且随着多模态融合技术(如文字、图像、声音的融合处理能力进一步提高),可以进一步改善产品体验,产生更具有创意和融合性好的视频内容。例如可以更加准确地根据一段小说文本转化成具有匹配的人物语音、合适画面场景的完整视频内容等。

应用场景进一步拓宽改变多领域业态 除目前常见的娱乐、艺术领域外,AI生成视频会在医疗、新闻、教育等行业深入拓展其应用价值。在医疗领域,依据患者的医学图像(如CT、MRI等),AI可以为医生生成可视化的三维视频或者手术操作预案动画视频等更直观的内容。这有助于医生提升诊断准确性、让患者更好地理解自身病情或者治疗方案。在新闻领域,不仅能够快速生成新闻事件的视频报道内容,还可以对复杂的财经、政治等事件通过动画、图形展示等多种视频形式进行解读以便大众更好地理解信息。教育领域可以根据课程内容生成互动性很强、个性化定制的教学视频。例如关于物理运动定律的教学,可按学生的学习程度和理解差异生成不同的演示视频。这些变化将对各个应用领域的业态带来巨大改变。例如在教育领域可能会促使新的教育资源整合者出现,他们收集优质的AI生成教育视频,通过整合优化推广给不同的学校或者学习个体;在医疗行业可能会重新构建医患沟通模式,通过AI生成视频让交流更顺畅高效。

强化健康与伦理监管实现可持续发展 由于AI生成视频可能产生的伦理道德、隐私侵犯、版权纠纷等问题,未来一定是朝着强化监管方向发展的。在伦理方面,如何避免AI生成的视频包含歧视性内容、暴力不良导向内容等是重要的思考方向。相关的组织、机构或者行业协会会出台更加严格的标准和规范来约束AI视频生成相关企业和人员的行为。针对隐私问题,例如不能在AI生成视频中不当使用用户的个人图像、声音等敏感信息。在版权问题上,要确保AI所使用的数据来源合法合规,生成的视频不会侵犯到其他创作者的版权。同时也需要技术手段辅助管理,例如利用区块链等技术进行数据溯源,保证视频生成过程的合法性和透明性。通过这些健康和伦理方面的监管与保障措施,AI生成视频才能在长远发展过程中实现健康、可持续的发展模式。

发展趋势的战略布局角度补充 从企业战略布局方面思考,未来各大科技公司会加大在AI生成视频技术相关的人工智能、云计算、大数据等基础设施方面的投入,以抢占技术的先发优势或者巩固自己的市场份额。如一些巨头可能会通过收购AI视频初创公司来快速扩充自己的技术能力或者产品种类。而国家层面可能会制定更多鼓励AI视频发展但同时保障大众的利益的政策,一方面推动本国在AI视频技术领域走向世界前沿,另一方面避免相关技术发展带来对公众不利的社会影响。同时在国际上也可能会产生全球性的AI视频技术标准协议等这样的东西,确保在全球化的网络环境下AI视频技术稳健、有序、健康地发展。