OpenAI 于 美国当地时间2024 年 12 月 9 日正式推出了其尖端的 AI 视频生成工具 Sora,提供了先进的功能,如文本生成视频、图像转视频和视频扩展功能。凭借其创新的扩散变压器模型和多模态输入处理,Sora 将彻底改变从娱乐到教育的各个行业,同时引发关于创造力、伦理和工作替代的重要讨论。
Sora 的主要功能
Sora,OpenAI突破性的AI视频生成器,凭借其令人印象深刻的功能,在AI生成内容领域脱颖而出。该工具可以将文本和图像提示转换为极其逼真的视频,为用户提供了前所未有的创作灵活性。Sora的功能不仅限于简单的视频生成,它还可以扩展现有视频或填补缺失的帧,为内容创作者和电影制作人提供了多功能的工具集。
Sora的主要功能包括:
- 从文本描述生成高质量视频
- 图像到视频的转换
- 视频扩展和帧补全
- 能够生成最长达60秒的视频
- 支持多种纵横比,包括竖屏、方形和宽屏格式 这些功能使Sora成为专业和业余内容创作者的强大工具,有可能彻底改变各行业中视觉故事的讲述和制作方式。
定价和地区可用性
OpenAI 推出了 Sora,并提供了不同的订阅等级,使这款文本转视频工具能够被更广泛的用户群体使用。该服务现已向美国及其他特定市场的用户开放。值得注意的是,自 2024 年 12 月 9 日推出以来,ChatGPT Plus 和 ChatGPT Pro 订阅用户已获得 Sora 的使用权限。虽然尚未披露 Sora 独立订阅的具体定价细节,但分级模式表明 OpenAI 旨在满足不同用户的需求和预算,可能会根据所选订阅等级提供不同的功能或使用限制。
Sora的技术发展
Sora的技术发展代表了AI生成视频技术的重大飞跃,利用了一种复杂的扩散变压器模型,将扩散模型和变压器架构的优势结合在一起。这种创新方法使Sora能够生成高质量的视频,时长可达60秒,这比之前的文本生成视频模型有了显著提升。该系统先进的时空理解能力使其能够理解并生成复杂场景,包括多个角色、真实物理效果以及一致的摄像机运动。
Sora的关键技术特点包括其多模态输入处理能力,可以通过文本描述、静态图像和现有视频片段生成视频。该模型采用了强大的训练方法,通过广泛的数据集和严格的流程,确保其能够处理多样化的场景,同时在生成内容中保持一致性。在公开发布之前,Sora经过了安全评估人员(通常被称为“红队”)的全面测试,他们致力于识别和解决与错误信息和偏见相关的潜在漏洞。这种全面的开发方法使Sora成为一款突破性的工具,在娱乐、广告、教育和科学可视化等多个行业中具有潜在应用价值。
对娱乐行业的影响
OpenAI 的 Sora 的发布在娱乐行业,特别是好莱坞,引发了兴奋和担忧。亿万富翁电影制作人泰勒·派瑞(Tyler Perry)在看到 Sora 的能力后,暂停了其价值 8 亿美元的工作室扩建计划,这突显了该工具对传统电影制作流程可能带来的颠覆性影响。
尽管 Sora 提供了前所未有的创作可能性,但它也引发了对工作岗位流失的担忧。最近的一项研究估计,由于人工智能的进步,未来三年娱乐行业将损失近 204,000 个工作岗位。尽管面临这些挑战,Sora 在内容创作方面也带来了创新的机会。该工具能够通过文本提示生成高质量视频,这可能使电影制作民主化,让小型创作者以更低的成本制作出专业水准的内容。然而,行业专家强调,需要保护知识产权并为内容创作中的人工智能使用建立伦理准则。随着娱乐行业适应这一新技术,在利用 Sora 的能力与保留人类创造力的独特价值之间找到平衡仍然是一个关键的考量因素。