Genie 3:世界模型的新前沿
今天,某中心宣布了Genie 3,这是一个通用的世界模型,能够生成前所未有的多样性交互环境。给定一个文本提示,Genie 3可以生成动态的世界,用户能够以每秒24帧的速度进行实时导航,并在720p的分辨率下保持数分钟的一致性。
迈向世界模拟
在某机构,过去十多年里一直在模拟环境研究领域处于领先地位,从训练智能体掌握实时战略游戏,到为开放式学习和机器人技术开发模拟环境。这项工作推动了世界模型的发展,这是一种能够利用其对世界的理解来模拟其各个方面的AI系统,使智能体能够预测环境将如何演化以及其行动将如何影响环境。
世界模型也是通往通用人工智能(AGI)道路上的关键垫脚石,因为它们使得在丰富的模拟环境的无限课程中训练AI智能体成为可能。去年,某中心推出了首个基础世界模型Genie 1和Genie 2,它们可以为智能体生成新环境。同时,也在视频生成领域不断推动技术前沿,例如Veo 2和Veo 3模型,它们展现了对直觉物理学的深刻理解。
这些模型分别标志着世界模拟不同能力方面的进展。Genie 3是首个允许实时交互的世界模型,同时相较于Genie 2,它在一致性和真实感方面也有所提升。
Genie 3的能力包括:
以下内容是对Genie 3实时交互的录制。
建模世界的物理属性
体验自然现象,如水和光照,以及复杂的环境互动。 (提示示例:火山区域中第一人称视角导航崎岖地形、灯节期间的喷气式滑水车、佛罗里达州飓风来临时海边行走、深海追踪水母、直升机在沿海悬崖上操控。)
模拟自然世界
生成充满活力的生态系统,从动物行为到复杂的植物生命。 (提示示例:在冰川湖畔奔跑探索森林小径、在深海峡谷中与大量水母群游泳、清晨的日本禅宗花园、茂密的热带树叶环境。)
建模动画与虚构
激发想象力,创造奇幻场景和富有表现力的动画角色。 (提示示例:在彩虹桥上奔跑的毛茸茸生物、折纸风格的蜥蜴、在魔法森林中控制萤火虫飞行、爱尔兰景观发生超现实剧变。)
探索地点和历史背景
超越地理和时间界限,探索不同的地方和过去时代。 (提示示例:阿尔卑斯山的真实山地环境、威尼斯运河乘船游览、探索克里特岛克诺索斯宫殿、伊利诺伊州欣斯代尔小镇漫步、印度悬崖边公路骑行。)
推动实时能力的前沿
在Genie 3中实现高度的可控性和实时交互性需要重大的技术突破。在自回归生成每一帧的过程中,模型必须考虑随时间增长的前序生成轨迹。例如,如果用户在一分钟后重新访问一个地点,模型必须参考一分钟前的相关信息。为了实现实时交互,这种计算必须在收到新用户输入时每秒进行多次。
长时间范围内的环境一致性
为了使AI生成的世界具有沉浸感,它们必须在长时间范围内保持物理一致性。然而,自回归生成环境通常比生成整个视频在技术上更困难,因为不准确性会随时间累积。尽管面临挑战,Genie 3的环境在数分钟内保持大体一致,视觉记忆可以追溯到一分钟前。
(提示示例:第一人称用油漆滚筒粉刷房屋、带有通往沙漠传送门的维多利亚风格街道、充满巨型蘑菇和蘑菇屋的奇幻森林、穿着华丽服饰手持阳伞的大猩猩漫步在豪宅间、漫步在古雅典。)
Genie 3的一致性是一种涌现能力。其他方法,如神经辐射场(NeRFs)和高斯泼溅(Gaussian Splatting)也允许一致的、可导航的3D环境,但它们依赖于提供显式的3D表示。相比之下,由Genie 3生成的世界更加动态和丰富,因为它们是基于世界描述和用户操作逐帧创建的。
可提示的世界事件
除了导航输入,Genie 3还支持一种更具表现力的基于文本的交互形式,称之为可提示的世界事件。可提示的世界事件使得改变生成的世界成为可能,例如改变天气条件或引入新的物体和角色,从而增强超出导航控制的体验。
这种能力也增加了可以被用于从经验中学习的智能体处理意外情况的“反事实”或“假设”场景的广度。选择一个世界设定,然后选择一个事件,即可看到Genie 3如何创建它。
推动具身智能体研究
为了测试Genie 3创建的世界对未来智能体训练的兼容性,为某机构近期版本的SIMA智能体生成了世界。SIMA是一个用于3D虚拟环境的通用智能体。在每个世界中,指示该智能体追求一组不同的目标,它通过向Genie 3发送导航操作来努力实现这些目标。像任何其他环境一样,Genie 3并不知道智能体的目标,它只是基于智能体的操作来模拟未来。选择一个世界设定,然后选择一个希望智能体实现的目标,观察它如何完成。
由于Genie 3能够保持一致性,现在可以执行更长的操作序列,实现更复杂的目标。预计这项技术将在推动实现AGI的过程中发挥关键作用,届时智能体将在世界中扮演更重要的角色。
局限性
尽管Genie 3突破了世界模型的能力边界,但承认其当前的局限性也很重要:
- 有限的操作空间:尽管可提示的世界事件允许广泛的环境干预,但这些干预不一定由智能体本身执行。智能体可以直接执行的操作范围目前受到限制。
- 交互和其他智能体的模拟:准确模拟共享环境中多个独立智能体之间的复杂交互仍然是一个持续的研究挑战。
- 对真实世界位置的准确表示:Genie 3目前无法以完美地理精度模拟真实世界位置。
- 文本渲染:清晰易读的文本通常只在输入世界描述中提供时才能生成。
- 有限的交互时长:该模型目前支持几分钟的连续交互,而非延长至数小时。
责任
某中心相信,基础技术从一开始就需要对责任有深刻的承诺。Genie 3中的技术创新,特别是其开放性和实时能力,为安全性和责任带来了新的挑战。为了在努力实现效益最大化的同时应对这些独特的风险,团队与其负责任开发与创新团队密切合作。
在某机构,致力于以增强人类创造力、同时限制非预期影响的方式开发其顶尖模型。随着继续探索Genie的潜在应用,将以有限研究预览的形式发布Genie 3,为一小部分学者和创作者提供早期访问权限。这种方法使得在探索这一新前沿时能够收集至关重要的反馈和跨学科视角,并继续构建对风险及其适当缓解措施的理解。期待与社区进一步合作,以负责任的方式发展这项技术。
后续步骤
某中心相信,Genie 3是世界模型的一个重要时刻,它们将开始对AI研究和生成式媒体的许多领域产生影响。为此,正在探索如何让更多测试者在未来能够使用Genie 3。
Genie 3可以为教育和培训创造新的机会,帮助学生学习和专家获取经验。它不仅可以为训练像机器人和自主系统这样的智能体提供广阔的空间,还可以使得评估智能体的性能和探索其弱点成为可能。
在每一步,都在探索工作可能带来的影响,并以安全、负责任的方式为造福人类而开发。