Genie项目:体验无限生成的交互世界

5 阅读4分钟

Project Genie: 体验无限、可交互的世界

今年八月,我们预览了Genie 3,这是一个通用的世界模型,能够生成多样化的交互环境。即使在当时这个早期阶段,可信赖的测试者们也已经能够创造出令人印象深刻的、广泛而迷人的世界和体验,并发现了使用它的全新方式。下一步是通过一个专注于沉浸式世界创建的、专用的交互式原型来扩大访问范围。

从今天开始,我们向美国地区的某机构AI Ultra订阅者(18岁以上)开放Project Genie的访问权限。这个实验性的研究原型让用户可以创建、探索和重新组合属于自己的交互式世界。

如何推进世界模型

世界模型可以模拟环境的动态,预测它们如何演变以及动作如何影响它们。虽然某机构DeepMind在特定环境(如下棋)中拥有智能体的研发历史,但构建通用人工智能(AGI)需要能够驾驭现实世界多样性的系统。

为了迎接这一挑战并支持我们的AGI使命,我们开发了Genie 3。与在静态3D快照中探索的体验不同,Genie 3会随着你在世界中的移动和互动,实时生成前方的路径。它为动态世界模拟物理和交互,同时其突破性的一致性使得模拟任何现实世界场景成为可能——从机器人技术、建模动画和虚构故事,到探索地点和历史环境。

在与来自不同行业和领域的可信赖测试者进行模型研究的基础上,我们通过一个实验性研究原型——Project Genie——迈出了下一步。

Project Genie的工作原理

Project Genie是一个原型网络应用,由Genie 3、某机构Nano Banana Pro和Gemini驱动,允许用户亲身体验我们世界模型的沉浸式能力。该体验围绕三个核心功能展开:

  1. 世界草图绘制 使用文本提示以及生成或上传的图片来创建一个生动、可扩展的环境。创建你的角色、你的世界,并定义你希望如何探索它——从步行、骑行、飞行到驾驶,以及任何其他方式。 为了实现更精确的控制,我们将“世界草图绘制”功能与某机构Nano Banana Pro相集成。这允许你预览你的世界将会是什么样子,并在进入世界之前修改你的图像以微调世界。你还可以定义角色的视角——例如第一人称或第三人称——让你在进入场景之前就能控制你体验世界的方式。

  2. 世界探索 你的世界是一个可导航的环境,等待你去探索。当你移动时,Project Genie会根据你所采取的行动实时生成前方的路径。你也可以在世界中穿行时调整摄像机视角。

  3. 世界重组 通过在现有世界的提示词基础上进行构建,将它们重新组合成新的诠释。你也可以在图库或随机生成器中探索精选世界以获得灵感,或者在它们的基础上进行构建。完成后,你可以下载你的世界和探索过程的视频。

如何负责任地构建

Project Genie是某机构Labs中的一个实验性研究原型,由Genie 3驱动。与我们在通用AI系统方面的所有工作一样,我们的使命是负责任地构建AI以造福人类。由于Genie 3是一个早期研究模型,有几个已知的待改进领域:

  • 生成的世界可能看起来不完全逼真,或者并不总是严格遵循提示词、图片或现实世界的物理规律。
  • 角色有时可能较难控制,或者在控制时体验到的延迟较高。
  • 生成内容限制在60秒内。
  • 我们在八月宣布的Genie 3模型的一些功能,例如可在你探索时改变世界的可提示事件,尚未包含在此原型中。

在与可信赖测试者合作的基础上,我们很高兴能与使用我们最先进AI的用户分享这个原型,以便更好地理解人们将如何在AI研究和生成式媒体的众多领域中使用世界模型。

Project Genie的访问权限从今天开始逐步向美国地区的某机构AI Ultra订阅者(18岁以上)开放,并将在适当的时候扩展到更多地区。我们期待看到他们创造的无限多样化的世界,并且随着时间的推移,我们的目标是让更多用户能够使用这些体验和技术。FINISHED