Project Genie:尝试无限、可交互的世界
2026年1月29日 · 4分钟阅读
美国某机构的AI Ultra订阅用户可以尝试Project Genie,这是一个实验性研究原型,允许用户创建和探索世界。
AI生成摘要
某机构正在向美国某AI Ultra订阅用户推出Project Genie。Project Genie是一个研究原型,允许用户创建、探索和混编可交互的世界。用户可以使用文本提示和图像来构建环境,并实时在其中导航。
我们如何推进世界模型
世界模型模拟环境的动态变化,预测环境如何演变以及行为如何影响环境。虽然某深度思维部门在针对特定环境(如国际象棋或围棋)的智能体方面有着历史积累,但构建通用人工智能(AGI)需要能够应对真实世界多样性的系统。
为了应对这一挑战并支持AGI使命,我们开发了Genie 3。与静态3D快照中的可探索体验不同,Genie 3在你移动并与世界交互时,实时生成前方的路径。它模拟动态世界的物理和交互,同时其突破性的一致性使得能够模拟任何真实世界场景——从机器人技术和建模动画与虚构,到探索地点和历史背景。
在跨行业和跨领域的可信测试者进行的模型研究基础上,我们正通过一个实验性研究原型——Project Genie——迈出下一步。
Project Genie的工作原理
Project Genie是一个由Genie 3、Nano Banana Pro和Gemini驱动的原型网页应用,允许用户亲身体验我们世界模型的沉浸式能力。该体验围绕三个核心能力展开:
1. 世界草图
使用文本提示以及生成或上传的图像来提示,创建一个活生生的、不断扩展的环境。创建你的角色、你的世界,并定义你希望如何探索它——从步行、骑行、飞行、驾驶,以及任何其他方式。
为了更精确的控制,我们已将“世界草图”与Nano Banana Pro集成。这允许你在进入世界之前预览世界的外观,并修改图像以微调你的世界。你还可以为角色定义视角——例如第一人称或第三人称——让你在进入场景之前控制体验场景的方式。
2. 世界探索
你的世界是一个可导航的环境,等待被探索。当你移动时,Project Genie会根据你采取的行动实时生成前方的路径。你还可以在穿越世界时调整相机。
3. 世界混编
通过基于现有世界的提示进行构建,将现有世界混编成新的诠释。你还可以在画廊中探索精选世界,或选择随机图标获取灵感,或者在它们之上进行构建。完成后,你可以下载你的世界和探索过程的视频。
我们如何负责任地构建
Project Genie是某实验室部门中的一个实验性研究原型,由Genie 3驱动。与所有通用AI系统的工作一样,我们的使命是以负责任的方式构建AI,造福人类。由于Genie 3是一个早期研究模型,存在几个已知的待改进领域:
- 生成的世界可能看起来不完全逼真,或并不总是严格遵守提示、图像或真实世界的物理规律。
- 角色有时可控性较差,或在控制时经历较高延迟。
- 生成时长限制为60秒。
- 我们在8月宣布的Genie 3模型的部分能力(例如在探索过程中改变世界的可提示事件)尚未包含在此原型中。
基于我们与可信测试者所做的工作,我们很高兴与最先进AI的用户分享这个原型,以更好地理解人们将如何在AI研究和生成式媒体的许多领域使用世界模型。
Project Genie的访问权限从今天开始向美国(18岁以上)的某AI Ultra订阅用户逐步开放,并将在适当时候扩展到更多地区。我们期待看到他们创造的无限多样的世界,并且随着时间的推移,我们的目标是让更多用户能够使用这些体验和技术。FINISHED