演示里最酷的功能
Genie 3 发布会上,最让人印象深刻的不是生成世界本身,而是那个"边走边改"的演示。
演示者在一个晴天的山谷里探索,突然输入"暴风雪来了"。画面就开始飘雪,能见度下降,地面变白。
这叫 Promptable World Events。在已经生成的世界里,用文字命令实时改变环境。
这个功能在 Project Genie 消费者版本里是没有的。
用户能做的和不能做的
目前 Project Genie 的流程是:
- 输入描述或上传图片
- 等几秒生成世界
- 用 WASD 键探索
- 60 秒后结束
你只能在第一步用文字控制。一旦世界生成完,你就只能走路。没法说"把天变暗"或者"让一辆车出现"。
这和发布会演示的体验差距很大。
为什么没开放
我猜有几个原因。
算力成本
实时响应文字命令比单纯生成画面更贵。
正常流程:用户按方向键 → 模型预测下一帧。输入是固定格式的。
Promptable Events:用户输入任意文字 → 模型理解文字含义 → 根据语义调整生成。需要额外的语言理解模块介入每一帧的生成。
多了一个环节,推理时间变长,GPU 占用变高。
如果 Genie 3 本身跑在成本边缘(很可能是),加上 Promptable Events 可能就亏钱了。
稳定性
从技术角度,让模型"记住"用户的文字改动是很难的。
你说"下雪了",模型在接下来几秒会画雪。但 10 秒后呢?模型的记忆窗口是有限的,雪可能慢慢变淡,最后消失。
发布会的演示是精心调过的。在真实用户手里,各种奇怪的 prompt 都会出现。"让这里着火同时下雪还要有龙飞过"——模型能稳定处理吗?
如果体验不稳定,还不如不开放。
内容审核
允许用户在运行时注入任意内容,审核难度直线上升。
生成初始世界的时候,你可以过滤 prompt。用户输入"裸体场景",直接拒绝。
但如果用户先生成一个正常的场景,然后在探索过程中输入敏感内容呢?
你需要实时审核每一个 prompt,同时不能增加太多延迟。这个工程问题不好解决。
Google 肯定不想因为审核不到位上新闻。
什么时候会开放
我的猜测是今年下半年。
Promptable Events 是 Genie 3 的核心卖点,不可能永远锁着。Google 花了这么多资源做这个功能,肯定要让用户用上。
但他们需要时间解决上面说的问题:
- 优化推理成本,让功能可持续运营
- 提高稳定性,减少"雪消失了"这类尴尬情况
- 建立实时审核机制
这些都需要时间。等技术和运营都准备好,功能才会上线。
可能的折中方案
也许完整的"任意文字改变世界"不会开放,但会有限制版本。
比如预设事件菜单:你不能输入任意文字,但可以从"下雨/下雪/起雾/夜晚"这些选项里选。
这样审核问题解决了(预设选项不会有敏感内容),稳定性也更可控(只需要针对有限的事件类型优化)。
用户体验打折扣,但至少功能可用。
对开发者的意义
Promptable Events 一旦开放,最大的受益者不是普通用户,是游戏开发者和交互设计师。
快速原型验证。策划想测试"这个关卡突然地震会怎样",以前要程序员实现。有了 Promptable Events,策划自己就能看效果。
动态训练环境。在训练 AI Agent 的时候,测试员可以实时改变环境条件,看 Agent 怎么应对。比固定的测试场景灵活得多。
交互叙事实验。让用户能"许愿"改变剧情走向,看看这种交互模式有没有市场。
当然,前提是功能稳定可用。
我的看法
Promptable Events 被锁住,说明 Google 对产品质量还是有要求的。
很多公司可能会选择"先上线再说,用户抱怨了再改"。Google 选择"内部调好了再放出来"。
作为用户我能理解这个选择。宁可等久一点用到靠谱的功能,也不想花 250 美元用一个半成品。
但 Google 也需要管理预期。发布会演示了那么酷的功能,用户订阅了发现用不了,会有受骗感。应该在产品页面更明确地说明"此功能尚未开放"。
沉默不是好策略。