GitHub 上搜 "Genie DeepMind",能找到好几个项目。比较热门的两个:
- open-genie:PyTorch 实现,约 250 星
- tinyworlds:极简实现,约 1100 星
这些项目复现的是 2024 年那篇论文"Genie: Generative Interactive Environments"描述的架构——也就是 Genie 1。
但 Google 现在放出来的是 Genie 3,中间还有个 Genie 2。问题来了:论文能跑的架构和产品级的实时交互,中间差了什么?
论文里说了什么
Genie 1 的论文描述了三个模块:
- 视频分词器(Video Tokenizer):把视频帧压缩成离散的 token
- 隐动作模型(Latent Action Model):从连续帧里推断出"隐动作"——在没有动作标注的情况下学习动作表征
- 动力学模型(Dynamics Model):根据历史帧和动作预测下一帧
核心创新是"隐动作"这个概念。传统世界模型训练需要动作标签(玩家按了什么键),但网络上的游戏视频大多没有这个标注。Genie 用一个编码器从相邻帧的变化里推断出动作,这样就能用大量无标注视频训练。
论文里展示的效果是 2D 平台游戏风格,分辨率比较低,时长也短。
开源项目做到了什么
以 tinyworlds 为例,它实现了论文里描述的三个模块:
- 用 FSQ(Finite Scalar Quantization)做视频分词
- 用 VAE 结构做隐动作推断
- 用 Space-Time Transformer 做动力学预测
跑起来可以生成一些简单的游戏世界,能响应键盘输入。作者放了几个预训练模型,可以在 Sonic、Zelda、Pong 这些老游戏的风格上跑。
但输出是低分辨率的(远低于 720p)、帧率不高、一致性也只能保持几秒。
差距在哪里
规模。 Genie 1 论文说模型是 11B 参数。Genie 3 没公布具体数字,但肯定更大。开源项目受限于算力,通常只能跑几亿参数的版本。
训练数据。 DeepMind 用的是海量网络视频,包括游戏实况、真实世界录像等。开源项目只能用公开数据集,数据量差几个数量级。
工程优化。 实时交互需要推理速度极快。论文里说 Genie 3 有蒸馏版本可以实时跑,但质量有下降。这种"让模型又快又好"的工程优化是论文不会细讲的工业秘密。
多代迭代。 Genie 2 改进了一致性(从几秒到几十秒),Genie 3 又进一步推到几分钟。每一代都有架构或训练方法上的改进,这些增量改进没有完整公开。
开源项目的价值
虽然效果和官方差很远,这些开源项目仍然有用:
理解原理。 代码比论文更容易看懂。想搞清楚"隐动作推断到底怎么实现",读 open-genie 的代码比读论文快。
作为教学工具。 tinyworlds 的 README 写得像教程,把每个模块的功能和实现都解释得很清楚。适合入门学习。
快速实验。 如果你有个小想法想验证(比如换一种分词方式会怎样),用这些项目改改跑跑,比从零搭快很多。
社区基础设施。 当官方最终开放更多能力时(比如微调接口),熟悉这些开源实现的人能更快上手。
差的那块能补上吗
部分可以,部分补不上。
数据。 开源社区可以众筹数据,但要达到 Google 的规模很难。版权问题也是障碍。
算力。 这个最难。训练 10B+ 模型需要的算力不是个人或小团队能承担的。除非有慈善土豪赞助,或者等 5 年后算力成本降几个数量级。
架构创新。 这是最可能突破的地方。学术界可能会提出比 Genie 更高效的架构,用更少的参数达到类似效果。历史上这种事发生过很多次。
工程优化。 这需要持续投入。开源项目的维护者往往是业余时间贡献,速度会慢一些。
现状
如果你只是想"用世界模型生成可交互世界",目前唯一可用的选择是 Project Genie(需要 AI Ultra 订阅)。
如果你想"理解世界模型的原理"或"基于世界模型做研究",开源项目是很好的起点。
如果你期待"开源世界模型达到 Genie 3 的效果",这需要时间和资源的积累,可能是几年的事。
开源社区复现论文的速度已经很快了。但"能复现论文"和"能做成产品"之间的鸿沟,比大多数人想象的要宽。这道鸿沟叫做工业化。