开源复现为什么离官方还很远：从 Genie 论文到 Genie 3，缺的是什么GitHub 上搜 "Genie Deep

GitHub 上搜 "Genie DeepMind"，能找到好几个项目。比较热门的两个：

这些项目复现的是 2024 年那篇论文"Genie: Generative Interactive Environments"描述的架构——也就是 Genie 1。

但 Google 现在放出来的是 Genie 3，中间还有个 Genie 2。问题来了：论文能跑的架构和产品级的实时交互，中间差了什么？

论文里说了什么

Genie 1 的论文描述了三个模块：

核心创新是"隐动作"这个概念。传统世界模型训练需要动作标签（玩家按了什么键），但网络上的游戏视频大多没有这个标注。Genie 用一个编码器从相邻帧的变化里推断出动作，这样就能用大量无标注视频训练。

论文里展示的效果是 2D 平台游戏风格，分辨率比较低，时长也短。

以 tinyworlds 为例，它实现了论文里描述的三个模块：

跑起来可以生成一些简单的游戏世界，能响应键盘输入。作者放了几个预训练模型，可以在 Sonic、Zelda、Pong 这些老游戏的风格上跑。

但输出是低分辨率的（远低于 720p）、帧率不高、一致性也只能保持几秒。

规模。 Genie 1 论文说模型是 11B 参数。Genie 3 没公布具体数字，但肯定更大。开源项目受限于算力，通常只能跑几亿参数的版本。

训练数据。 DeepMind 用的是海量网络视频，包括游戏实况、真实世界录像等。开源项目只能用公开数据集，数据量差几个数量级。

工程优化。 实时交互需要推理速度极快。论文里说 Genie 3 有蒸馏版本可以实时跑，但质量有下降。这种"让模型又快又好"的工程优化是论文不会细讲的工业秘密。

多代迭代。 Genie 2 改进了一致性（从几秒到几十秒），Genie 3 又进一步推到几分钟。每一代都有架构或训练方法上的改进，这些增量改进没有完整公开。

虽然效果和官方差很远，这些开源项目仍然有用：

理解原理。 代码比论文更容易看懂。想搞清楚"隐动作推断到底怎么实现"，读 open-genie 的代码比读论文快。

作为教学工具。 tinyworlds 的 README 写得像教程，把每个模块的功能和实现都解释得很清楚。适合入门学习。

快速实验。 如果你有个小想法想验证（比如换一种分词方式会怎样），用这些项目改改跑跑，比从零搭快很多。

社区基础设施。 当官方最终开放更多能力时（比如微调接口），熟悉这些开源实现的人能更快上手。

部分可以，部分补不上。

数据。 开源社区可以众筹数据，但要达到 Google 的规模很难。版权问题也是障碍。

算力。 这个最难。训练 10B+ 模型需要的算力不是个人或小团队能承担的。除非有慈善土豪赞助，或者等 5 年后算力成本降几个数量级。

架构创新。 这是最可能突破的地方。学术界可能会提出比 Genie 更高效的架构，用更少的参数达到类似效果。历史上这种事发生过很多次。

工程优化。 这需要持续投入。开源项目的维护者往往是业余时间贡献，速度会慢一些。

如果你只是想"用世界模型生成可交互世界"，目前唯一可用的选择是 Project Genie（需要 AI Ultra 订阅）。

如果你想"理解世界模型的原理"或"基于世界模型做研究"，开源项目是很好的起点。

如果你期待"开源世界模型达到 Genie 3 的效果"，这需要时间和资源的积累，可能是几年的事。

开源社区复现论文的速度已经很快了。但"能复现论文"和"能做成产品"之间的鸿沟，比大多数人想象的要宽。这道鸿沟叫做工业化。