开源复现为什么离官方还很远:从 Genie 论文到 Genie 3,缺的是什么

20 阅读4分钟

GitHub 上搜 "Genie DeepMind",能找到好几个项目。比较热门的两个:

  • open-genie:PyTorch 实现,约 250 星
  • tinyworlds:极简实现,约 1100 星

这些项目复现的是 2024 年那篇论文"Genie: Generative Interactive Environments"描述的架构——也就是 Genie 1。

但 Google 现在放出来的是 Genie 3,中间还有个 Genie 2。问题来了:论文能跑的架构和产品级的实时交互,中间差了什么?

论文里说了什么

Genie 1 的论文描述了三个模块:

  1. 视频分词器(Video Tokenizer):把视频帧压缩成离散的 token
  2. 隐动作模型(Latent Action Model):从连续帧里推断出"隐动作"——在没有动作标注的情况下学习动作表征
  3. 动力学模型(Dynamics Model):根据历史帧和动作预测下一帧

核心创新是"隐动作"这个概念。传统世界模型训练需要动作标签(玩家按了什么键),但网络上的游戏视频大多没有这个标注。Genie 用一个编码器从相邻帧的变化里推断出动作,这样就能用大量无标注视频训练。

论文里展示的效果是 2D 平台游戏风格,分辨率比较低,时长也短。

开源项目做到了什么

以 tinyworlds 为例,它实现了论文里描述的三个模块:

  • 用 FSQ(Finite Scalar Quantization)做视频分词
  • 用 VAE 结构做隐动作推断
  • 用 Space-Time Transformer 做动力学预测

跑起来可以生成一些简单的游戏世界,能响应键盘输入。作者放了几个预训练模型,可以在 Sonic、Zelda、Pong 这些老游戏的风格上跑。

但输出是低分辨率的(远低于 720p)、帧率不高、一致性也只能保持几秒。

差距在哪里

规模。 Genie 1 论文说模型是 11B 参数。Genie 3 没公布具体数字,但肯定更大。开源项目受限于算力,通常只能跑几亿参数的版本。

训练数据。 DeepMind 用的是海量网络视频,包括游戏实况、真实世界录像等。开源项目只能用公开数据集,数据量差几个数量级。

工程优化。 实时交互需要推理速度极快。论文里说 Genie 3 有蒸馏版本可以实时跑,但质量有下降。这种"让模型又快又好"的工程优化是论文不会细讲的工业秘密。

多代迭代。 Genie 2 改进了一致性(从几秒到几十秒),Genie 3 又进一步推到几分钟。每一代都有架构或训练方法上的改进,这些增量改进没有完整公开。

开源项目的价值

虽然效果和官方差很远,这些开源项目仍然有用:

理解原理。 代码比论文更容易看懂。想搞清楚"隐动作推断到底怎么实现",读 open-genie 的代码比读论文快。

作为教学工具。 tinyworlds 的 README 写得像教程,把每个模块的功能和实现都解释得很清楚。适合入门学习。

快速实验。 如果你有个小想法想验证(比如换一种分词方式会怎样),用这些项目改改跑跑,比从零搭快很多。

社区基础设施。 当官方最终开放更多能力时(比如微调接口),熟悉这些开源实现的人能更快上手。

差的那块能补上吗

部分可以,部分补不上。

数据。 开源社区可以众筹数据,但要达到 Google 的规模很难。版权问题也是障碍。

算力。 这个最难。训练 10B+ 模型需要的算力不是个人或小团队能承担的。除非有慈善土豪赞助,或者等 5 年后算力成本降几个数量级。

架构创新。 这是最可能突破的地方。学术界可能会提出比 Genie 更高效的架构,用更少的参数达到类似效果。历史上这种事发生过很多次。

工程优化。 这需要持续投入。开源项目的维护者往往是业余时间贡献,速度会慢一些。

现状

如果你只是想"用世界模型生成可交互世界",目前唯一可用的选择是 Project Genie(需要 AI Ultra 订阅)。

如果你想"理解世界模型的原理"或"基于世界模型做研究",开源项目是很好的起点。

如果你期待"开源世界模型达到 Genie 3 的效果",这需要时间和资源的积累,可能是几年的事。

开源社区复现论文的速度已经很快了。但"能复现论文"和"能做成产品"之间的鸿沟,比大多数人想象的要宽。这道鸿沟叫做工业化。