这篇论文为什么值得看
DeepMind 的 Genie 系列论文只说了"我们做到了什么",没开源代码,没公开数据集。你想复现?门都没有。
INSAIT 研究所的 GenieRedux 不一样。论文发在 CVPR 2025,代码开源,数据集开源,连训练脚本都给你准备好了。
如果你想理解世界模型是怎么训练出来的,这是目前能找到的最完整的资料。
三个核心组件
GenieRedux 的框架包含三个部分:
1. RetroAct 数据集
974 个复古游戏环境的标注数据集。每个游戏都标注了:
- 视角类型(横版、俯视、第一人称等)
- 控制方式(方向键、跳跃、攻击等)
- 运动轴向(2D 平面、伪 3D 等)
这个数据集解决了一个问题:世界模型需要学习"动作和画面变化的对应关系"。有了标注,模型才能知道"按右键=画面向左滚动"。
游戏来自 Stable-Retro 模拟器,覆盖 NES、SNES、Genesis 等平台。都是老游戏,版权风险小。
2. GenieRedux-G 模型
这是世界模型的核心。结构包含:
Video Tokenizer(视频分词器)
把连续的视频帧转换成离散的 token 序列。类似于语言模型里把文字转成 token,这里是把画面转成 token。
训练时用 VQ-VAE 架构,学习一个码本(codebook),把 64x64 的画面压缩成 8x8 的 token 网格。
Dynamics Model(动力学模型)
核心是一个 Transformer,输入是过去几帧的 token 和动作,输出是下一帧的 token。
用 MaskGIT 的方式训练:随机遮住一部分 token,让模型预测被遮住的部分。推理时从全遮住开始,逐步"去噪"。
Latent Action Model(隐动作模型,可选)
如果训练数据里没有动作标签,这个模块可以从连续帧里推断出"发生了什么动作"。
思路是:如果模型能正确预测下一帧,说明它理解了这个动作的效果。反过来,可以用这个能力来推断动作。
3. AutoExplore Agent
一个探索智能体,用来自动收集训练数据。
传统方法是让人类玩游戏录像,或者用随机动作。AutoExplore 的做法更聪明:哪里不确定就去哪里。
具体实现是用动力学模型的预测不确定性作为奖励。如果模型对某个区域的预测误差大,说明训练数据不足,智能体就会被吸引过去。
这样收集的数据更高效,覆盖面更广。
训练流程
官方给的训练流程:
# 1. 生成初始数据集
python run.py generate config=retro_act/pretrain
# 2. 训练分词器(150k 步)
python run.py genie_redux train config=tokenizer.yaml
# 3. 预训练动力学模型
python run.py genie_redux train config=genie_redux_guided_pretrain.yaml
# 4. 在目标环境上微调
python run.py genie_redux train config=genie_redux_guided_50
硬件需求不低。论文里用的是多卡训练,但代码支持降低 batch size 在单卡上跑。效果会打折扣。
和 DeepMind Genie 的差距
说实话,差距很大。
分辨率。 GenieRedux 是 64x64,Genie 3 是 720p。差了 100 多倍的像素数。
一致性时长。 GenieRedux 能维持几秒的一致性,Genie 3 能维持几分钟。
泛化能力。 GenieRedux 只能在训练过的游戏类型上工作。Genie 3 声称可以生成任意描述的世界。
差距来自几个方面:
- 训练数据规模:RetroAct 是 974 个游戏,DeepMind 用的是互联网规模的视频数据
- 模型参数量:GenieRedux 参数量没公布,但肯定比 Genie 3 小几个数量级
- 工程优化:DeepMind 有专门团队做推理加速
对研究者的价值
虽然效果差很多,GenieRedux 对研究者来说价值很大:
可复现的 baseline。 想做世界模型相关的研究,终于有个能跑的起点了。
模块化设计。 分词器、动力学模型、动作模型是分开的,可以单独替换改进。
完整的训练流程。 从数据生成到模型评估,全流程都有代码。
探索智能体的思路。 AutoExplore 这个不确定性驱动的探索方法,可以迁移到其他领域。
代码质量
我跑了一下代码,几点观察:
- 文档写得不错,README 很详细
- 依赖管理用 Conda,环境配置脚本帮你装好所有东西
- 配置系统用 Hydra,命令行参数很灵活
- 但需要自己下载游戏 ROM,这块有点麻烦
如果你想入门世界模型研究,这个仓库是目前最友好的选择。
总结
GenieRedux 不是 Genie 3 的替代品,而是一个可复现的研究框架。它告诉你世界模型是怎么训练的,给你一个能修改的起点。
对于想发论文的研究者:这是一个不错的 baseline。
对于想学习的开发者:这是理解世界模型内部机制的最佳材料。
对于想商用的公司:别想了,效果差太远。