GenieRedux 论文拆解：CVPR 2025 的开源世界模型训练框架GenieRedux是CVPR 2025提出的

这篇论文为什么值得看

DeepMind 的 Genie 系列论文只说了"我们做到了什么"，没开源代码，没公开数据集。你想复现？门都没有。

INSAIT 研究所的 GenieRedux 不一样。论文发在 CVPR 2025，代码开源，数据集开源，连训练脚本都给你准备好了。

如果你想理解世界模型是怎么训练出来的，这是目前能找到的最完整的资料。

三个核心组件

GenieRedux 的框架包含三个部分：

1. RetroAct 数据集

974 个复古游戏环境的标注数据集。每个游戏都标注了：

视角类型（横版、俯视、第一人称等）
控制方式（方向键、跳跃、攻击等）
运动轴向（2D 平面、伪 3D 等）

这个数据集解决了一个问题：世界模型需要学习"动作和画面变化的对应关系"。有了标注，模型才能知道"按右键=画面向左滚动"。

游戏来自 Stable-Retro 模拟器，覆盖 NES、SNES、Genesis 等平台。都是老游戏，版权风险小。

2. GenieRedux-G 模型

这是世界模型的核心。结构包含：

Video Tokenizer（视频分词器）

把连续的视频帧转换成离散的 token 序列。类似于语言模型里把文字转成 token，这里是把画面转成 token。

训练时用 VQ-VAE 架构，学习一个码本（codebook），把 64x64 的画面压缩成 8x8 的 token 网格。

Dynamics Model（动力学模型）

核心是一个 Transformer，输入是过去几帧的 token 和动作，输出是下一帧的 token。

用 MaskGIT 的方式训练：随机遮住一部分 token，让模型预测被遮住的部分。推理时从全遮住开始，逐步"去噪"。

Latent Action Model（隐动作模型，可选）

如果训练数据里没有动作标签，这个模块可以从连续帧里推断出"发生了什么动作"。

思路是：如果模型能正确预测下一帧，说明它理解了这个动作的效果。反过来，可以用这个能力来推断动作。

3. AutoExplore Agent

一个探索智能体，用来自动收集训练数据。

传统方法是让人类玩游戏录像，或者用随机动作。AutoExplore 的做法更聪明：哪里不确定就去哪里。

具体实现是用动力学模型的预测不确定性作为奖励。如果模型对某个区域的预测误差大，说明训练数据不足，智能体就会被吸引过去。

这样收集的数据更高效，覆盖面更广。

训练流程

官方给的训练流程：

# 1. 生成初始数据集
python run.py generate config=retro_act/pretrain

# 2. 训练分词器（150k 步）
python run.py genie_redux train config=tokenizer.yaml

# 3. 预训练动力学模型
python run.py genie_redux train config=genie_redux_guided_pretrain.yaml

# 4. 在目标环境上微调
python run.py genie_redux train config=genie_redux_guided_50

硬件需求不低。论文里用的是多卡训练，但代码支持降低 batch size 在单卡上跑。效果会打折扣。

和 DeepMind Genie 的差距

说实话，差距很大。

分辨率。 GenieRedux 是 64x64，Genie 3 是 720p。差了 100 多倍的像素数。

一致性时长。 GenieRedux 能维持几秒的一致性，Genie 3 能维持几分钟。

泛化能力。 GenieRedux 只能在训练过的游戏类型上工作。Genie 3 声称可以生成任意描述的世界。

差距来自几个方面：

训练数据规模：RetroAct 是 974 个游戏，DeepMind 用的是互联网规模的视频数据
模型参数量：GenieRedux 参数量没公布，但肯定比 Genie 3 小几个数量级
工程优化：DeepMind 有专门团队做推理加速

对研究者的价值

虽然效果差很多，GenieRedux 对研究者来说价值很大：

可复现的 baseline。 想做世界模型相关的研究，终于有个能跑的起点了。

模块化设计。 分词器、动力学模型、动作模型是分开的，可以单独替换改进。

完整的训练流程。 从数据生成到模型评估，全流程都有代码。

探索智能体的思路。 AutoExplore 这个不确定性驱动的探索方法，可以迁移到其他领域。

代码质量

我跑了一下代码，几点观察：

文档写得不错，README 很详细
依赖管理用 Conda，环境配置脚本帮你装好所有东西
配置系统用 Hydra，命令行参数很灵活
但需要自己下载游戏 ROM，这块有点麻烦

如果你想入门世界模型研究，这个仓库是目前最友好的选择。

总结

GenieRedux 不是 Genie 3 的替代品，而是一个可复现的研究框架。它告诉你世界模型是怎么训练的，给你一个能修改的起点。

对于想发论文的研究者：这是一个不错的 baseline。

对于想学习的开发者：这是理解世界模型内部机制的最佳材料。

对于想商用的公司：别想了，效果差太远。