GenieRedux 论文拆解:CVPR 2025 的开源世界模型训练框架

11 阅读4分钟

这篇论文为什么值得看

DeepMind 的 Genie 系列论文只说了"我们做到了什么",没开源代码,没公开数据集。你想复现?门都没有。

INSAIT 研究所的 GenieRedux 不一样。论文发在 CVPR 2025,代码开源,数据集开源,连训练脚本都给你准备好了。

如果你想理解世界模型是怎么训练出来的,这是目前能找到的最完整的资料。

三个核心组件

GenieRedux 的框架包含三个部分:

1. RetroAct 数据集

974 个复古游戏环境的标注数据集。每个游戏都标注了:

  • 视角类型(横版、俯视、第一人称等)
  • 控制方式(方向键、跳跃、攻击等)
  • 运动轴向(2D 平面、伪 3D 等)

这个数据集解决了一个问题:世界模型需要学习"动作和画面变化的对应关系"。有了标注,模型才能知道"按右键=画面向左滚动"。

游戏来自 Stable-Retro 模拟器,覆盖 NES、SNES、Genesis 等平台。都是老游戏,版权风险小。

2. GenieRedux-G 模型

这是世界模型的核心。结构包含:

Video Tokenizer(视频分词器)

把连续的视频帧转换成离散的 token 序列。类似于语言模型里把文字转成 token,这里是把画面转成 token。

训练时用 VQ-VAE 架构,学习一个码本(codebook),把 64x64 的画面压缩成 8x8 的 token 网格。

Dynamics Model(动力学模型)

核心是一个 Transformer,输入是过去几帧的 token 和动作,输出是下一帧的 token。

用 MaskGIT 的方式训练:随机遮住一部分 token,让模型预测被遮住的部分。推理时从全遮住开始,逐步"去噪"。

Latent Action Model(隐动作模型,可选)

如果训练数据里没有动作标签,这个模块可以从连续帧里推断出"发生了什么动作"。

思路是:如果模型能正确预测下一帧,说明它理解了这个动作的效果。反过来,可以用这个能力来推断动作。

3. AutoExplore Agent

一个探索智能体,用来自动收集训练数据。

传统方法是让人类玩游戏录像,或者用随机动作。AutoExplore 的做法更聪明:哪里不确定就去哪里。

具体实现是用动力学模型的预测不确定性作为奖励。如果模型对某个区域的预测误差大,说明训练数据不足,智能体就会被吸引过去。

这样收集的数据更高效,覆盖面更广。

训练流程

官方给的训练流程:

# 1. 生成初始数据集
python run.py generate config=retro_act/pretrain

# 2. 训练分词器(150k 步)
python run.py genie_redux train config=tokenizer.yaml

# 3. 预训练动力学模型
python run.py genie_redux train config=genie_redux_guided_pretrain.yaml

# 4. 在目标环境上微调
python run.py genie_redux train config=genie_redux_guided_50

硬件需求不低。论文里用的是多卡训练,但代码支持降低 batch size 在单卡上跑。效果会打折扣。

和 DeepMind Genie 的差距

说实话,差距很大。

分辨率。 GenieRedux 是 64x64,Genie 3 是 720p。差了 100 多倍的像素数。

一致性时长。 GenieRedux 能维持几秒的一致性,Genie 3 能维持几分钟。

泛化能力。 GenieRedux 只能在训练过的游戏类型上工作。Genie 3 声称可以生成任意描述的世界。

差距来自几个方面:

  1. 训练数据规模:RetroAct 是 974 个游戏,DeepMind 用的是互联网规模的视频数据
  2. 模型参数量:GenieRedux 参数量没公布,但肯定比 Genie 3 小几个数量级
  3. 工程优化:DeepMind 有专门团队做推理加速

对研究者的价值

虽然效果差很多,GenieRedux 对研究者来说价值很大:

可复现的 baseline。 想做世界模型相关的研究,终于有个能跑的起点了。

模块化设计。 分词器、动力学模型、动作模型是分开的,可以单独替换改进。

完整的训练流程。 从数据生成到模型评估,全流程都有代码。

探索智能体的思路。 AutoExplore 这个不确定性驱动的探索方法,可以迁移到其他领域。

代码质量

我跑了一下代码,几点观察:

  • 文档写得不错,README 很详细
  • 依赖管理用 Conda,环境配置脚本帮你装好所有东西
  • 配置系统用 Hydra,命令行参数很灵活
  • 但需要自己下载游戏 ROM,这块有点麻烦

如果你想入门世界模型研究,这个仓库是目前最友好的选择。

总结

GenieRedux 不是 Genie 3 的替代品,而是一个可复现的研究框架。它告诉你世界模型是怎么训练的,给你一个能修改的起点。

对于想发论文的研究者:这是一个不错的 baseline。

对于想学习的开发者:这是理解世界模型内部机制的最佳材料。

对于想商用的公司:别想了,效果差太远。