Gamma-World:面向多智能体交互的生成式世界模型新范式

18 阅读18分钟

NVIDIA研究团队提出可扩展的多智能体世界建模框架,实现从虚拟游戏到真实机器人场景的泛化

论文来源:arXiv:2605.28816v1 | 研究机构:NVIDIA、清华大学、多伦多大学、Vector Institute

Gamma-World多智能体世界模型概览

图1:Gamma-World支持从虚拟游戏环境到真实世界场景的多智能体交互式世界建模。上图展示Minecraft多玩家场景,下图展示真实世界机器人协作场景。(图片来源:论文Figure 1)

在交互式视频生成与世界建模领域,现有研究大多聚焦于单智能体场景——即基于单一控制信号生成未来观测。然而,现实世界中的许多生成环境本质上需要多智能体协同:多玩家在游戏中互动、多机械臂围绕共享物体协作、具身智能体在相互约束下同时行动。如何将世界模型从单智能体设置扩展至多智能体场景,同时保持各智能体的独立可控性、排列对称性与高效推理能力,是当前领域面临的核心挑战。NVIDIA联合清华大学、多伦多大学等机构的研究团队近期提出的Gamma-World框架,通过Simplex Rotary Agent Encoding(单纯形旋转智能体编码)与Sparse Hub Attention(稀疏枢纽注意力)两项关键技术,为多智能体世界建模提供了新的解决思路。

一、研究背景:从单智能体到多智能体的跨越

世界模型(World Model)作为交互式视频生成的核心技术,其目标是学习环境的动态演化规律,从而在给定当前状态与动作序列的条件下预测未来观测。近年来,基于扩散模型的视频世界模型在机器人操作、自动驾驶、游戏模拟等场景中取得了显著进展。代表性工作包括Diffusion Forcing、Self-Forcing等框架,它们通过流匹配(Flow Matching)目标与因果自回归生成策略,实现了对长序列视频的稳定 rollout。

然而,上述方法本质上仍属于单智能体模拟器:模型接收一条动作流、一个用户输入或一个可控视角,生成对应的未来观测。当场景中存在多个智能体时,新的一致性要求应运而生——生成的观测不仅需要在时间维度上保持连贯,还必须在不同智能体的视角之间保持空间一致性,因为所有智能体共享并作用于同一个动态演化的世界状态。

在这一方向上,Solaris是一项具有代表性的并行工作。该研究构建了一个双人Minecraft世界模型,通过密集联合注意力(Dense Joint Attention)模块与可学习的逐玩家身份嵌入(Per-Player ID Embedding)实现多智能体建模。论文指出,这一设计在双玩家场景下表现有效,但存在两个结构性局限:其一,密集联合注意力将每个智能体令牌与所有其他智能体令牌耦合,计算成本随智能体数量呈二次增长,难以支撑超过两名玩家的实时推理;其二,共享世界中的智能体本质上是可交换的——两个能力相同的智能体不应仅因占据不同槽位而被区别对待。可学习的逐槽位身份嵌入违背了这一排列对称性(Permutation Symmetry),并将模型绑定于固定的玩家名册,无法在不重新训练的情况下扩展智能体数量。

"我们所希望模拟的世界是有人居住的,而非孤独的。玩家在同一款游戏中合作与竞争,机械臂围绕共享物体协调动作,具身智能体在相互的物理与视觉约束下行动。可控的多智能体世界建模因此成为多玩家游戏生成、交互式模拟与具身智能的必要步骤。"——论文引言

二、Gamma-World核心方法

针对上述挑战,Gamma-World提出了一个面向交互式模拟的生成式多智能体世界模型,其核心创新体现在智能体身份编码与跨智能体信息交互两个层面。

2.1 问题形式化

Gamma-World考虑同步动作条件化的多智能体视频生成问题。给定P个智能体,每个智能体具有历史观测序列与动作序列,模型需要为每个智能体生成下一时刻的观测。数学上,模型学习一个映射函数:输入为P个智能体的过去观测与动作,输出为各智能体在下一时刻的观测。由于所有智能体共享同一个底层世界状态,不同智能体在同一时刻的观测对应于同一世界状态的不同视角。

该模型基于Transformer架构的潜在视频扩散模型(Latent Video Diffusion Transformer, DiT),并针对自回归生成进行了适配。在标准3D旋转位置编码(RoPE)的基础上,Gamma-World引入了两个关键扩展:一是将位置编码扩展至包含显式智能体轴的4D形式;二是设计了一种多智能体感知的注意力掩码机制以降低计算开销。

2.2 Simplex Rotary Agent Encoding:无参数的排列对称身份编码

区分不同智能体而不强加任意槽位排序,是Gamma-World要解决的首要问题。传统方法通常采用两种策略:为每个智能体分配标量相位(如线性RoPE中的θ_p = p·ω),或为每个槽位学习独立的身份嵌入向量。前者将可交换的智能体置于一条一维直线上,不同智能体对之间的旋转距离取决于槽位索引差,且某些槽位在结构上具有特殊性;后者则破坏了排列对称性,并将模型与固定智能体名册绑定。

核心思想:单纯形顶点编码

Gamma-World提出将智能体表示为旋转角度空间中正则单纯形(Regular Simplex)的顶点。几何上,这相当于将所有智能体置于等 pairwise 距离的位置,使得每一对智能体都是排列等价的,同时每个智能体保持独特的旋转相位。

具体而言,设V为单纯形池大小(即训练时支持的最大智能体身份数),研究团队在d_p/2维智能体角度空间中构造V个单纯形顶点。通过将one-hot向量中心化并经过线性等距映射,得到的顶点具有单位范数且任意两个不同顶点之间的欧氏距离恒等于√(2V/(V−1))。

在实际实现中,对于包含P≤V个活跃智能体的批次,研究团队随机采样一个单射分配π,将每个智能体p映射到单纯形顶点s_{π(p)}。智能体频带的旋转角度定义为θ_p = α·s_{π(p)},其中α>0控制智能体分离强度。这种编码方式具有以下特点:

  • 无参数化

    :不引入可学习的逐槽位身份参数,完全基于几何构造;

  • 排列对称性

    :所有智能体在几何上完全等价,任意排列不改变模型行为;

  • 可扩展性

    :训练时从固定池中随机采样顶点,推理时可通过选择未使用的顶点激活额外智能体,无需修改模型架构或引入新的学习参数。

对于缺乏显式智能体频带的预训练视频DiT,研究团队借鉴ReRoPE的思路,从时间频带的低频端分配d_p维度,保留高频时间与空间频带不变。这种设计使得现有视频生成模型可以较为便捷地适配多智能体场景。

2.3 Sparse Hub Attention:从二次到线性的跨智能体交互

建模跨智能体交互的直接方式是密集联合注意力,即每个智能体令牌与所有其他智能体令牌进行注意力计算。对于每帧包含L个空间令牌、P个智能体、块大小为n的序列,密集跨智能体注意力的计算复杂度为O(P²n²L²)。随着智能体数量增加,这一开销迅速变得不可接受。

Sparse Hub Attention效率对比

图2:Dense Attention与Sparse Hub Attention在DiT延迟、自注意力延迟及自注意力FLOPs三个指标上的效率对比。随着玩家数量从2增加到8,Sparse Hub Attention保持接近线性的增长趋势,而Dense Attention呈二次增长。(图片来源:论文Figure 3)

Gamma-World提出Sparse Hub Attention(SHA),通过引入少量可学习的枢纽令牌(Hub Tokens)作为紧凑的共享通信状态,实现智能体间的高效信息交换。在每个因果块内,智能体令牌仅关注自身流内的令牌与枢纽令牌;枢纽令牌则关注所有智能体及自身。直接的不同智能体流之间的注意力被掩码,跨智能体信息通过"智能体→枢纽→智能体"的两跳路径流动。

具体组织方式上,序列由P·T·L个智能体令牌后接T·K个枢纽令牌构成,其中K为每潜在帧的枢纽令牌数。枢纽令牌来自可学习矩阵,跨帧广播,且不参与输出,纯粹作为内部通信状态。注意力掩码由两部分组成:块级因果因子(确保查询仅关注当前或先前块)与枢纽拓扑因子(确保仅同智能体或涉及枢纽的注意力被保留)。

枢纽令牌复用其关联帧的时间RoPE相位,在智能体、高度和宽度频带上使用恒等旋转,保持时间对齐的同时对智能体身份与空间位置保持中性。Sparse Hub Attention将每块的注意力成本从O(P²n²L²)降低至O(P·n·L·(n·L+n·K)) + O(n·K·(P·n·L+K)),对于固定的块大小n、空间长度L和枢纽数K,该复杂度关于P呈线性关系。

三、训练与推理策略

Gamma-World的训练采用三阶段策略,目标是将高质量的双向扩散模型转化为支持流式推理的因果生成器。

3.1 双向教师模型

第一阶段训练双向教师模型。该模型以完整的多智能体序列为输入,通过密集双向注意力与跨智能体全可见性进行条件去噪。教师模型仅在训练期间使用,可以充分利用完整的时间与跨智能体上下文来建模局部动力学、智能体交互与跨视角一致性。该模型为后续的蒸馏阶段提供高质量的条件下多智能体分布。

3.2 因果学生模型

第二阶段独立训练因果自回归生成器,采用Diffusion Forcing框架。学生模型结合块级因果注意力与Sparse Hub Attention掩码,每个时间块接收独立采样的噪声水平,每个查询仅关注当前或先前块。与仅将因果训练作为蒸馏前简短预热的一些后训练方案不同,Gamma-World将因果学生模型训练为完整的多步扩散模型,使其在蒸馏前已能产出合理的自回归 rollout。

3.3 条件自蒸馏

第三阶段受Self-Forcing启发,将多步因果学生模型蒸馏为少步生成器,以支持实时推理。蒸馏过程中,双向教师提供高质量的条件分布匹配信号,学生模型在自回归自 rollout 条件下训练:生成的块被写入KV缓存并作为后续块的历史复用。研究团队采用分布匹配蒸馏(Distribution Matching Distillation, DMD)策略,并针对交互式世界模型的需求进行了条件化改造——在蒸馏期间向教师与学生提供相同的条件包(包括首帧观测与逐智能体动作),确保条件 rollout 分布的对齐,防止少步模型偏离指定的初始状态或动作轨迹。

3.4 KV缓存流式推理

在推理阶段,蒸馏后的少步学生模型逐块生成每个时间块,以首帧观测与最新的逐智能体动作块为条件,实现24FPS的流式输出。为在流式推理中保持Sparse Hub Attention拓扑,研究团队为每个智能体流维护独立的KV缓存,并为枢纽令牌维护共享的KV缓存。生成新块时,每个智能体读取自身过去块的键值与枢纽缓存,枢纽则读取所有智能体与先前枢纽令牌的缓存状态。由此,跨智能体信息仍仅通过枢纽流动,即使在使用缓存的流式设置下亦然。

四、实验验证

研究团队在多人虚拟环境与真实世界机器人场景中对Gamma-World进行了系统评估。

4.1 虚拟游戏环境

实验基于Minecraft风格的多玩家同步轨迹数据集,该数据集通过可控的 episode 脚本、协调机器人与对齐的视觉-动作记录构建。数据集以双智能体场景为主设置,并通过相同的采集流程扩展至四智能体场景,从而支持对成对交互与可扩展多智能体生成的双重评估。评估指标涵盖视频质量(FVD、FID)、感知质量(LPIPS)与像素级保真度(PSNR、SSIM)。

双智能体交互定性结果

图3:双智能体交互场景的定性结果。每行展示一个不同任务(Place & Mine与Build Tower),智能体1与智能体2的视角保持同步:一个智能体的动作会在另一个智能体的观测中得到反映。(图片来源:论文Figure 4)

与基线方法的对比表明,Gamma-World在多项评估协议上取得了优势。相较于帧拼接基线(Multiverse风格设计),Gamma-World避免了将多个智能体压缩为单一视觉流,从而实现了更连贯的交互建模与更好的各智能体视角保留。相较于Solaris,Gamma-World的设计进一步强化了智能体级别的对应关系与信息交换,在需要记忆、 grounding、建造与跨视角一致性的场景中表现更为可靠。

方法MemoryFVD↓GroundingFVD↓MovementFVD↓BuildingFVD↓ConsistencyFVD↓
Frame concat450.6528.3556.9551.8576.0
Solaris333.8301.9311.1448.6443.1
Gamma-World184.1199.3191.5264.5280.0

表1:Gamma-World与基线方法在多智能体评估协议上的FVD指标对比(越低越好)。Gamma-World在Memory、Grounding、Movement、Building与Consistency五个维度均取得最优表现。(数据来源:论文Table 1)

4.2 架构消融实验

消融实验系统验证了Gamma-World各组件的贡献。在输入组织层面,空间拼接(Spatial Concat)将智能体视图合并为更大的画布,而序列拼接(Sequence Concat)将每个智能体保留为独立流。虽然两者在双智能体设置下表现相近,但空间拼接在智能体数量增加时因有效空间分辨率增大而变得越来越昂贵,序列拼接则保持每智能体空间分辨率固定,更适合可变智能体数量。

在智能体身份编码层面,相比可学习的视角嵌入(View Embedding),Simplex Rotary Agent Encoding通过为智能体分配无特权槽位顺序的独特身份,更好地匹配了共享世界中智能体的可交换性。在跨智能体交互层面,将密集跨智能体注意力替换为Sparse Hub Attention后,完整设计(序列拼接+单纯形编码+稀疏枢纽注意力)在FVD、FID、LPIPS、PSNR与SSIM各项指标上均达到了良好的视觉质量与一致性。

4.3 超越双玩家的扩展能力

四智能体零样本扩展

图4:从双智能体训练到四智能体推理的零样本扩展。同一模型无需改变架构即可为四名玩家生成同步的视觉流。Agent 1与Agent 2执行Place & Mine任务,Agent 3与Agent 4执行Build Tower任务,各智能体的观测保持时空一致性。(图片来源:论文Figure 5)

得益于Simplex Rotary Agent Encoding避免了固定可学习槽位身份,以及Sparse Hub Attention提供了不依赖密集成对注意力的共享通信路径,Gamma-World展现出从双智能体训练数据到四智能体推理的零样本扩展能力。实验表明,同一模型可以为多名玩家生成同步的视觉流,而无需修改架构或重新训练。这一行为表明Gamma-World学习的是耦合的多智能体动力学,而非独立地 rollout 每个智能体。

4.4 真实世界机器人协作

真实世界机器人协作

图5:Gamma-World在真实世界机器人协作任务中的应用。将左右机械臂视为两个交互智能体,模型生成的未来帧保持了多机器人协调运动与场景空间布局的一致性。(图片来源:论文Figure 6)

除了虚拟游戏环境,研究团队还在真实世界机器人协调任务中验证了Gamma-World的适用性。实验采用RealOmin-Open Dataset,将左右机械臂视为两个交互智能体。这一设置使得原本用于虚拟玩家的多智能体世界建模框架,同样能够捕捉物理场景中的双手协调操作。如图5所示,模型生成的未来帧保持了多机器人协调运动与场景空间布局的一致性,表明相同的生成式多智能体形式化方法可以从虚拟游戏环境延伸至真实世界机器人应用。

五、技术贡献总结

Gamma-World的研究为交互式多智能体世界建模领域带来了以下几项值得关注的贡献:

**排列对称性的形式化引入。**研究团队将排列对称性识别为多智能体世界模型的基本属性,并提出Simplex Rotary Agent Encoding作为保持该对称性的无参数旋转身份编码方案。这一设计使得智能体在几何上完全等价,同时保持可区分的独特身份。

**线性复杂度的跨智能体通信。**Sparse Hub Attention通过可学习枢纽令牌中介跨智能体信息交换,将跨智能体注意力成本从二次降低至线性,为超过两名玩家的世界模型提供了实用的扩展路径。

**从虚拟到真实的泛化能力。**实验验证表明,基于单纯形编码与稀疏枢纽注意力的设计不仅适用于Minecraft多玩家场景,还能直接迁移至真实世界机器人协调任务,展现了良好的领域泛化特性。

**实时流式推理支持。**通过双向教师到因果学生的三阶段训练策略与KV缓存机制,Gamma-World实现了24FPS的流式自回归生成,满足交互式应用对实时性的要求。

六、展望与讨论

Gamma-World的提出标志着多智能体世界建模从概念验证向可扩展实用系统的迈进。当前评估主要聚焦于游戏环境与机器人示例,更复杂、异构与长时程场景下的验证是未来研究的自然延伸。在智能体数量方面,单纯形池支持在固定旋转智能体频带内的智能体数量扩展,但对于极大规模的智能体群体,可能需要更大的频带或层次化的智能体分组策略。此外,由于Gamma-World未显式施加三维几何或物理约束,长序列 rollout 仍可能积累时序误差,结合显式物理建模或可微分物理仿真可能是进一步提升长期一致性的方向。

从更广阔的视角来看,Gamma-World所倡导的"排列对称的智能体表示+高效共享通信"的设计哲学,不仅适用于视频世界模型,也为多智能体强化学习、协作策略学习以及分布式具身智能等方向提供了可借鉴的技术思路。随着生成式世界模型在物理仿真、游戏引擎与机器人训练平台中的渗透,支持多人、多机器人实时交互的建模框架将成为下一代智能系统基础设施的重要组成部分。

(本文基于NVIDIA研究团队发表于arXiv的论文《Gamma-World: Generative Multi-Agent World Modeling Beyond Two Players》撰写)

具身智能&世界模型blogjinxindeep.github.io/blog/blog20…