世界模型WM与具身世界动作模型WAM:从基础仿真器到具身智能的统一技术图景

0 阅读34分钟

综述解读 · 涵盖200余篇核心文献 · 六大技术支柱

📄 原始论文:论文主页:   jinxindeep.github.io/papers/WAM/

Zenodo 论文存档:zenodo.org/records/200…

核心观点:世界模型(World Model)作为智能体内部预测表征,使其能够模拟未来状态、预判行为后果并规划动作,已成为具身人工智能的基础范式。随着大规模生成式模型的兴起,世界模型正从被动的视频预测器演进为可交互的物理仿真器;与此同时,视觉-语言-动作(VLA)模型建立了将高层语义意图映射到低层运动控制的强大框架。二者的自然融合催生了具身世界动作模型(WAM)——一种在统一生成框架内同时模拟未来状态并生成可执行动作的新型架构。本文基于最新综述文献,系统梳理该领域的六大技术支柱、关键演进脉络与前沿挑战。

近年来,人工智能领域正在经历一场深刻的范式转变:从单纯依赖海量标注数据学习静态模式,转向构建能够主动“想象”未来的动态仿真系统。这一转变的核心驱动力,正是世界模型(World Model)技术的飞速发展。从Ha与Schmidhuber提出的循环世界模型,到今日以Genie、Cosmos、Sora为代表的十亿乃至百亿参数级基础仿真器,世界模型不仅在规模上实现了跨越,更在能力维度上从被动的像素预测拓展至可交互的物理环境模拟。与之并行的,是视觉-语言-动作(Vision-Language-Action, VLA)模型的崛起,它们架起了连接高层自然语言指令与低层机器人运动控制之间的桥梁。当这两条技术脉络交汇融合,便诞生了具身世界动作模型(Embodied World Action Models, WAMs)——一种让智能体通过“想象”来学习行动的前沿范式。

图片

图0:世界模型与具身世界动作模型技术体系总览。该综述将200余篇核心文献组织为六大支柱:基础世界模型、VLA模型、具身WAM、自动驾驶世界模型、效率与评测、数据集与生态。。

1基础世界模型:从视频预测到交互仿真

基础世界模型代表了生成式仿真的最前沿,其目标是从大规模视频数据中学习普适的环境动力学,使智能体能够通过动作查询模型并获得连贯的长程未来观测。与传统基于模型的强化学习不同,现代基础世界模型更强调规模、通用性与交互性:它们在多样化的互联网级视频上训练,期望能够模拟任意场景、物体与物理交互,响应开放式动作输入。

1.1 通用交互式仿真器

通用世界模型致力于模拟物理世界的全部多样性——室内场景、室外环境、物体操作与智能体导航——无需针对特定领域进行工程化设计。这一方向的演进可追溯至Google DeepMind的Genie系列。Genie首次展示了仅通过无标注互联网视频训练的生成式交互环境,用户可通过离散动作逐帧控制生成的二维平台游戏世界。其后续版本Genie 2将这一范式扩展至三维空间,能够基于单张图像提示生成多样化、动作可控的三维环境;Genie 3则进一步提升了实时交互性与世界持久性。如图1所示,Genie 2通过潜在世界模型核心对动作(如前进、左转、攻击)进行条件化生成,将想象的状态解码为逼真的画面。

图片

图1:Genie 2架构概览。输入图像被编码为潜在Token,世界模型核心基于动作输入生成下一潜在状态,并通过解码器预测未来帧。

与此同时,OpenAI发布的Sora明确将视频生成模型重新定位为“世界仿真器”,展示了大规模扩散Transformer在海量视频语料上训练后,能够隐式习得物理动力学、物体持久性与三维几何理解。尽管Sora并未显式引入动作条件,但其技术报告论证了此类模型是迈向通用世界仿真的基础性步骤。NVIDIA推出的Cosmos平台则进一步将这一方向系统化,提出“面向物理AI的世界基础模型平台”。Cosmos提供了一系列自回归与扩散世界模型、Tokenizer及视频处理管线,专为物理AI开发而设计。其自回归架构整合了视频Token化、文本条件化与因果时序建模,实现了可扩展的物理世界生成。

图片

图2:NVIDIA Cosmos自回归世界基础模型架构。该流水线包含视频Token化、文本提示编码与因果Transformer模块,用于可扩展的物理视频生成。

在开源生态方面,蚂蚁集团Robbyant团队发布的LingBot-World致力于推进面向具身智能的开源世界模型,提供可访问的训练管线与模型权重;GigaWorld-0则将世界模型定位为具身AI的“数据引擎”,强调通过可扩展的合成数据生成来引导下游机器人学习。这些开源平台共同降低了交互式世界仿真的准入门槛,促进了可复现研究的发展。

1.2 记忆增强与几何感知

早期视频世界模型的一个关键局限在于长程视觉连贯性的快速退化——这一现象源于预测误差的累积。近期研究通过显式记忆机制应对这一挑战。WorldMem维护外部场景状态记忆,实现了跨数百帧的连贯物体持久性与环境状态追踪;VMem提出基于Surfel索引的视角记忆用于一致的交互式视频场景生成;Relic则为交互式视频世界模型引入长程记忆,维持持续的叙事与空间一致性。如图3所示,WorldMem能够在600余帧的交互跨度内保持物体状态(如小麦生长、干草放置)与空间布局的稳定。

图片

图3:WorldMem定性结果。该模型在600余帧的交互跨度内保持长程一致性,保存物体状态(如小麦生长、干草放置)与空间布局。

在几何感知方面,Gen3C提出基于三维信息的世界一致视频生成,通过精确相机控制确保生成视图尊重场景结构;MagicWorld探索交互式几何驱动的视频世界漫游,使用户能够以几何合理性在想象空间中导航。这些进展表明,将显式三维几何先验注入世界模型,是提升像素级仿真保真度的有效路径。

1.3 游戏与漫游环境

与追求物理世界广度的通用模型不同,游戏与漫游世界模型利用三维游戏环境结构化且开放式的特性,开发实时、交互式、甚至多智能体的仿真平台。Minecraft因其基于体素的物理、程序化生成地形与丰富的智能体可供性,已成为评估开放式交互世界模型的标准测试平台。

Decart发布的Oasis是首个基于扩散Transformer(DiT)架构的大规模Minecraft世界模型,处理视觉观测与键盘输入以实时生成下一帧预测。其架构采用Vision Transformer-based VAE编码器/解码器,配合以用户动作(W、A、S、D、鼠标)为条件的中央DiT主干。随后,MineWorld提供了开源实时交互式Minecraft世界模型, democratizing了训练管线与模型权重的获取。昆仑万维的Matrix-Game系列则将流式性能推向新高度:Matrix-Game 2.0实现了25 FPS的实时开源交互式世界模型;Matrix-Game 3.0引入长程记忆以维持持续的世界状态追踪,采用教师-学生蒸馏框架与记忆池来保持流式生成过程中的时序连贯性。

图片

图4:Oasis架构。Vision Transformer(ViT)VAE编码器将输入帧压缩为潜在Token,经扩散Transformer(DiT)在用户动作条件下处理,通过ViT-VAE解码器预测未来帧。

超越现有游戏仿真,GameGen-X提出了面向交互式开放世界游戏视频生成的扩散Transformer,支持动态角色控制与环境反应性;GameFactory则探索通过生成式交互视频创造全新游戏,从视频语料中学习合成游戏规则、资产与动力学。这些工作将研究焦点从“仿真给定游戏”转向“生成新颖交互世界”。

2视觉-语言-动作模型:连接语义与运动

基础世界模型聚焦于预测未来观测,而视觉-语言-动作(VLA)模型则解决互补性挑战:将高层人类意图——以自然语言表达——映射到低层物理控制信号。通过在单一端到端架构内融合视觉感知、语言推理与运动动作,VLA模型成为具身智能体在现实世界中运作的策略骨干。

图片

图5:视觉-语言-动作(VLA)模型技术体系。该领域涵盖基础架构、自动驾驶专用模型与具身操作策略三大分支。

2.1 基础架构:从RT-2到开源通用策略

VLA范式由Google DeepMind的Robotics Transformer(RT)系列开创。RT-1证明了在大型机器人示范数据集上训练的Transformer能够实现跨任务、跨环境与跨机器人形态的鲁棒泛化,但其仍属于专家策略,缺乏语言基础。RT-2实现了关键突破:它在互联网规模的视觉-语言模型(PaLI-X)上联合微调,同时处理网络视觉问答数据与机器人控制数据,将机器人动作视为模型输出词表中的离散Token。这一洞见——“动作只是另一种语言”——使RT-2能够将网络预训练的语义知识迁移至物理控制,展现出对物体类别的推理与遵循新颖语言指令的涌现能力。

图片

图6:RT-2架构。视觉观测经ViT编码后输入大语言模型,与语言查询共同处理,模型输出离散动作Token,反Token化为连续机器人动作(如六自由度末端执行器位姿)。

基于RT-2的成功,Open X-Embodiment协作项目推出了RT-X,聚合22种机器人形态的数据进行跨本体训练。RT-X验证了VLA范式的核心假设:跨本体训练不仅提升跨机器人泛化能力,也能改善单一形态内的表现,确立了机器人学习的“规模定律”。

开源社区迅速响应。OpenVLA发布了首个完全开源的70亿参数VLA模型,基于Llama 2与DINOv2+SigLIP视觉编码器构建,在Open X-Embodiment数据集上训练,支持多机器人控制并通过LoRA实现高效微调。Octo提出了基于Transformer的开源通用机器人策略,具备灵活的观测与动作规范,实现开箱即用的多机器人控制。π₀(Pi-Zero)则引入了视觉-语言-动作流模型,直接通过流匹配建模连续动作分布,避免了Token化带来的量化误差与表达能力限制。

图片

图7:π₀训练与推理流水线。该模型在互联网规模视觉-语言数据与Open X-Embodiment机器人数据上预训练,随后通过高质量任务特定数据的后训练实现零样本与少样本泛化。

在人形机器人领域,NVIDIA的GR00T N1建立了面向通用型人形机器人的开放基础模型,整合人形特定运动学先验与大规模VLA预训练。CogAct则追求认知启发式架构,在单一VLA框架内协同高层“认知”(场景理解、任务规划)与低层“动作”(运动控制)。

2.2 自动驾驶VLA:安全关键域的 specialization

自动驾驶构成了VLA范式的一个独特实例:其“机器人”是车辆,“动作”是转向、油门与制动指令,语言指令常以导航命令或安全建议的形式出现。然而,驾驶的安全关键特性要求专门的架构设计,以确保效率、可解释性与鲁棒性。

DriveVLM率先提出将自动驾驶与大视觉-语言模型融合,利用VLM进行场景理解与轨迹规划。OpenDriveVLA则向真正的端到端自动驾驶推进,将感知、预测与控制整合于单一VLA架构内。AutoVLA引入了自适应推理与强化微调(RFT),使模型能够根据场景复杂度动态调整推理深度。DriveMoE将混合专家(MoE)架构应用于VLA模型,基于视觉输入动态路由计算至专家子网络,在维持多行为轨迹分布的同时降低计算开销。

图片

图8:DriveMoE架构。(a) 传统视觉处理器存在Token冗余;(b) 查询式处理器增加开销;(c) 提出的Vision MoE基于每个Token动态激活专家;(d) Action MoE支持多模态行为分布(跟随、超车、让行)。

在推理能力方面,AutoDrive-R²激励驾驶VLA的推理与自我反思能力,使模型能够批判自身决策;CogAD提出认知层级引导的端到端驾驶;FutureSightDrive引入时空思维链(CoT)推理进行视觉思考;OmniDrive-R1则利用强化学习驱动的交错多模态思维链。这些工作共同推动驾驶VLA范式从“反应式控制”向“审慎推理”演进。

2.3 具身操作VLA:高维灵巧控制

与驾驶VLA在结构化平面动作空间中运作不同,具身操作VLA必须应对杂乱三维环境中的高维灵巧控制。扩散模型已成为自回归动作生成的有力替代方案,提供多模态、可组合且高保真的动作分布。Diffusion-VLA通过统一扩散与自回归扩展机器人基础模型,使用大语言模型进行推理,扩散模型进行动作解码。HybridVLA在统一VLA中结合协作扩散与自回归;RDT-1B建立了面向双手操作的扩散基础模型,扩展至10亿参数;RDT2则进一步推向零样本跨本体迁移。

图片

图9:Diffusion-VLA架构。大语言模型处理视觉与语言输入,生成推理结果以条件化扩散模型进行连续动作解码,实现对视觉变化与新环境的泛化。

三维空间感知是操作VLA的另一关键维度。早期VLA依赖二维图像Token,丢弃了深度与空间布局信息。3D-VLA通过注入三维 grounding 解决这一问题,使用三维特征提取器将视觉观测与语言及动作空间对齐,同时支持三维想象(目标预测)与机器人控制。PointVLA通过点云编码器注入三维世界表征;SPA证明显式三维空间推理能够带来更有效的具身表征。在思维链推理方面,CoT-VLA为VLA引入视觉思维链推理,在输出动作前生成中间推理步骤;FlowVLA结合视觉思维链与运动推理;TraceVLA通过视觉轨迹提示增强时空感知。

跨本体泛化是VLA领域的核心愿景之一。X-VLA提出软提示Transformer作为可扩展的跨本体VLA;HAMSTER引入面向开放世界操作的分层动作模型;3DFlowAction从三维流世界模型中学习跨本体操作。在人形与四足机器人方面,Quar-VLA专为四足机器人设计,Humanoid-VLA面向通用型人形控制,GR-2则提出了具有网络规模知识的生成式视频-语言-动作模型。

3具身世界动作模型:想象与行动的统一

基础世界模型预测未来观测的模样,VLA模型决定执行何种动作。具身世界动作模型(WAM)代表了这两大范式的自然融合:在统一生成框架内同时模拟未来状态并生成可执行动作的架构。WAM不再将世界仿真与策略执行视为解耦的流水线,而是学习想象动作的后果并直接输出控制信号,或作为可微仿真器供策略在其中训练与优化,无需代价高昂的物理交互。

图片

图10:具身世界动作模型(WAM)技术体系。该领域涵盖视频生成式WAM、可控仿真平台与策略/规划框架三大分支。

3.1 视频生成式WAM:零样本策略与统一预训练

WAM最简单的实例将视频生成与动作预测统一为单一目标:给定视觉观测与语言或运动意图,模型生成未来视频序列,其中隐式编码了动作轨迹。一个近期假设认为,足够 capable 的视频世界模型在动作指令条件下可直接作为零样本策略,无需显式策略训练。NVIDIA的DreamZero在大规模上验证了这一假设,证明14亿参数的世界动作模型能够通过预测成功执行的未来视频序列,直接输出未见任务的电机指令。

图片

图11:具身世界动作模型训练范式。(a) WAM作为零样本策略:模型无需显式策略训练直接预测动作;(b) WAM作为数据引擎:合成想象轨迹扩充稀缺的真实世界数据用于VLA训练;(c) WAM作为可微仿真器:策略梯度通过世界模型反向传播以优化控制。

在统一预训练方面,Unified World Models提出将视频与动作扩散耦合,在大型机器人数据集上进行预训练,证明共享的扩散Transformer能够同时去噪未来视觉观测与动作轨迹。该架构支持前向动力学、逆动力学、策略优化与视频预测四种目标。Unified Video Action Model(U-VAM)通过自回归建模追求类似统一;VideoVLA证明现成视频生成器可作为通用型机器人操作器;WorldVLA形式化了自回归动作世界建模;Robotic World Model则引入了用于鲁棒策略优化的神经网络仿真器。

扩散模型天然适合WAM,因其固有地建模未来状态的多模态分布。Vidar提出了面向通用型操作的具身视频扩散基础模型,仅使用20分钟真实机器人数据训练即实现跨本体泛化。GEVRM提出目标表达性视频生成模型;EMMA通过生成式视觉迁移泛化真实世界操作;MimicDreamer在共享WAM潜在空间内对齐人类与机器人示范。这些进展共同表明,视频扩散模型不仅是视觉生成器,更是可迁移的物理先验载体。

3.2 可控与长程仿真平台

虽然视频生成式WAM擅长短程动作预测,但在物理合理性与长程一致性方面常面临挑战。为此,研究者开发了将WAM grounded 于物理约束并支持闭环协同训练的平台。Genie Envisioner扩展了Genie架构,引入面向操作任务的动作条件生成与因果一致性块;Aether提出几何感知统一世界建模;RoboScape提出物理感知具身世界模型,联合学习时序深度估计与自适应采样关键点动力学。

图片

图12:RoboScape物理感知具身世界模型。该架构联合学习时序深度估计与关键点动力学,通过正则化对齐整合物理知识。

一个关键洞见是世界模型与策略应在闭环中协同训练,彼此促进。World-VLA-Loop形式化了视频世界模型与VLA策略的闭环学习:VLA策略生成动作,世界模型仿真其后果,产生的想象轨迹同时优化两者。MoWM将这一思想扩展至混合世界模型框架,用于具身规划。在强化学习方面,VLA-RFT提出在世界仿真器中进行带验证奖励的视觉-语言-动作强化微调;VidMan利用视频扩散模型的隐式动力学;Wu等人则证明大规模视频生成预训练可迁移可行动的物理先验。

3.3 策略与规划框架

WAM的终极目标不仅是生成合理的未来,而是在其中实现最优行动。Cosmos-Policy引入基于世界模型的VLA策略优化,在机器人示范数据上微调视频世界模型,使其成为策略评估的可靠仿真器。MotuBrain则提出了面向机器人操作的专用世界动作模型。

图片

图13:Cosmos-Policy世界模型微调。上方:基础Cosmos模型可能无法准确预测未来状态;下方:在机器人数据上微调后,世界模型成为有效的仿真器。

在视觉潜在规划方面,ThinkAct提出通过强化视觉潜在规划进行视觉-语言-动作推理,利用推理多模态大语言模型生成子目标,经GRPO优化细化动作。对于长程多步任务,Embodied Tree of Thoughts引入审慎操作规划,使用WAM仿真多条候选动作序列,通过树搜索选择最优分支。3DFlowAction从三维流世界模型中学习跨本体操作。这些框架标志着从“世界模型作为被动预测器”向“世界模型作为智能体主动训练场”的范式转变。

4自动驾驶世界模型:安全关键域的仿真与规划

自动驾驶是世界模型最具挑战性也最为关键的应用领域之一。相比通用仿真器或具身操作环境,驾驶世界模型必须处理高速动态场景、严格的几何约束、多智能体交互与法规安全要求。该领域已从早期的像素级视频生成器,演进为支持闭环策略评估与几何规划的复杂结构化仿真平台。

4.1 视频生成:从DriveDreamer到GAIA-1

驾驶世界模型最成熟的应用是视频生成——合成逼真、时序连贯的驾驶序列,用于数据增强。DriveDreamer确立了真实世界驱动的世界模型范式,采用两阶段流水线:首先从无标注视频学习交通结构,随后基于驾驶动作条件化生成。DriveDreamer-2通过大语言模型增强场景生成多样性;Vista则引入了高保真、强泛化的驾驶世界模型。GAIA-1推出了90亿参数的生成式世界模型,证明大规模视频Transformer能够隐式习得交通动力学与智能体行为理解。GEM提出可泛化的自我视角多模态世界模型;DrivingWorld通过Video GPT构建驾驶专用世界模型。

图片

图14:DriveDreamer能力。该模型生成与文本提示和交通约束对齐的可控驾驶视频(上),基于驾驶动作预测未来视频(中),并从初始条件生成未来动作(下)。

在四维预训练与鸟瞰图(BEV)仿真方面,DriveWorld提出通过世界模型进行四维预训练场景理解;BEVWorld提出在场景级BEV潜在空间中运行的多模态世界仿真器,将多视角图像与激光雷达编码为统一的BEV表征进行可控生成。LongDWM通过跨粒度蒸馏解决长程建模问题。

图片

图15:BEVWorld架构。多视角图像与激光雷达被编码为统一的BEV表征,经潜在扩散后解码为图像与点云。

4.2 可控与长程仿真

视频生成产生逼真的画面,而可控仿真要求生成的未来对控制输入作出可预测响应,并在长程保持物理合理性。DriveDreamer4D提出世界模型是有效的四维驾驶场景表征数据机器,扩展DriveDreamer实现显式四维重建。MagicDrive推进高分辨率长视频生成;MagicDrive3D扩展至可控三维生成。Panacea提出面向自动驾驶的全景可控视频生成,合成360°环视视频。X-World提出可控自我中心多相机世界模型。

图片

图16:Panacea全景视频生成流水线。BEV序列与文本提示通过ControlNet条件化扩散编码器-解码器生成全景驾驶视频。

Epona引入自回归扩散世界模型,结合扩散表达性与自回归时序连贯性,支持轨迹控制生成、交通规则理解与端到端规划。在安全性与评测方面,ACT-Bench建立了动作可控世界模型基准;World4Drive提出意图感知物理潜在世界模型;FutureX通过潜在思维链增强端到端驾驶;Orbis解决长程预测误差累积问题。

4.3 策略与规划:从生成到决策

视频生成与可控仿真提供底层 substrate,策略与规划框架决定自动驾驶车辆如何在想象未来中导航。DriveDreamer-Policy提出几何 grounding 的世界-动作模型,统一生成与规划,同步输出多视角深度、视频与BEV规划结果。GenAD提出生成式端到端自动驾驶,将规划框架为潜在轨迹空间内的条件生成。DOE-1推进基于大世界模型的闭环自动驾驶。

图片

图17:GenAD生成式端到端自动驾驶。真实轨迹被编码至潜在空间,未来轨迹生成器产生规划结果。

在潜在世界模型规划方面,AdaWorld提出学习带潜在动作的自适应世界模型;World4Drive证明意图感知潜在模型收敛速度较传统方法提升3.75倍。闭环仿真平台方面,DriveArena提出闭环生成式仿真平台,在真实数据与传统仿真器之间提供可扩展的中间地带;ReSim提供可靠的世界仿真。在分析型世界模型方面,Dream to Drive提出基于解析世界模型的车辆控制;CarFormer引入基于学习对象中心表征的自动驾驶。

4.4 占据与BEV表征:结构化三维推理

虽然视频生成在像素空间运作,占据与BEV表征提供了更利于安全验证与规划的结构化三维几何 substrate。OccWorld开创了三维占据世界模型学习,直接预测未来占据网格,采用GPT风格架构结合空间聚合与时序因果注意力。UnO提出无监督占据场;SparseWorld提出基于稀疏查询的高效四维占据世界模型。

图片

图18:OccWorld框架。GPT风格架构处理历史BEV占据Token以预测未来三维占据。

HERMES提出统一自动驾驶世界模型,同步支持三维场景理解与生成;GaussianDWM引入三维高斯驾驶世界模型;MUVO提出带几何表征的多模态生成世界模型。Cosmos-Transfer1引入自适应多模态控制的条件世界生成;DIO提出可分解隐式四维占据-流世界模型;DynamicCity解决大规模四维占据生成问题。这些结构化表征架起了像素级仿真与三维空间推理之间的桥梁,满足了自动驾驶的安全关键需求。

5效率与评测:迈向实用化的双支柱

世界模型与VLA架构的快速扩展——以数十亿参数的基础模型为代表——催生了计算效率与严格评测的迫切需求。在效率方面,在真实机器人上部署大型VLA要求亚秒级推理延迟与适度内存;在评测方面,社区需要标准化协议来评估物理合理性、长程一致性以及与真实策略表现的相关性。

5.1 计算效率:从动作Token化到系统级优化

效率研究针对三大瓶颈:动作表征、视觉-语言主干优化与系统级内存管理。在动作Token化方面,早期VLA将动作均匀分箱离散化(如RT-2),引入量化误差。FAST提出基于离散余弦变换(DCT)的高效动作Token化,实现5倍训练加速并提升泛化。离散扩散VLA将动作生成视为掩码离散扩散过程,所需前向传播次数少于自回归替代方案。

图片

图19:FAST高效动作Token化。基于DCT的压缩实现5倍更快的VLA训练。

在主干优化方面,VLA-Cache提出自适应Token缓存,跨时间步复用静态视觉Token;EfficientVLA引入免训练加速,利用层间相似性与时序冗余;Deer-VLA引入早期退出机制,使简单查询在浅层退出;MoLe-VLA通过混合层实现动态层跳过;DySL-VLA扩展至动态-静态层跳过。在轻量级架构方面,TinyVLA实现了较OpenVLA低20倍的延迟,同时保持竞争力的成功率;VLA-Adapter提出面向微型VLA的有效适配器范式;Flower则以高效流策略 democratizing 通用策略。

图片

图20:TinyVLA扩展效率。TinyVLA较OpenVLA(7B)实现20倍更低的推理延迟,同时保持竞争力的成功率。

在Token剪枝与内存管理方面,DivPrune提出基于多样性的视觉Token剪枝;SP-VLA提出联合模型调度与Token剪枝;KEEP引入以KV缓存为中心的内存管理系统;KERV提出运动学校正推测解码。在后训练效率方面,Interactive Post-Training(IPT)证明与环境的持续交互可通过将模型蒸馏至更简单的动作分布,同时提升策略表现与推理效率。

5.2 评测基准:超越像素质量

传统计算机视觉指标(FID、PSNR)对具身AI已显不足。评测基准必须评估物理合理性、长程一致性与真实世界策略成功的相关性。WorldScore建立了面向世界生成的统一评测基准,超越像素质量评估场景一致性与物理规则遵循。WorldModelBench提出将视频生成模型作为世界模型进行评判,显式测试对物理定律的遵守。

图片

图21:WorldScore评测。尽管模型B在传统视频质量(VBench)上优于模型A,WorldScore揭示模型A在世界一致性方面表现更佳。

在具身世界模型评测方面,EWMBench提出具身世界模型基准套件,评估交互环境中的场景质量、运动连贯性与语义保真度。WorldArena则为感知与功能效用提供统一评测。在策略评估方面,WorldEval形式化地将世界模型作为真实世界机器人策略评估器,证明其与物理机器人成功率具有强相关性;AutoEval提出真实世界通用机器人策略的自主评估,实现与人类评估的高相关(R²=0.95)。

图片

图22:WorldEval策略评估框架。真实机器人评估(左上)不可扩展;仿真评估(右上)可扩展但存在偏差;WorldEval(下)利用世界模型实现高扩展性与高相关性。

6数据集与生态:具身智能的底层基础设施

世界模型、VLA与具身AI的显著进步,离不开数据基础设施的并行革新。与计算机视觉或自然语言处理不同,具身AI需要物理交互数据——机器人轨迹、人手示范、三维场景布局——其采集成本高昂。大规模开源机器人学习数据集与行业技术报告的涌现, democratizing 了这一数据 substrate 的获取。

6.1 大规模机器人学习数据集

机器人学习数据集已从小型单任务集合演进为海量多本体语料。DROID引入了大规模野外机器人操作数据集,在多样化真实世界环境中使用便携式遥操作装置采集;BridgeData V2提供单厨房环境中的大规模机器人学习数据,附带语言标注轨迹。在终身与长程学习方面,LIBERO提出面向终身机器人学习知识迁移的基准,涵盖130个语言条件任务;CALVIN提供面向语言条件长程操作的基准。

图23:

图片

DROID数据采集硬件(左)与空间覆盖对比(右)。便携式装置包括Franka Panda机械臂、Robotiq夹爪、立体相机与Oculus Quest 2遥操作设备;DROID在工作空间多样性上显著超越Bridge V2、RT-1与RH20T。

在大型仿真方面,BEHAVIOR-1K引入以人为中心的具身AI基准,涵盖1,000项日常活动;RoboCasa提供大规模日常任务仿真,包含120个厨房场景与2,500余个物体。在数据生成与增强方面,RoboTwin 2.0提出面向双手操作的可扩展数据生成器,具备强域随机化,支持50个双臂任务、511个物体与5种本体。在灵巧与自我中心数据方面,Apple发布的EgoDex提供大规模自我中心视频灵巧操作数据集,含30万段片段与三维骨架标注;Ego4D提供3,000小时跨多样日常活动的自我中心视频。Open X-Embodiment聚合22种机器人类型的数据,支撑了RT-X及后续开源VLA的训练。

6.2 行业技术报告与开放生态

行业技术报告发布了连接研究与生产的基础设施、基准与初步模型。蚂蚁集团发布的LingBot-Map引入流式三维重建模型,在多个基准上实现实时空间理解的先进精度,直接支持LingBot-World与LingBot-VLA模型。在物理仿真平台方面,ABot-PhysWorld提出面向自动驾驶仿真的物理 grounding 世界模型;Ctrl-World提供面向具身AI的可控世界模型。在评测方面,BagelVAL提出面向通用视觉-语言-动作模型的基准,强调延迟与时限内任务完成等真实世界操作指标。

图片

图24:LingBot-Map重建性能。在Oxford Spires、NRGBD、T-Scenes、TartanAir与ETH3D基准上实现优越精度。

在操作与人形机器人方面,GR-RL描述灵巧精确的长程操作;GR-3提供傅利叶第三代人形机器人的技术报告;AgiBot World Colosseum提供大规模人形机器人训练数据集。LingBot-World与GigaWorld-0发布了开源世界模型平台,Cosmos与Genie系列则提供了不同程度的API访问。这些生态投资认识到:当数据、模型与基准广泛可及时,该领域发展最为迅速。

7展望与未来方向

本文系统梳理了现代世界模型与具身世界动作模型的完整技术生态,涵盖200余篇核心文献,组织为统一的六大支柱 taxonomy。从基础世界模型的交互式仿真,到VLA模型的语义-运动映射,再到WAM的统一生成框架,以及自动驾驶领域的结构化规划,效率与评测的支撑体系,和数据基础设施的蓬勃发展——这一领域正站在从研究探索向工程实用化跃迁的关键拐点。

物理一致性仍是首要挑战。当前世界模型常违反基础物理规律(如物体持久性、重力约束)。未来方向包括开发物理感知训练目标,如自监督发现物理参数(质量、摩擦系数)与基于物理的对抗损失,并通过扩展世界仿真基准(如WorldModelBench涵盖动量守恒测试)进行严格评估。

跨本体泛化亟待突破。即便大型VLA在未见机器人形态上仍表现不佳。未来需探索本体无关的动作表征——如三维关键点流或相对关节偏移——并在超大规模多本体数据(Open X-Embodiment + 合成变体)上训练。具体里程碑包括从仿真臂到真实人形手的零样本迁移。

安全性验证是落地前提。如何为世界模型 rollout 提供形式化安全保证?结合占据世界模型(如OccWorld)与可达性分析或可微逻辑,开发认证世界仿真器,在给定假设下证明不安全轨迹的不可存在性,是极具前景的方向。

弥合仿真到现实的评测鸿沟。WorldEval与AutoEval展现了潜力,但与真实部署的相关性仍不完美。未来应构建开源持续评测平台,在物理实验室与多种世界仿真器中同步运行策略,通过数千次试验测量排序相关性,发布标准化仿真-真实相关性指标。

长尾场景的自主数据采集。罕见事件(事故、 novel 物体)的稀缺数据限制了模型鲁棒性。部署由世界模型驱动的探索策略,主动搜寻高不确定性状态或安全关键场景,并将这些轨迹用于微调,可构建自我改进的数据飞轮。

标准化开放生态。代码库、基准与模型格式的碎片化拖慢了进展。建立社区驱动的世界模型模型库(类似Hugging Face),提供统一的推理、微调与评测API,支持物理合理性与策略迁移的可复现排行榜,将加速整个领域的协同发展。

从被动的像素预测器到主动的、具备推理能力的、 grounded 于动作的仿真器,世界模型正在重塑具身智能的技术边界。具身世界动作模型(WAM)的出现,标志着智能体不仅能够“看见”世界,更能够“想象”并“行动”于其中。随着物理一致性、跨本体泛化、安全验证与开放生态等挑战的逐步攻克,一个由世界模型驱动的具身智能新时代正在加速到来。

Original Paper

📄 原始论文:论文主页:   jinxindeep.github.io/papers/WAM/

Zenodo 论文存档:zenodo.org/records/200…

Title

World Models and World Action Models (WAM): From Foundation Simulators to Embodied Action

Xin Jin (金鑫)

Abstract

World models—internal predictive representations that enable agents to simulate future states, anticipate consequences, and plan actions—have emerged as a foundational paradigm in embodied artificial intelligence. Originating from model-based reinforcement learning, this field has undergone a radical transformation with the advent of large-scale generative models, blurring the historical boundary between passive video prediction and interactive physical simulation. Concurrently, Vision-Language-Action (VLA) models have established a powerful framework for grounding high-level linguistic intent in low-level motor control. The natural convergence of these two threads—predictive world simulation and action-grounded multimodal reasoning—has given rise to Embodied World Action Models (WAMs), representing a new frontier in which agents learn to act by imagining their futures.

Through this organization, we illuminate the evolutionary trajectory from passive pixel predictors to active, reasoning, and action-grounded simulators. We identify critical open challenges—including physical consistency, cross-embodiment generalization, safety verification, and the sim-to-real evaluation gap—and outline future directions toward cognitive world models, autonomous data collection, and standardized open ecosystems. This survey aims to serve as a definitive reference for researchers and practitioners advancing the next generation of embodied intelligence.

This survey presents a comprehensive and structured review of the modern world model ecosystem, encompassing 200+ key papers organized into a unified taxonomy. We systematically cover six major pillars: (i) Foundation World Models; (ii) Vision-Language-Action Models; (iii) Embodied World Action Models; (iv) Autonomous Driving World Models; (v) Efficiency and Evaluation; and (vi) Datasets and Ecosystems. We identify critical open challenges—including physical consistency, cross-embodiment generalization, safety verification, and the sim-to-real evaluation gap—and outline future directions toward cognitive world models, autonomous data collection, and standardized open ecosystems.

📄 原始论文:论文主页:   jinxindeep.github.io/papers/WAM/

Zenodo 论文存档:zenodo.org/records/200…

本文基于公开学术文献与技术报告整理,仅供学术交流参考。