WAM世界动作模型:具身智能的下一个前沿

0 阅读17分钟

当视觉-语言-动作模型遇上世界模型,预测与执行的无缝融合正在重新定义机器人学习的边界

视觉-语言-动作(VLA)模型在语义泛化方面取得了显著进展,但其本质上是反应式的观察-动作映射,缺乏对物理世界动态演化的显式建模。世界动作模型(World Action Models, WAMs)作为新兴范式,将预测性世界建模与动作生成统一起来,通过联合建模未来状态与动作的联合分布,为具身智能体赋予预见性推理能力。本文基于arXiv:2605.12090综述论文,系统梳理WAMs的架构分类、技术路线、数据生态与评估体系,展望这一 rapidly evolving 领域的未来机遇。

一、领域概览:从反应式映射到预见性推理

近年来,以OpenVLA、π₀.₅、GigaBrain为代表的视觉-语言-动作模型在机器人操控领域展现出强大的语义理解与跨任务泛化能力。这些模型通过大规模预训练,学会了将视觉观察与自然语言指令映射为低层动作序列,实现了"看到什么就做什么"的端到端控制。然而,VLA模型的本质局限在于其反应式(reactive)特性:它们直接学习从当前观察到即时动作的映射,却未显式建模"执行动作后世界将如何变化"这一核心物理常识。

这种缺失带来了诸多现实挑战。当机器人执行长程任务时,缺乏对世界动态的理解会导致错误累积——一个微小的定位偏差可能在后续步骤中被放大为任务失败。在接触丰富的操控场景中,VLA模型难以预判物体的受力形变、滑动轨迹或堆叠稳定性。更重要的是,纯反应式策略无法有效支持规划(planning)与推理(reasoning),而这正是人类完成复杂物理任务的认知基础。

WAMs时间轴演化与分类总览

图1 WAMs领域代表性工作的时间轴演化与分类总览。图中将现有方法划分为Joint WAM(扩散式与自回归式)与Cascaded WAM(显式与隐式生成)两大分支,横向展示2024至2026年的技术演进脉络,纵向标注各代表性方法及其所属机构。资料来源:Wang et al., arXiv:2605.12090。

世界模型(World Models)的概念为解决上述问题提供了理论框架。从Ha & Schmidhuber的早期工作到近期Yann LeCun倡导的联合嵌入预测架构(JEPA),世界模型始终致力于构建环境动态的预测性表示。在机器人学习领域,世界模型被期望提供三项核心能力:预见(foresight),即在执行前预测未来状态或动作后果;想象驱动规划(imagination-driven planning),即利用想象的推演轨迹比较并选择候选行为;以及数据增广(data amplification),即合成额外的演示或交互轨迹以改善学习样本效率。这些能力对于需要推理接触、动力学及其他物理规律的具身任务尤为关键。

二、正式定义:WAMs的概念边界与数学形式

2026年5月,复旦大学、上海人工智能实验室与新加坡国立大学的研究者在arXiv发布了题为《World Action Models: The Next Frontier in Embodied AI》的综述论文,首次系统性地提出了世界动作模型(WAMs)的正式定义与分类框架。该综述将WAMs界定为:将预测性状态建模与动作生成统一起来的具身基础模型,其目标是建模未来状态与动作的联合分布,而非仅建模动作本身。

VLA、WAM与WM的概念对比

图2 VLA、WAM与WM的概念对比及WAM与其他相关概念的关系。左半部分展示三种范式的输入输出边界:VLA建模p(a|o,l),WM建模p(o'|o,a),WAM则联合建模p(o',a|o,l)。右半部分的韦恩图阐明WAM(亦记作AWM)与VAM(Video Action Model)、Video Policy等概念的包含关系。资料来源:Wang et al., arXiv:2605.12090。

与纯世界模型或纯策略模型不同,WAMs的核心特征在于联合分布建模。传统VLA模型学习条件分布 p(a|o, l),其中 o 为观察,l 为语言指令,a 为动作;而世界模型学习转移动力学 p(o'|o, a)。WAMs则进一步将二者融合,直接建模 p(o', a|o, l) 或其在隐空间中的等价形式。这种联合建模使得动作生成过程能够显式地考虑未来状态的预测,从而实现更具前瞻性的决策。

从形式化角度看,WAMs的优化目标可表述为最大化联合似然:

ℒ = 𝔼_{(o,l,a,o')~𝒟} [log p(o', a | o, l; θ)]

其中 𝒟 为机器人交互数据集,θ 为模型参数。该目标可分解为动作预测项与状态预测项的加权和,也可通过变分推断引入隐变量以处理部分可观测性。这种统一的数学框架为后续架构设计提供了理论基础。

三、基础与融合:VLA与世界模型的早期结合

WAMs并非凭空产生,而是植根于VLA模型与世界模型两条研究路线的深度融合。在WAMs作为统一范式被正式提出之前,学界已探索了多种将世界模型能力注入VLA策略的技术路径。这些早期融合工作为WAMs的诞生奠定了方法论基础,主要集中在四个方向:

WM for VLA的四种集成范式

图3 世界模型赋能VLA的四种集成范式。(a) 模仿学习:WM作为数据过滤与增强模块,筛选高质量轨迹用于VLA训练;(b) 强化学习:WM提供未来预测作为奖励建模信号,驱动VLA策略优化;(c) 奖励建模:真实环境反馈与WM预测结合,构建更鲁棒的奖励函数;(d) 策略评估:WM作为可复现的仿真评估器,替代部分昂贵的真实环境交互。资料来源:Wang et al., arXiv:2605.12090。

模仿学习路径利用世界模型筛选或增强演示数据。世界模型通过预测未来帧评估轨迹的物理合理性,过滤掉包含穿透、漂浮等违反物理规律的伪样本,从而提升VLA策略的训练数据质量。代表性工作包括Ctrl-World与RoboScope,它们通过视频世界模型对大规模机器人数据进行质量筛选。

强化学习路径将世界模型作为可微分仿真器,在想象的未来空间中进行策略梯度优化。Dreamer系列工作开创了这一范式,通过隐空间动力学模型实现高效的模型-based RL;后续工作如WoVR、VLA-RFT进一步将视频世界模型与VLA策略结合,在预测空间中进行后训练(post-training)以提升长程任务完成能力。

奖励建模路径利用世界模型的预测误差或未来状态一致性作为内在奖励信号。当VLA策略执行的动作导致世界模型产生高不确定性的预测时,系统可据此推断该动作可能具有探索价值或偏离常规模式,从而构建无需人工设计的稠密奖励函数。

策略评估路径将世界模型作为可复现的评估器,在虚拟推演中测试VLA策略的性能。WorldEval与WorldGym等框架通过世界模型生成多样化的测试场景,显著降低了真实硬件评估的成本与风险,同时提升了评估的覆盖度与可重复性。

四、架构分类:级联式与联合式

根据世界模型与动作生成模块的耦合方式,现有WAMs可分为两大类:级联式WAM(Cascaded WAM)与联合式WAM(Joint WAM)。这一分类反映了学界在"预测与执行应多大程度共享表示"这一问题上的不同技术取向。图4展示了WAM领域的完整分类体系,涵盖从背景基础到架构设计、训练数据与评估协议的各个维度。

WAM完整分类树

图4 WAM领域的完整分类树(Roadmap to WAM)。图中系统梳理了四大模块:(1) Background,涵盖VLA、World Model、WM for VLA的基础工作;(2) Architecture,细分为Cascaded WAM(Explicit/Implicit)与Joint WAM(Autoregression/Diffusion-based);(3) Training data,包含Robot-centric Teleoperation、Human Demonstration、Simulation、Human Data;(4) Evaluation,涵盖World Model评估(Visual Fidelity/Physical Commonsense/Action Plausibility)与Action Policy评估(General/Bimanual/Mobile/Contact/Real-Device)。资料来源:Wang et al., arXiv:2605.12090。

4.1 级联式世界动作模型

级联式WAM保持世界模型与策略模型的相对独立性,通过显式的未来预测作为中间桥梁来指导动作生成。其典型流程为:首先,世界模型根据当前观察与候选动作序列生成预测的未来视频帧或隐状态;随后,策略模型基于这些预测结果选择或优化动作。

级联式WAM的显式与隐式生成

图5 级联式WAM的两种生成范式。(1) 显式生成(Explicit Generation):视频生成模型直接输出RGB帧,通过IDM(Inverse Dynamics Model)或几何提取模块解码动作,包括Learned Action与Geometric Extraction两种变体;(2) 隐式生成(Implicit Generation):视频模型输出隐层表示(Latent Representation),IDM从隐空间直接推断动作,避免像素级解码开销。资料来源:Wang et al., arXiv:2605.12090。

级联架构又可细分为显式生成与隐式生成两种实现路径。显式生成方法直接合成未来视频帧,如VPP(Video Prediction Policy)利用视频扩散模型生成未来视觉场景,再将预测帧输入VLA进行动作解码;UniPi、VLP、Gen2Act等工作同样遵循这一范式,通过显式的像素级预测为动作生成提供可解释的"想象画面"。隐式生成方法则在世界模型的隐层表示上进行动作推断,如LAPA、S-VAM、Omni-VTA等工作将视频编码器的中间特征作为动作策略的条件,避免像素级解码的计算开销与信息瓶颈。

级联式架构的优势在于模块化与可解释性:世界模型与策略模型可独立训练、迭代优化,且预测结果可供人类检查。然而,级联误差传播是其固有缺陷——世界模型的预测偏差会在传递给策略模型时被放大,且两阶段推理增加了部署延迟。

4.2 联合式世界动作模型

联合式WAM将世界动态预测与动作生成整合为单一模型,通过共享的表示空间与联合优化目标实现端到端学习。这类模型通常以自回归(autoregressive)或扩散(diffusion-based)方式生成动作令牌(action tokens)与状态令牌(state tokens)的交错序列。

在自回归路径中,代表性工作包括GR-1、GR-2、CoTVLA、WorldVLA、VLA-JEPA等。这些模型将视觉观察、语言指令、动作与未来的观察统一离散化为令牌序列,通过Transformer架构进行下一令牌预测,实现了对世界动态与动作策略的联合建模。GR系列工作通过大规模预训练展示了自回归WAM在跨任务泛化方面的潜力;WorldVLA则进一步将视频生成与动作生成统一到单一自回归框架中。

扩散模型路径则利用去噪扩散概率模型(DDPM)或流匹配(Flow Matching)在动作-状态联合空间中进行采样。代表性工作包括PAD、VideoVLA、UWM、DreamZero、CosmosPolicy、FLARE、FRAPPE、CoVAR、LDA-1B、WAV、DUST、LingBot-VA、AIM、DexWorldModel、Fast-WAM、MotuBrain、AdaWorldPolicy、DiT4DiT、Motus、Act2Goal、PhysGen、GigaWorld-Policy、UD-VLA、X-WAM等。扩散方法的优势在于能够表达多模态动作分布,适用于接触丰富、存在多种可行解的操控任务。

维度级联式WAM联合式WAM
架构特点世界模型与策略模型分离统一模型联合预测状态与动作
代表方法VPP, UniPi, VLP, LAPA, S-VAM, Omni-VTA, MWMGR-1/2, WorldVLA, VLA-JEPA, PAD, VideoVLA, UWM, DreamZero, CosmosPolicy, FLARE, FRAPPE, CoVAR, LDA-1B, Fast-WAM, MotuBrain
优势模块化、可解释、可独立迭代端到端优化、避免误差传播、推理高效
挑战级联误差、推理延迟训练稳定性、调试困难
适用场景需要显式未来可视化的任务实时性要求高、长程规划任务

五、数据生态:驱动WAM发展的燃料

世界动作模型的训练对数据提出了比传统VLA模型更高的要求。不仅需要成对的(观察,动作)序列,还需要能够支撑未来预测的多步轨迹数据。当前WAMs的数据生态主要涵盖四个来源:

机器人遥操作数据构成了最精确但规模有限的来源。通过VR手柄、同构主从臂或空间鼠标采集的遥操作数据提供了高质量的动作标签,如QT-Opt、MIME、RoboNet、RoboTurk-Real、BridgeData、MT-Opt、BC-Z、RT-1、Language-Table、BridgeData v2、Jaco Play、Cable Routing Dataset、RH20T、OXE、DROID、RH20T-P、RoboMIND、ARIO、RoboData、DexCap、FuSe、AgiBot World、REASSEMBLE、OmniAction、UnifoLM-WBT等数据集包含数百万条真实机器人交互轨迹。然而,此类数据的采集成本高昂,且受限于特定机器人形态与实验室环境。

便携式人类演示数据为跨形态迁移提供了可能。UMI、FastUMI、FastUMI-100K、RealOmin、Hoi!、RDT2、ActiveUMI、exUMI、Tactile-Conditioned Diffusion Policy、DexUMI、UMI on Legs、HoMMI、MV-UMI等数据集通过便携式夹爪或可穿戴设备捕捉人类在日常环境中的自然交互,虽缺乏精确的动作标签,但可通过逆动力学估计或视觉里程计提取伪动作监督,显著扩展了训练数据的多样性。

仿真生成数据提供了可扩展的低成本替代方案。MimicGen、ManiSkill2、RoboCasa、RoboTwin、DexMimicGen、TesserAct、RoboCerebra、SynGrasp-1B、RoboTwin 2.0、TLA Dataset、InternData-M1、InternData-A1、QUARD-Auto等基于MuJoCo、Isaac Sim、SAPIEN等物理引擎的仿真环境能够生成带有完美状态标注与物理参数的交互数据,支持域随机化以提升 sim-to-real 迁移能力。

互联网级视频数据代表了最具扩展性的来源。SSv2、EPIC-KITCHENS、HowTo100M、Kinetics-700、EGTEA Gaze+、Ego4D、HOI4D、EgoVid-5M、COM Kitchens、Egocentric-10k、DreamDojo、Assembly101、H2O、EgoPAT3D、Ego-Exo4D、ARCTIC、HoloAssist、HOT3D、TACO、Kaiwu、OAKINK2、Nymeria、EgoMimic、PH²D、Humanoid Everyday、IndEgo、PLAICraft、HD-EPIC、UniHand、Ego-Centric Human Manipulation Dataset、Aria Everyday Activities、EgoDex等互联网视频数据集包含数十亿小时的视觉内容,虽无机器人动作标签,但可通过自监督预训练学习视觉动力学先验。近期研究表明,在大型视频生成模型上微调,可得到具备物理常识的视频世界模型,进而通过蒸馏或强化学习转化为机器人策略。

六、评估体系:衡量预见性智能

评估WAMs需要超越传统动作准确率指标,建立涵盖视觉保真度、物理常识与动作合理性的多维评估框架。Wang等人提出的综述将现有评估协议归纳为两个层次:

世界建模能力(World Modeling Capability)评估模型预测未来状态的质量,包含三个子维度。视觉保真度(Visual Fidelity)通过PSNR、SSIM、LPIPS、DreamSim、DINO、FVD等指标衡量生成帧的像素级与感知级质量。物理常识(Physical Commonsense)通过VideoPhy、PhyGenBench、VBench-2.0、WorldModelBench、Physics-IQ、WorldScore、EWMBench等基准,检验模型对物体持久性、重力效应、碰撞动力学、因果关系的理解。动作合理性(Action Plausibility)通过WorldSimBench等指标评估生成的未来状态是否保留足够的动作相关信息,以支持下游控制策略的正确推断。

动作策略能力(Action Policy Capability)评估生成动作在物理世界中的可执行性与任务达成度,按机器人形态与任务复杂度细分为五个层次。通用操控(General)通过Meta-World、RLBench、Robomimic、Franka Kitchen、ManiSkill、ManiSkill2/3、RoboCasa、CALVIN、VIMAbench、VLMbench、LIBERO、Libero-plus、Libero-X、COLOSSEUM、AGNOSTOS、RoboEval、RoboVerse、PolaRIS、RoboMME、GenManip、VLABench、RoboSuite、RoboLab、SimplerEnv、ARNOLD、GemBench等基准测试多任务学习、语言条件化与长程执行能力。双手与人形形态(Bimanual and Humanoid Form)通过RoboTwin、BiGym、HumanoidBench、HumanoidGen评估高自由度协调控制。移动操控(Mobile Manipulation)通过ManipulaTHOR、HomeRobot、BEHAVIOR-1K评估导航与操作的结合。接触与变形操控(Contact and Deformation)通过SoftGym、PlasticineLab、DaXBench、TacSL、ManiFeel评估布料、液体、可变形体等复杂物理交互。真实设备评估(Real-Device)通过RoboArena、RoboChallenge、Maniparena测量策略在真实硬件上的部署性能与可靠性。

七、开放挑战与未来方向

尽管WAMs展现出令人振奋的前景,该领域仍面临若干根本性挑战。

架构耦合的系统性比较是当前的核心瓶颈之一。级联式与联合式WAM在匹配规模、数据与协议下的系统性对比仍较为缺乏,不同架构的适用边界与最优切换条件尚未明确。未来需要建立标准化的基准测试协议,在控制变量的条件下公平比较不同耦合方式的优劣。

多模态物理状态建模是提升WAM物理一致性的关键。现有工作大多以RGB视频为主要预测目标,但触觉(tactile)、力觉(force)、声学(acoustic)与形变(deformation)信号在接触丰富操控中同样至关重要。如何将多模态物理感知统一纳入世界模型的预测框架,是亟待解决的技术难题。

数据混合设计决定了WAMs的扩展路径。机器人遥操作数据、人类演示、仿真生成与互联网视频在训练中的边际贡献率尚不明确,最优的数据配比与课程学习策略仍有待探索。如何高效利用海量无标注视频中的物理先验,同时保持策略对真实机器人形态的适应性,是数据层面的核心挑战。

长程时间推演的稳定性限制了WAMs在复杂任务中的应用。随着预测时间跨度的延长,误差累积导致视频质量与动作合理性急剧下降。层次化记忆架构、隐空间递归模型与自适应时间抽象机制可能为这一问题提供解决思路。

推理延迟与效率是部署层面的现实约束。扩散模型与自回归生成在提供高质量预测的同时,往往难以满足闭环控制的实时性要求。模型压缩、蒸馏、量化与专用硬件加速将是WAMs从实验室走向工业应用的必要技术支撑。

安全评估与可靠部署是WAMs落地的前提。当前领域仍缺乏联合衡量"想象未来"与"实际执行"之间因果一致性的统一指标,也缺少鲁棒的安全检查机制。如何建立可解释的不确定性估计、可验证的安全边界,以及在预测与执行中嵌入人类价值对齐,是未来研究的重要方向。

未来展望

世界动作模型代表了具身智能从"感知-动作"到"感知-预测-动作"的范式跃迁。随着视频生成模型、强化学习算法与机器人硬件的协同发展,WAMs有望在未来三至五年内实现从实验室到真实世界复杂场景(如家庭服务、工业装配、灾难救援)的跨越。统一的世界-动作表示、可扩展的物理仿真与可靠的 sim-to-real 迁移,将是这一征程上的关键里程碑。

参考文献

  1. Wang S, Shi J, Fu Z, et al. World Action Models: The Next Frontier in Embodied AI. arXiv preprint arXiv:2605.12090, 2026.

世界模型blog:jinxindeep.github.io/blog/blog20…