X Square Robot团队提出开源40亿参数VLA模型,验证预训练本身即可产生可执行的机器人行为,为具身智能基础模型提供新范式
具身智能VLA模型机器人学习开源预训练技术报告来源:X Square Robot Team | Wall-OSS-0.5 Technical Report
核心看点
大规模视觉-语言-动作(VLA)预训练正成为机器人策略的重要基础,但既有研究几乎总是在任务特定微调后才报告性能,这使得一个基础问题长期悬而未决:VLA预训练本身是否足以产生可执行的机器人行为?X Square Robot团队发布的开源模型Wall-OSS-0.5给出了肯定答案。该模型基于30亿参数VLM骨干构建,总参数量达40亿,在覆盖20余种具身形态、每轮超百万条机器人轨迹的数据上进行预训练。实验表明,未经任何任务微调的预训练检查点即可在17项真实机器人零样本任务中完成多项操作,平均任务进展达51.1%;经过微调后,在15项真实任务上平均进展达60.5%,较基线模型提升17.5个百分点。相关模型权重与训练代码已开源。
一、研究背景:预训练能否直接驱动物理机器人?
在语言与视觉领域,基础模型的可信度建立在一条明确的标准之上:预训练应产生在任务特定适配之前即可观测到的能力。预训练的语言模型能够回答问题、遵循指令并迁移到新颖任务;视觉模型能够识别物体、理解场景关系。然而,在机器人学领域,这条标准尚未得到充分验证。当前主流的视觉-语言-动作(VLA)模型虽然日益从预训练视觉-语言模型(VLM)继承感知与推理能力,但其最强结果通常仅在下游微调后才被报告。
这一现状带来了一个具体的操作性疑问:VLA预训练本身是否足以产生在真实机器人评估下可执行的策略?换言之,预训练是仅仅为下游策略学习提供了更好的初始化,还是已经内嵌了可直接部署的物理操作能力?回答这一问题不仅关乎学术定义,更直接影响产业落地路径——如果预训练即可产生可用策略,那么机器人系统的部署成本与数据需求将被显著重构。
Wall-OSS-0.5正是围绕这一部署导向标准而构建的。研究团队将预训练检查点直接作为真实机器人策略进行评估,而非仅将其视为初始权重。这要求模型同时满足三项条件:开箱即用地执行有用的操作技能;保留足够的VLM派生视觉-语言能力以维持指令遵循;为下游适配提供更强的先验以提升样本效率。研究团队将这一目标称为"部署导向的VLA"。
图1 Wall-OSS-0.5能力概览。该图从三个维度总结模型表现:预训练模型的真实机器人行为、下游适应能力与具身多模态理解。面板(a)-(h)展示了评估的真实机器人任务示例,包括开锅盖、盖积木、套环、将笔放入袋中、配对袜子、插入螺丝刀、将勺子放入碗中、将杯子放到盘子上。值得注意的是,未经任何任务特定微调,预训练模型已在多项任务上实现了较高的任务进展。(来源:Wall-OSS-0.5技术报告 Figure 1)
二、方法框架:梯度桥接协同训练
Wall-OSS-0.5的核心方法论贡献是"梯度桥接协同训练"(Gradient-Bridged Co-Training)。VLA训练存在一个内在张力:连续流匹配(Flow Matching)构成了自然的执行接口,能够直接建模未量化的机器人动作,但其对预训练VLM骨干的更新较弱;离散动作令牌预测则具有互补特性——下一令牌交叉熵是VLM训练的原生接口,能够强有力地塑造骨干,但解码后的离散动作过于粗糙,难以实现精确控制。
简单地冻结或截断梯度可以保留VLM先验,但代价是阻止精确动作目标塑造大型预训练骨干。因此,设计问题并非"连续 versus 离散"的二元选择,而是如何在训练期间利用离散路径,同时在部署时保留连续动作能力。
2.1 三大互补目标的协同优化
Wall-OSS-0.5通过三个在单一阶段联合优化的目标解决上述张力:
-
动作令牌交叉熵(梯度桥接):
自回归地预测残差矢量量化(RVQ)动作令牌,提供强大的VLM原生信号,使骨干朝向控制方向更新。在强度上,由于共享VLM预训练的 autoregressive 接口,其对骨干的驱动远强于流匹配;在方向上,其梯度与流匹配保持正相关,使连续控制能够后续利用这些特征。
-
多模态交叉熵(泛化锚点):
在 grounding 视觉-语言样本上训练,保留指令遵循、视觉 grounding 与具身场景理解能力。其更新方向与动作优化大致正交,因此与梯度桥接互补而非竞争。
-
连续流匹配(精确动作):
训练 Action Expert 生成部署时使用的连续动作块。梯度分析表明,在早期训练之后,流匹配对骨干更新的贡献稳定在约5%的较小但持续的份额,主导更新来自两个交叉熵损失。
图2 Wall-OSS-0.5中的梯度桥接协同训练与MoT路由。三种互补目标共同塑造预训练策略:多模态CE保留 grounding 视觉-语言知识,动作令牌CE提供将VLM骨干适配至控制的梯度桥接,流匹配监督部署使用的连续动作。Mixture-of-Transformers架构将视觉-语言令牌路由至VL Expert,将连续动作计算路由至Action Expert,联合注意力实现两个Expert之间的端到端梯度流动。(来源:Wall-OSS-0.5技术报告 Figure 2)
2.2 Mixture-of-Transformers 架构设计
模型基于Qwen2.5-VL-3B-Instruct初始化,通过添加动作生成组件扩展为总参数量超40亿的VLA。架构采用Mixture-of-Transformers(MoT)骨干:原始3B VLM保留为VL Expert,新增的Action Expert与连续动作头中的动作投影提供额外的动作生成容量。
四个令牌流——视觉、语言、本体感知与离散动作——通过VL Expert路由;而带噪声的连续动作令牌通过Action Expert路由,后者专为流匹配动作生成训练。关键设计在于,两个Expert共享序列级注意力上下文,允许Action Expert在生成连续动作时关注视觉与语言信息。注意力掩码使离散与连续动作令牌在前向传播中互不可见,从而允许两条动作路径独立训练与评估;与此同时,梯度并未被阻断,流匹配梯度仍可流向VL Expert。
2.3 视觉对齐的RVQ动作分词器
采用离散动作令牌的原因在于下一令牌交叉熵是与VLM骨干最直接兼容的训练接口。因此,分词器必须暴露结构化动作语义以供骨干训练,而非仅实现低失真重建。为此,研究团队以学习的视觉对齐残差矢量量化(RVQ)动作分词器替代了基于规则的FAST分词器。
该分词器在delta动作空间操作,遵循编码器-RVQ-解码器结构。编码器通过时间交叉注意力压缩观测条件下的动作块;RVQ码本在早期层级捕获粗略运动结构,在后期层级捕获精细残差修正;解码器基于观测状态重建动作序列。除重建外,三个目标共同塑造令牌空间:视觉-动作对齐将动作潜变量拉向VLM视觉特征;下一帧预测鼓励令牌编码动作后果;DCT域重建抑制高频抖动。最终得到的离散动作表示同时具有可重建性、视觉对齐性与物理一致性。
图3 视觉对齐RVQ动作分词器概览。该框架通过残差矢量量化将观测条件化的delta动作序列压缩为多层级离散令牌。通过引入辅助视觉-动作与未来观测目标,分词器作为VLM骨干的语义训练接口,而非纯粹的动作压缩器。(来源:Wall-OSS-0.5技术报告 Figure 3)
2.4 动作空间监督
在流匹配的标准框架中,模型从带噪动作块出发学习速度场。Wall-OSS-0.5保留了速度预测作为网络输出,但将损失定义在恢复后的动作上,而非标准流匹配中的速度场。这一形式等价于对速度空间进行(1-τ)²加权的损失,其中τ为噪声水平。由于τ=0对应纯噪声,该加权自然强调高噪声步骤——而高噪声步骤正是形成全局动作轨迹结构的关键阶段。
研究团队指出,机器人动作序列具有低维与平滑特性:其任务相关结构主要存在于低频轨迹形状中,而非高频细节。与自然图像不同,机器人动作的有效信息集中于平滑轨迹趋势,因此高噪声阶段的监督质量在很大程度上决定了生成上限。消融实验证实,动作空间监督在收敛速度、峰值性能与训练稳定性方面均带来提升。
三、数据工程:百万级轨迹与多模态语料
预训练数据集以高质量自采集操作数据为核心,辅以开源多具身数据,并通过针对性多模态语料增强。数据构成在任务多样性、具身形态多样性与来源分布之间进行了刻意平衡。
3.1 动作数据来源与构成
自采集数据涵盖桌面双臂操作与移动操作两大平台类别,并进一步通过XRZero-G0这一无具身采集设备进行补充,以低成本方式丰富环境与任务多样性。在开源数据侧,团队对10个高质量开源数据集进行了统一整理,包括AgiBotWorld Beta、RoboMIND v2.0、Fractal、RealOmin、DROID、RoboCOIN、RoboMIND v1、RoboChallenge、BRIDGE v2与Galaxea Open-World。经过筛选与格式对齐后,开源数据约占动作数据总量的40%,自采集数据占60%。每轮训练周期包含超过一百万条轨迹。
图4 预训练动作数据全景。左图:保留的数据子集与轨迹构成,包括自采集动作数据及10个开源子集;右图:具身形态构成,展示了自采集数据与开源子集在形态层面的多样性。(来源:Wall-OSS-0.5技术报告 Figure 4)
为处理多源数据的异质性,团队实施了系统化的预处理流水线:动作空间统一化将各来源映射至涵盖双臂末端位姿、关节位置、夹爪状态、移动底座、升降/腰部驱动与头部驱动的统一模式;视频-动作时间对齐通过最近时间戳策略处理采样频率不一致问题;静止帧过滤通过全局统计归一化移除观测与动作均接近静止的帧,以减少监督噪声并消除推理时的冗余停顿。
采样策略采用幂次采样:对于第i组含n_i条轨迹的数据,采样权重w_i = n_i^p,其中p=0.5(平方根采样)。这一策略在提升小群体采样频率的同时,保留大群体的统计权重,并配合每组上限与迭代再分配机制,防止极大数据集垄断训练预算。
3.2 多模态与桥接数据
多模态数据在梯度桥接协同训练中提供泛化锚点,使VLM骨干保持与 grounding 视觉-语言理解的联系。多模态语料总计约9000万样本,包含7800万开源样本与1200万从动作轨迹直接构建的"具身桥接样本"。
开源多模态数据分为三类:通用视觉-语言数据提供广泛的标题、问答与推理监督;具身感知数据针对物体 grounding、可供性理解与空间推理;具身认知数据涵盖任务VQA、交互理解与长程推理。具身桥接数据则通过自动化流水线从动作预训练语料构建,沿四个理解层级组织:物体理解、空间理解、场景理解与任务理解,从而在多模态理解与可执行动作之间建立显式连接。
图5 具身桥接数据构建与任务分类。桥接样本从动作轨迹生成,沿物体、空间、场景与任务理解目标组织,使多模态监督与可执行机器人行为对齐。(来源:Wall-OSS-0.5技术报告 Figure 5)
四、实验验证:预训练即产生物理能力
Wall-OSS-0.5的实验设计围绕一个核心命题展开:预训练检查点能否在未经任务特定微调的情况下,直接在真实硬件上产生可观测的操作行为。研究团队构建了一个包含17项任务的零样本评估套件,涵盖语义理解、刚体操作、可变形物体操作、细粒度操作与长程多步操作五个维度。
4.1 零样本真实机器人表现
在40万步检查点,预训练模型在6项任务上达到或超过60%的任务进展,其中4项超过80%,包括两项未在训练分布中见过的任务。具体而言,积木分类(Block Sorting)达到100%,水果分类(Fruit Sorting)达到96%,套环(Ring Stacking)达到86%,而未见过的可变形任务绳索收紧(Rope Tightening)达到82%。
这一结果表明,模型获得的并非任务模板的纯粹记忆,而是可迁移的操作能力。特别值得注意的是,绳索收紧作为可变形操作任务,在预训练阶段未见于当前具身形态的相同任务配置,其高进展说明模型掌握了可泛化的物理交互技能。从训练趋势看,已见任务与未见任务的平均进展均随预训练持续推进,在40万步时未见任务(53.6%)甚至略高于已见任务(50.0%),进一步排除了单纯记忆的解释。
图6 跨预训练检查点的零样本真实机器人评估趋势。(a) 已见与未见任务的平均任务进展呈总体上升趋势,未见任务在40万步检查点达到53.6%。(b) 按任务类别划分的能力演进曲线,显示语义理解任务成为最强的零样本维度,而需要精确控制的类别仍有提升空间。(来源:Wall-OSS-0.5技术报告 Figure 6)
按能力维度分析,语义理解任务表现最强(40万步平均72.6%),这与训练设计一致:动作令牌交叉熵使动作路径暴露于VLM语义先验,因此以语义 grounding 决策为主的任务能够受益于骨干的最强能力。相比之下,需要精确低层控制的细粒度插入与可变形折叠任务在零样本阶段仍面临瓶颈,这恰好定义了微调需要弥合的能力差距。
4.2 微调后的性能跃升
在15项真实机器人任务(10项操作+5项推理)上,Wall-OSS-0.5经过微调后平均任务进展达60.5%,较π0.5提升17.5个百分点,较DreamZero提升27.1个百分点。在操作子集上优势尤为明显(61.1% vs. 35.0%),在推理子集上亦以59.3%略微领先π0.5的58.9%。
多任务微调实验进一步揭示了预训练先验的价值:当微调任务集从5项扩展至10项再到19项时,共享的5项简单任务平均进展从73.96%单调提升至83.75%(+9.8%);共享的10项任务从59.98%提升至64.78%(+4.8%)。值得注意的是,即使新增的9项任务在背景环境与具身分布上与原有任务显著不同,共享子集的性能仍持续提升。这表明在当前模型容量与训练配置下,任务扩展不仅促进新任务适配,也通过覆盖更丰富的原子动作模式与语言-状态组合空间,提升了原有任务的泛化性与鲁棒性。
图7 真实机器人任务上的多任务微调扩展结果。比较在渐进增大的任务集(5、10、19项)上微调的模型,报告共享子集与新增分布外任务的平均进展。扩展微调集改善了共享任务性能而非稀释之。(来源:Wall-OSS-0.5技术报告 Figure 7)
4.3 多模态能力:具身理解的 specialization
为评估协同训练对多模态理解的影响,研究团队在5个代表性基准上进行了测试,涵盖通用视觉问答(RealWorld VQA、ERQA)与直接关联机器人执行的具身理解(EO-Bench场景理解、Embodied Grounding目标定位、Where2Place放置推理)。
结果显示了清晰的 specialization 效应:通用开放域VQA有所回落(RealWorld VQA -15.0%,ERQA -5.5%),而机器人操作导向的目标定位(Embodied Grounding)取得最显著的提升(+21.8%),放置推理(Where2Place)与具身场景理解(EO-Bench)分别提升11.0%与3.9%。这些改进恰好对应机器人执行流程中的核心感知需求——"看向何处、指向何处、放置何处"。对于以动作执行为首要目标的VLA模型而言,这一取舍是合理的:模型放弃部分开放域VQA性能,换取对具身空间决策信号的增强。
图8 相对于VLM骨干,协同训练带来的多模态能力变化。机器人操作导向的目标定位取得最显著提升(+21.8%),而通用开放域VQA出现合理回落,体现了模型向具身感知信号的 specialization。(来源:Wall-OSS-0.5技术报告 Figure 8)
图9 具身场景中的多模态理解可视化对比。在机器人 ego-centric 视角下,Wall-OSS-0.5(绿色)较基线Qwen2.5-VL-3B(红色)更准确地定位操作目标并选择可行动作区域。(来源:Wall-OSS-0.5技术报告 Figure 9)
五、消融实验:验证设计选择的必要性
为验证梯度桥接协同训练框架中各组件的必要性,研究团队开展了系统的消融实验。
5.1 协同训练策略对比
在5项真实机器人消融任务上,四种训练策略的对比表明:完整的协同训练(Co-train)平均任务进展达57.0%,显著优于仅流匹配(Flow-only,36.6%)、阻断梯度(Stop-gradient,31.9%)以及先阻断后恢复的两阶段策略(49.6%)。这一结果支持了梯度桥接的核心主张:移除三种信号中的任何一种(纯连续、无桥接骨干、或两阶段替代)均会 degrade 真实机器人性能7.4至25.1个百分点。
阻断梯度策略虽然在VQA分数上略微领先,但其动作任务得分在所有策略中最低,且训练期间流损失收敛更慢、最终损失更高,表明Action Expert存在欠拟合。相比之下,协同训练的流损失收敛更快、最终值更低。这一优势在微调阶段依然保持:在单任务与5任务微调配置中,协同训练均显著优于纯流匹配。
图10 训练策略对比。(a) 在5项真实机器人消融任务上,协同训练在7万步从头训练中取得最佳性能。(b) 在微调阶段,协同训练的优势依然保持。(来源:Wall-OSS-0.5技术报告 Figure 10)
5.2 动作空间监督的有效性
在LIBERO仿真环境中的对比实验显示,动作空间损失变体在2.5万步达到96.5%的峰值平均成功率,较速度空间损失峰值高出6.2%。在收敛速度方面,动作空间损失在仅2万步即达到95.8%,而速度空间损失在完整3.5万步训练后仍未超过90.3%。此外,速度空间损失在2万步出现显著性能波动,而动作空间损失在2万步后稳定维持在92.5%-96.5%区间。这些结果与动作空间监督的设计原理一致:由于等价于对高噪声步骤进行加权,该损失在模型通过高噪声监督掌握低频轨迹结构后,性能迅速提升。
图11 LIBERO仿真环境中动作空间损失与速度空间损失的对比。动作空间损失(紫色)在峰值性能与收敛速度上均优于速度空间损失(蓝色)。(来源:Wall-OSS-0.5技术报告 Figure 11)
5.3 RVQ分词器相较FAST的提升
在相同协同训练设置下,以FAST分词器替换为视觉对齐RVQ分词器后,4项真实机器人任务的平均进展从29.3%提升至48.1%(+18.9%),同时VQA准确率从75.7%提升至77.5%(+1.8%)。值得注意的是,真实机器人评估使用的是流匹配路径生成的连续动作,而非直接解码离散令牌,因此分词器的增益并不局限于离散路径:更高质量的离散表示在协同训练期间同样提升了连续动作生成的质量。
图12 在相同协同训练设置下,视觉对齐RVQ动作分词器与FAST分词器的对比。RVQ在动作任务(右)与VQA理解(左)上均取得提升。(来源:Wall-OSS-0.5技术报告 Figure 12)
六、推理优化:支撑15Hz实时控制
实时控制是VLA模型部署于物理机器人的功能性前提。与离线视觉-语言任务不同,操作策略与环境构成闭环,每增加一毫秒推理延迟都会转化为执行延迟、动态目标跟踪退化以及最终任务成功率的下降。Wall-OSS-0.5的推理优化沿两个互补轴线展开。
去噪步骤属于内存受限型负载:GPU内核执行时间短于CPU启动延迟,导致CPU调度成为瓶颈。由于每步计算图是静态的,团队将整个去噪步骤捕获为单一CUDA Graph,从而将CPU调度移出关键路径。此外,除GEMM与注意力外,剩余算子(RoPE、RMSNorm等)单独执行时虽开销不大,但 collectively 产生大量HBM流量。团队将这些算子融合为单体自定义CUDA内核,在寄存器中执行端到端计算,消除了中间物化。
在单张RTX 5090上的评估表明,对于三视角224×224与448×448输入,优化后的实现分别达到约21Hz与15Hz(标准去噪步数T=10),相比PyTorch Eager基线实现取得4倍端到端加速。在448×448高分辨率下,基线受限于ViT的二次方成本与膨胀的KV缓存,优化收益尤为显著。
七、总结与展望
Wall-OSS-0.5将VLA预训练从一种初始化策略重新定位为可直接测试且已具备实用价值的机器人能力来源。其核心经验在于:离散动作令牌即使在部署最终依赖连续动作的情况下,仍在预训练阶段发挥不可替代的作用——动作令牌交叉熵提供了强大的VLM原生监督通道,直接将骨干塑造为可控表示。相比之下,纯连续训练仅使骨干暴露于相对较弱的残余流匹配信号,而阻断梯度公式则将表示学习与连续控制优化解耦,阻碍了两者的相互强化。
这一视角同时统一了MoT路由与具身桥接数据两项设计:前者为连续动作计算分配专用参数容量,同时保持流向VLM骨干的梯度;后者使多模态锚点更具动作感知性,帮助模型在更接近物理执行的环境中保持 grounding 理解。两者共同服务于同一目标:将预训练多模态模型转化为可执行机器人策略,而不使其坍缩为狭窄的任务特定表示。
面向未来,研究团队计划将框架扩展至更大规模的VLM骨干,引入时序观测与层级规划以支持长程任务,并探索能够支持多样化机器人形态的更通用动作表示。作为开源项目,团队将持续发布模型权重、训练代码与评估工具,以促进具身智能基础模型的研究与应用。
模型与资源
Wall-OSS-0.5由X Square Robot团队开发并开源,基于Qwen2.5-VL-3B-Instruct构建,总参数量40亿,支持20余种具身形态,预训练数据每轮周期超百万条轨迹。模型权重、训练代码与评估工具已随技术报告同步发布。