VLA视觉-语言-动作模型数据:机器人数据基础设施的全景解析

0 阅读22分钟

从数据集、基准测试到数据引擎的系统梳理

基于 Wang et al., "Vision-Language-Action in Robotics: A Survey of Datasets, Benchmarks, and Data Engines", arXiv:2604.23001

核心观点

视觉-语言-动作(VLA)模型在机器人领域取得了显著进展,但一个核心瓶颈尚未得到充分审视:支撑具身学习的数据基础设施。本文基于最新综述研究,系统梳理了VLA研究中的三大支柱——数据集、基准测试和数据引擎,揭示当前领域面临的 fidelity-cost 权衡困境,并探讨未来突破方向。研究表明,VLA的下一步进展将更少依赖于模型架构创新,而更多依赖于高质量数据引擎与结构化评估协议的协同设计。

一、引言:VLA模型的兴起与数据瓶颈

近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型已成为机器人学习领域最受关注的研究范式之一。这类模型将大规模预训练的视觉-语言理解能力与机器人动作执行相结合,使机器人能够根据自然语言指令完成复杂的物理操作任务。从RT-1、RT-2到OpenVLA、GraspVLA,一系列代表性工作展示了VLA模型在抓取、放置、装配等任务中的强大潜力。

然而,在这些令人瞩目的模型架构创新背后,一个更为基础性的问题正日益凸显:数据。与计算机视觉或自然语言处理领域不同,机器人学习的数据采集面临独特的物理约束——每一次数据收集都需要真实的机器人硬件、物理环境以及人类操作员的参与。这种高成本、低扩展性的数据获取方式,从根本上限制了VLA模型向更广泛任务和场景泛化的能力。

VLA模型架构示意图

图1:VLA模型的典型架构。视觉编码器、语言编码器与动作解码器协同工作,将多模态输入映射为机器人可执行的动作序列。(图片来源:相关技术文献)

正如Wang等人在其最新综述中所指出的,未来VLA领域的突破将"更少依赖于模型架构,而更多依赖于高质量数据引擎与结构化评估协议的协同设计"。这一判断将研究者的目光从"如何设计更好的模型"转向"如何构建更好的数据基础设施"——包括如何采集、生成、评估和扩展机器人学习所需的多模态数据。

本文将围绕数据集、基准测试和数据引擎三大核心维度,系统梳理当前VLA数据基础设施的全貌,分析各类资源的技术特点与适用场景,并探讨领域面临的开放挑战与未来方向。

二、VLA数据集全景:真实世界与合成数据的博弈

数据集是VLA模型训练的基石。根据数据收集方式的不同,现有VLA数据集可分为两大类:真实世界数据集(Real-World Datasets)和合成数据集(Synthetic Datasets)。两类数据集在保真度(fidelity)和成本(cost)之间存在根本性的权衡,这一权衡深刻影响着VLA模型的训练策略与泛化能力。

2.1 真实世界数据集:高保真与高昂成本

真实世界数据集通过物理机器人的实际操作采集获得,包含高保真的交互数据,能够反映真实的接触动力学和摩擦特性。这些数据集提供真实的图像、机器人状态与动作信号,其物理 grounded 特性是仿真环境难以精确复现的。

在跨平台预训练方面,Open X-Embodiment是最具代表性的聚合数据集。该数据集汇集了来自22种不同机器人平台的操作数据,其大规模和跨平台覆盖范围使其特别适合预训练,能够帮助模型学习可迁移的视觉 grounding 和动作能力。然而,不同平台间动作接口和控制频率的异质性也带来了对齐挑战。

相比之下,单平台数据集如RT-1、DROID和BridgeData V2更注重数据的一致性和卫生性。RT-1由Everyday Robots平台采集,采用 fleet-scale 遥操作方式收集;DROID使用Franka Panda机器人,通过"野外"(in-the-wild)采集策略增强了视觉和环境变化的多样性;BridgeData V2则以低成本标准化配置为特点,采用WidowX 250机器人平台。这些数据集在特定平台部署时表现更为稳定,但 embodiment 范围和任务多样性相对有限。

image.png

在任务多样性和模态设计方面,不同数据集各有侧重。DROID通过增加背景和光照变化来提升感知鲁棒性;RH20T进一步引入触觉/力和音频信号,对接触密集型操作尤为有益;Ego4D等大型人体视频语料库则为机器人学习提供了补充性的语义先验。

2.2 合成数据集:可扩展性与保真度困境

鉴于真实世界数据集的高成本和有限扩展性,研究者转向仿真环境生成合成数据。仿真环境允许显式指定场景和任务,并提供内置工具用于采样抓取姿态、求解逆运动学以及自动判定任务成败。因此,合成数据集可以通过增加每条任务的轨迹数量或变化场景配置来高效扩展。

然而,合成数据的保真度受限于渲染质量和物理仿真的真实度。视觉伪影、简化的接触动力学和不准确的物理建模可能导致与真实世界行为的偏差。因此,尽管合成数据在可扩展性和成本效益方面显著优于真实数据,其真实度往往较低。

GraspVLA工作引入了大规模合成抓取数据集SynGrasp-1B,通过在物体外观、场景参数和视角方面进行广泛变化,鼓励学习鲁棒的几何特征。RoboCasa则通过提供多样化的厨房环境、资产库和结构化任务套件,扩展了家庭操作任务的合成数据规模。RoboGen采用大语言模型(LLM)自动生成任务和仿真代码,进一步提升了任务多样性;MimicGen通过对少量人类种子演示进行物体姿态和初始条件扰动,实现了演示数据的规模化扩展。

机器人基准测试场景

图2:多embodiment机器人基准测试场景示例,展示了不同机器人平台在多样化环境中的操作任务。(图片来源:RoboMIND基准测试)

在实际应用中,合成数据通常用于大规模预训练或数据增强,而真实世界数据则用于最终校准和部署。这种"合成预训练+真实微调"的策略已成为当前VLA训练的主流范式。

三、VLA基准测试:如何科学评估机器人智能

基准测试是评估VLA模型性能和泛化能力的标准化工具。与训练数据集相比,基准测试规模通常较小,但构建了具有代表性的任务和明确的评估指标,以实现标准化比较。由于真实机器人评估成本高昂且操作复杂,大多数基准测试在仿真环境中实现。

为系统刻画现有VLA基准测试,研究者提出了两个分析维度:任务复杂度(Task Complexity)和环境结构(Environment Structure)。任务复杂度反映操作目标的组合性和时间难度,环境结构则捕捉场景多样性和空间变化性。这两个因素在许多基准测试中同时变化,将多种难度来源纠缠在单一评估设置中,使得失败归因变得困难。

3.1 桌面环境基准:从简单操作到组合推理

桌面环境基准在受约束的桌面任务下评估VLA模型,是最常见且易于复现的评估场景。现有桌面基准可分为简单短程任务和复杂长程组合任务两类。

简单桌面基准关注在短动作范围内执行的原子操作任务。Meta-World包含50个简单操作任务,通常依赖低维状态观测,显著简化了视觉感知和场景理解。LIBERO遵循类似的短程设计,大多数任务对应可在有限步骤内完成的原子技能。SimplerEnv则评估短程桌面操作策略,刻意维持仅足够真实以保留 sim-to-real 排序一致性的环境。

复杂桌面基准在受约束的桌面环境中构建长程组合任务。CALVIN通过要求智能体在多个桌面环境中执行扩展的无约束语言指令序列来评估长程操作,最具挑战性的协议要求对未见环境的零样本泛化。GemBench系统评估层次化泛化能力,包括新颖物体放置、未见实例和组合长程任务。COLOSSEUM则通过在14个轴上引入系统性的视觉和物理扰动来评估鲁棒性,展示了当多个扰动因素同时应用时的显著性能下降。

3.2 多场景基准:迈向真实世界复杂度

多场景基准旨在评估具身智能体在更复杂的任务和环境条件下的表现。与桌面设置相比,这些基准强调跨多样化场景的交互、长程执行和组合推理。

BEHAVIOR-1K评估日常生活中持续较长时间的人类活动,需要协调多种操作技能,任务以基于谓词的语言指定,显式编码多阶段目标。该基准涵盖全屋和多房间环境,支持涉及刚体、可变形材料和流体的真实物理交互。VLABench则通过构建复合语言条件任务进一步增加任务复杂度,整合多种技能与长程多步推理,并通过多样化的场景类型、物体类别和随机配置引入大量环境多样性。Open X-Embodiment采用互补的规模驱动视角,聚合来自异构真实世界机器人和环境的数据,强调行为广度和跨embodiment迁移。

VLA研究现状

图3:VLA研究现状概览,展示了从数据集构建、模型训练到评估部署的完整技术栈。(图片来源:ICLR 2026 VLA研究综述)

这些多场景基准的共同特点是:难度来源于任务范围和环境可变性的联合扩展,对组合推理、鲁棒性和跨场景泛化能力提出了严峻挑战。

四、VLA数据引擎:从静态采集到动态生成

如果说数据集是静态的数据资源库,那么数据引擎则是能够持续生成、转换或增强训练数据的动态系统。数据引擎的核心目标是通过算法手段大规模生成高质量数据,以突破真实世界数据采集的可扩展性限制,同时保持足够的任务结构和embodiment对齐。

根据自动化程度和物理 grounded 程度的不同,现有VLA数据引擎可分为三大类:视频到数据引擎(Video-to-Data Engines)、硬件辅助引擎(Hardware-Assisted Engines)和生成式数据引擎(Generative Data Engines)。

4.1 视频到数据引擎:挖掘网络视频的价值

视频到数据引擎将人类演示视频转换为机器人可执行的训练数据,通过利用网络规模的视频资源来缓解VLA的数据稀缺问题。其核心挑战在于弥合视觉embodiment差距:人类的手和身体与机器人操作器在外观和运动学上存在根本差异,阻碍了直接策略迁移。

H2R:手部到机器人的视觉重定向

H2R检测视频中的3D手部姿态,将运动重定向到机器人运动学,并通过分割和修复技术将机器人手臂合成到视频中。实验表明,该方法在仿真中将操作成功率提升了1.3–10.2个百分点,在真实机器人上提升了3–23个百分点。

RoboWheel:物理感知的跨平台重定向

RoboWheel通过SDF惩罚和残差强化学习扩展了视频重定向方法,确保接触时机和抓取语义得以保留,同时支持向6/7自由度手臂、灵巧手或人形机器人的跨embodiment重定向。

Video2Policy:从视频到可执行策略

Video2Policy提取物体网格和6D姿态,使用GPT-4o生成可执行的任务代码,并通过迭代优化实现88%的仿真成功率,为VLA策略提供了清晰的任务结构和自动化的语言标注。

对于全身人形机器人,X-Humanoid微调视频扩散模型以"机器人化"整个人体,将60多小时的Ego-Exo4D数据转换为人形机器人演示。GenMimic则直接从视频生成模型的输出中学习,通过加权关键点跟踪和对称正则化将合成人体运动提升到4D空间,实现了对物理机器人的零样本迁移。

UniSim代表了最通用的方法,它从网络图像/视频和机器人数据中学习条件视频扩散模型,实现长程交互的自回归仿真。UniSim允许VLA策略在闭环中训练,性能比短演示基线提升3–4倍,并实现了零样本真实机器人迁移。

4.2 硬件辅助引擎:精准采集与成本平衡

硬件辅助引擎通过硬件中的动作传感器控制机器人动作来采集VLA数据,实现实时动作捕获而无需复杂的三维重建。其核心挑战在于平衡成本效益、人体工学设计和信号采集的充分性。

ALOHA通过运动学同构实现了精细的双手操作,硬件成本低于2万美元,结合ACT的动作分块技术可达到80-90%的成功率。GELLO进一步将成本降至300美元以下,通过3D打印外骨骼和被动关节正则化,将可靠性提升了近30%。然而,实验室环境限制了场景多样性。

便携式接口在精度和可扩展性之间进行权衡。UMI使用配备GoPro的夹爪和SLAM跟踪,在12人时内跨30个真实世界地点采集演示,速度是标准遥操作的3倍,同时实现71.7%的零样本成功率。DexCap则通过EMF手套和胸挂RGB-D相机针对灵巧操作,在多指任务上通过IK重定向和点云策略实现72%的成功率。

VLA模型详细架构

图4:VLA模型的详细架构示例,展示了视觉编码器、语言模型与动作解码器的深度融合机制。(图片来源:相关技术文献)

XR增强仿真将硬件辅助与合成生成相结合。Lucid-XR直接在VR头显上以低于12毫秒延迟运行物理仿真,然后应用扩散模型将渲染观测转换为照片级真实图像,实现了5倍于真实遥操作的有效数据量,并对环境变化表现出更强的鲁棒性。

4.3 生成式数据引擎:自动化与多样性

生成式引擎通过可扩展的合成数据生成和视觉增强来创建多样化训练数据集,无需物理机器人部署。其核心挑战在于最小化人工干预、覆盖多样化任务和场景,以及保证可迁移性。

轨迹重用是最成熟的方法。MimicGen将演示分割为以物体为中心的子任务,然后对这些片段进行空间变换以适应新的物体配置,仅从200个人类种子生成5万条演示。DynaMimicGen进一步引入动态运动基元(DMP),实现对移动物体的实时自适应。DemoGen则完全消除了对真实机器人的需求,通过3D点云编辑生成动作和观测,从单条演示在八个真实世界任务上实现74.6%的平均成功率。

LLM驱动的数据生成实现了全新任务和环境的自动创建。GenSim和RoboGen查询LLM生成仿真任务代码、场景配置和奖励函数,从最少的人类提示中引导出多样化的任务库(100+任务)。RoboGen进一步集成多种学习算法(RL、运动规划、轨迹优化),在69个基准任务上实现77.4%的平均成功率。RoboTwin 2.0通过多模态LLM反馈循环增强这一流程:VLM观察者监控仿真执行,检测失败并提供修正,迭代优化任务代码。

ROSIE:语义修复增强真实数据

ROSIE应用文本到图像扩散进行语义修复,在机器人演示中替换物体和背景以创建未见任务(如将薯片袋替换为毛巾),将整体性能提升超过115个百分点。

RoboEngine:即插即用的数据增强工具包

RoboEngine将语义修复封装为即插即用工具包,配备机器人专用分割模型Robo-SAM和物理感知背景生成,实现类似改进而无需绿幕或相机标定等先决条件。

预测性世界模型通过预测环境对动作的响应来实现闭环训练。PointWorld将状态和动作表示为3D点流以实现几何精度,支持零样本MPC部署。IRASim通过轨迹到视频扩散实现帧级动作条件,与真实仿真达到0.99的相关性,并将Push-T任务的IoU从0.637提升至0.961。3D-VLA通过扩散模型生成多模态目标状态(RGB、深度、点云),展示了想象未来3D状态如何改善VLA动作规划。Genie则从20万小时的网络视频中探索无监督学习,通过VQ-VAE发现潜在动作,表明VLA系统可能从网络规模数据中自举世界模型。

五、挑战与未来方向

5.1 数据集层面的 fidelity-cost 权衡

现有VLA数据集的核心局限在于保真度与可扩展性之间的根本性权衡。高保真真实世界数据集提供准确的视觉观测和物理 grounded 轨迹,但采集成本高昂且难以跨任务和机器人扩展。聚合语料库如Open X-Embodiment增加了轨迹量和机器人多样性,但异构接口和动作参数化引入了对齐复杂性。单平台数据集如RT-1、DROID和BridgeData V2提供更大的接口一致性和受控采集,但其embodiment范围和任务多样性相对有限。

这一权衡在多模态和语义监督中进一步放大。接触密集型行为所需的力或触觉反馈在真实环境中采集成本高昂且依赖硬件,因此代表性不足。通过大型人体中心数据集或联合训练管道进行语义扩展能够以相对较低成本增加语言多样性,但将这些语义 grounded 到物理有效的闭环机器人控制中需要昂贵的真实世界交互数据。

5.2 基准测试层面的推理能力评估缺失

当前VLA基准测试日益揭示时间和组合推理方面的弱点,但很少有基准测试被显式设计为以结构化方式诊断这些能力。在长程任务中,性能下降往往反映的不仅是累积控制误差,还暴露了时间抽象、记忆保持和多步规划方面的局限。例如,在CALVIN中,五个顺序指令的成功率降至0.08%;VLABench报告了多步逻辑任务中的系统性失败。

然而,这些基准测试主要测量整体成功率,而未拆解失败是否源于规划缺陷、不稳定记忆、技能组合不足或恢复机制欠缺。因此,它们暴露了推理失败的症状,但提供的诊断结构有限。类似地,在泛化评估中,许多基准测试单独变化物体身份或场景布局等因素,而真实世界部署需要在感知、embodiment和语义方面的复合可变性下保持鲁棒性。

5.3 数据引擎层面的生成与 grounded 失衡

当前数据引擎的主要局限不在于生成能力,而在于 grounded 可靠性。基于视频的管道严重依赖感知保真度,grounding、姿态估计和深度重建中的失败会引入系统性噪声并传播到策略学习中。即使轨迹可以大规模合成,物理合理性也无法保证。编辑和插值方法需要可行性检查或假设结构化子任务,而硬件系统面临标定和embodiment约束。LLM驱动的引擎进一步暴露了物理理解和奖励规范方面的差距。

交互式世界模型提供了一种更统一的方法,但仍受限于有限的时间上下文、计算成本和 sim-to-real 差异。这些引擎的共同主题是扩展失衡:数据生成速度快于物理 grounded、验证和embodiment对齐。未来进展因此需要将物理约束、时间连贯重建和embodiment感知推理集成到生成管道中。

5.4 未来展望:高保真合成数据的系统构建

展望未来,可扩展的合成数据生成将在VLA发展中扮演越来越核心的角色。然而,主要障碍不再是数据规模,而是合成环境与真实世界部署设置之间的保真度差距。鉴于VLA系统对特定场景高度敏感,未来进展可能依赖于系统地弥合这一 sim-to-real 质量差距,而非仅仅扩展合成多样性。

一个充满前景的方向是在仿真环境中以高几何和物理保真度重建真实世界场景。未来的数据引擎可能致力于忠实数字化真实操作空间,并将其与物理准确的仿真器集成。在这种设置中,机器人规划算法可以自动生成大量任务一致的轨迹,同时保留真实世界约束。至关重要的是,评估基准也应建立在这些高保真数据引擎之上,以确保训练和测试与真实部署条件保持一致。

在短期内,将3D传感管道与机器人平台集成以构建准确的场景模型为实现这一愿景提供了实用路径。从长远来看,学习世界模型的进展可能使从有限观测中自动重建和仿真真实环境成为可能,在减少人工努力的同时保持物理合理性。通过下一代数据引擎将合成可扩展性与真实世界保真度相结合,可能成为迈向VLA模型通用智能的基础性步骤。

**核心结论:**VLA研究根本上由其支撑的数据和评估基础设施塑造。当前领域的中心挑战不仅是数据稀缺,更是缺乏统一抽象来桥接跨异构平台的感知、语言 grounded 和具身控制。未来进展将依赖于在共享结构原则下协同设计数据集、基准测试和生成引擎,实现可扩展且物理 grounded 的监督。

六、结语

本文基于最新综述研究,系统梳理了VLA数据基础设施的三大支柱:数据集、基准测试和数据引擎。在数据集方面,我们识别了embodiment多样性与接口一致性之间的持续张力,揭示仅扩展数据量并不能保证表示对齐或泛化。在基准测试方面,我们强调了当前评估协议的结构性局限,长程推理、组合泛化和复合可变性下的鲁棒性仍未得到充分拆解。在数据引擎方面,我们观察到生成能力正在快速进步,但物理 grounded、embodiment对齐和可靠性验证落后于可扩展性。

这些发现共同表明,VLA领域的中心挑战不仅是数据稀缺,更是缺乏统一抽象来桥接跨异构平台的感知、语言 grounded 和具身控制。未来进展将依赖于在共享结构原则下协同设计数据集、基准测试和生成引擎,实现可扩展且物理 grounded 的监督。随着LLM grounded 能力的提升和视频生成技术的进步,结合任务生成、轨迹合成、视觉增强和预测建模的混合管道很可能成为VLA预训练基础设施的标准配置,为通用能力提供所需的任务多样性,为鲁棒真实世界部署提供所需的数据规模。

金鑫博士个人主页: jinxindeep.github.io/