斯坦福丨AirVLA:将地面机械臂模型迁移至无人机实现空中抓取,成功率从23%提升至50%

0 阅读7分钟

导读

通用机器人基础模型(VLA)在桌面操作任务上已展现出强大能力,但能否直接迁移到空中操作场景?Stanford与Physical Intelligence团队用460次真实飞行实验给出了答案:视觉表征可以迁移,但飞行动力学不行——四旋翼在抓取载荷后的质心突变会导致策略直接失效。

为此,他们提出AirVLA框架,通过两项关键设计解决这一问题:一是载荷感知引导(Payload-Aware Guidance),在推理时将物理约束注入flow-matching采样过程;二是基于3D高斯泼溅(3D Gaussian Splatting)的数据合成管线,从少量真实示教生成多样化训练样本。基于π₀模型微调后,AirVLA在抓取任务中将放置成功率从23.5%提升至50.0%,导航任务Gate通过率从80.0%提升至95.0%,组合任务(先穿门再抓取)达到62.5%的端到端放置成功率。


论文信息

  • 标题:π, But Make It Fly: Physics-Guided Transfer of VLA Models to Aerial Manipulation
  • 作者: Johnathan Tucker, Denis Liu, Aiden Swann, Javier Yu, Jiankai Sun, Brandon Kim, Lachlain McGranahan, Mac Schwager, Allen Ren, Quan Vuong
  • 机构: Stanford University, Physical Intelligence
  • 项目页: airvla.github.io/

一、桌面操作模型能直接飞吗?空中操作面临的独特挑战

VLA(Vision-Language-Action)模型在地面机器人操作中已取得显著进展,π₀作为其中的代表,在10,000+小时、7种机器人、68个任务上进行了预训练。然而,将这类模型迁移到空中操作场景时,面临三个地面任务不存在的问题:

  1. 动力学突变:四旋翼在抓取物体后,载荷引起质心和惯性参数突变,飞行动力学发生本质变化。地面机械臂在抓取物体后的动力学变化远没有这么剧烈。
  2. 安全裕度极低:空中机器人没有地面机器人的"自然停止"机制,一次失误可能导致坠毁,对策略的鲁棒性要求更高。
  3. 数据采集成本高:每次失败都可能损坏硬件,使得大规模收集空中操作示教数据的成本远高于桌面任务。

本文的硬件平台为ModalAI Starling 2 Max四旋翼无人机,搭载定制的UMI风格夹爪和3个RGB摄像头(5Hz采集频率),定位依赖motion capture系统。

实验结果直接验证了这一判断:直接在π₀上微调(π₀ naive),抓取放置成功率仅0.0%,导航通过门成功率50.0%。而从零训练的ACTDiffusion Policy在所有任务上成功率分别为0.0%和不超过15.0%,说明仅凭少量空中数据从头学习几乎不可行。

图片

图片来源于原论文


二、AirVLA的两大核心设计:物理引导与数据合成

AirVLA的整体策略是:利用π₀强大的视觉理解和操作先验,但在动力学层面施加物理约束来弥补跨具身迁移的差距。

基础模型与微调

π₀是一个3.3B参数的VLA模型,由PaliGemma 3B VLM(负责视觉-语言理解)和300M Action Expert(负责动作生成)组成,采用flow matching生成动作序列。AirVLA对其进行微调时使用120-150个真实示教(约10小时采集),配合50个合成样本,训练30,000个梯度步,优化器为AdamW,学习率调度采用cosine schedule。

微调阶段在真实+合成数据上对π₀进行fine-tuning。推理阶段则使用Real-Time Chunking(RTC) ——一种异步动作执行机制:冻结当前chunk中即将执行的前缀动作,基于冻结前缀对剩余后缀进行inpainting,避免chunk边界处的动作不连续性。在此基础上再加入物理引导。

创新一:载荷感知引导(Payload-Aware Guidance)

这是AirVLA解决动力学突变问题的核心机制。其思路并非在训练阶段让模型"学会"载荷补偿,而是在推理时直接将物理约束注入flow-matching的去噪采样过程。

具体做法是:在每步去噪迭代中,根据当前是否携带载荷,计算一个基于物理模型的引导梯度,将采样轨迹引导向满足载荷约束的区域。这种方式的优势在于不需要重新训练模型,且可以灵活适配不同重量的载荷。

创新二:3D高斯泼溅数据合成管线

为解决空中数据采集的高成本问题,AirVLA利用3D Gaussian Splatting(3DGS) 技术,从少量种子示教中重建场景的3D表示,然后通过变换视角合成新的训练样本。这条管线特别适合导航类任务——门的位置、接近角度等几何变化可以通过3DGS自然生成。

图片

图片来源于原论文


三、实验结果:从单任务到组合任务的全面验证

实验设计了三类任务,每个条件下进行20次试验:

  • Penguin Grasp:拾取企鹅玩偶并放入蓝色箱子
  • Gate Navigation:穿过门框并悬停
  • Compositional:先穿门再抓取(组合任务)

单任务结果

方法Grasp PickGrasp PlaceNav Gate (无合成)Nav Hover (无合成)Nav Gate (有合成)Nav Hover (有合成)
π₀ naive50.0%0.0%50.0%60.0%45.0%100.0%
π₀+RTC85.0%23.5%80.0%81.2%95.0%100.0%
π₀+RTC+payload guidance100.0%50.0%----
ACT0.0%0.0%0.0%0.0%0.0%0.0%
Diffusion Policy10.0%0.0%15.0%0.0%0.0%0.0%

几个关键对比:

  • RTC的价值:π₀ naive → π₀+RTC,Pick从50.0%提升至85.0%(+35.0%),Place从0.0%提升至23.5%,Nav Gate从50.0%提升至80.0%(+30.0%)。这说明π₀的视觉表征确实可迁移,但需要在目标域上微调并配合RTC的异步执行机制。
  • Payload Guidance的价值:π₀+RTC → π₀+RTC+payload guidance,Pick从85.0%提升至100.0%(+15.0%),Place从23.5%提升至50.0%(+26.5%)。载荷感知引导在抓取任务中效果显著,特别是Place阶段(携带物体飞行时动力学影响最大)。
  • 合成数据的价值:导航任务中,无合成数据的Gate通过率为80.0%,加入合成数据后提升至95.0%(+15.0%);合成数据对导航任务有明确的增益作用。
  • 基线对比:ACT在所有单任务上均为0.0%,Diffusion Policy最高仅15.0%。这两个方法是从零训练的,没有预训练视觉表征,说明120-150个示教对于从头学习空中操作来说远远不够。

组合任务结果

在最完整的配置下(Synthetic + π₀+RTC+payload guidance),组合任务的各阶段成功率为:

阶段成功率
Gate85.0%
Hover100.0%
Pick94.1%
Place62.5%

组合任务的端到端Place成功率达到62.5%,考虑到这是四旋翼先穿门再抓取放置的多步骤长序列任务,且仅用约150个真实示教,这一结果验证了VLA基础模型跨具身迁移的可行性。


四、消融实验:物体与位置的泛化边界在哪里?

论文通过OOD(Out-of-Distribution)实验探索了AirVLA的泛化边界:

物体泛化

物体Pick成功率Place成功率
Sandwich70.0%57.1%
Box30.0%33.3%
Chips10.0%0.0%

训练时仅使用企鹅玩偶,测试时替换为三明治、盒子和薯片袋。三明治的泛化效果相对较好(Pick 70.0%),但薯片袋几乎完全失败(Pick 10.0%,Place 0.0%)。这说明π₀的视觉表征对形状相近的物体有一定泛化能力,但对形状差异较大的柔性物体(如薯片袋)泛化有限。

门位置泛化

门位置Gate成功率Hover成功率
Right40.0%100.0%
Front0.0%-
Left0.0%-

训练数据中门的位置相对固定,测试时将门移至右侧、正前方和左侧。仅右侧位置有40.0%的Gate通过率,Front和Left均为0.0%。这是一个明显的局限——导航策略对空间布局变化的泛化能力不足,合成数据管线目前也未覆盖这类大范围位置变化。


五、总结与思考:VLA跨具身迁移的第一步

AirVLA的核心贡献是验证了一个重要假设:通用VLA模型的视觉表征具有跨具身迁移能力,但动力学层面的差异需要在推理时通过物理引导来弥补。这一"视觉可迁移、动力学需引导"的范式,为将大规模预训练机器人模型拓展到新具身形态提供了一条实用路径。

  • "训练时学表征、推理时加约束"的分离式设计具有通用性,可扩展到其他存在动力学突变的场景(如水下机器人抓取、双臂协作搬运等),无需为每种动力学变化重新收集训练数据。
  • 3DGS合成管线为空中数据采集提供了低成本替代方案,仅50个合成样本即可将导航成功率从80%提升至95%,大幅降低了空中操作任务的数据门槛。