AerialVLA:用VLA模型实现无人机端到端视觉-语言导航

0 阅读6分钟

导读

无人机视觉-语言导航(Vision-Language Navigation, VLN)的目标是让无人机根据自然语言指令自主飞往目标。但现有方法普遍依赖两根"拐杖":一是需要oracle在每一步提供方向引导,二是需要外部目标检测器(如Grounding DINO)来触发着陆判断。这两个依赖在真实部署中都难以满足。

UESTC万少华团队提出的AerialVLA,基于OpenVLA-7B骨干,仅用前视+下视两个摄像头的极简输入,将连续3-DoF飞行动作离散为数字token,用IMU估计的模糊方向提示替代oracle引导,实现了端到端的导航与着陆控制。在最具挑战性的Unseen Map测试中,AerialVLA的SR达到37.58%,较此前最优方法LongFly的11.27%提升了约3倍;同时推理延迟仅0.38s,显存占用17 GB,均低于TravelUAV。


论文信息

  • 标题: AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control
  • 作者: Peng Xu, Zhengnan Deng, Jiayan Deng, Zonghua Gu, Shaohua Wan
  • 机构: 电子科技大学深圳高等研究院、霍夫斯特拉大学

一、现有无人机导航方法的"双拐杖"问题

无人机视觉-语言导航要求智能体在三维城市环境中,根据自然语言指令自主飞行到目标位置并着陆。与室内VLN相比,无人机面临更大的搜索空间、更复杂的视角变化和缺少明确路径标记等挑战。

现有方法存在两个关键依赖:

  1. Oracle逐步引导:每个时间步都从环境获取最优方向指示,相当于在考试中每道题都有人提示正确答案。这在真实部署中不可能获得。
  2. 外部目标检测器:使用如Grounding DINO等预训练检测模型来判断目标是否出现在视野中,以此触发着陆。这引入了额外的计算开销和故障点。

AerialVLA的设计目标是同时移除这两个依赖,用一个统一的VLA模型完成从感知到动作的端到端映射。


二、AerialVLA的三个核心设计

AerialVLA以OpenVLA-7B为骨干模型,该模型包含SigLIP+DINOv2双视觉编码器和Llama 2 7B语言模型。在此基础上,论文提出三个关键设计:

图片

图片来源于原论文

2.1 极简双视图感知

不同于以往方法使用4-5个方向的全景视图,AerialVLA仅使用前视(front-view)和下视(bottom-view)两个摄像头。两张图片垂直拼接为224×224的输入,恰好与ViT的patch网格对齐,无需额外的视图融合模块。

这一设计的逻辑是:前视图提供导航方向信息,下视图提供着陆判断信息,两者已覆盖无人机飞行的核心感知需求。

2.2 模糊方向提示替代Oracle

AerialVLA使用机载IMU(惯性测量单元) 估计的航向角,将方向量化为8个语义桶(如"straight ahead""forward-right""right"等),以自然语言形式输入模型。这种模糊方向提示(fuzzy directional hint) 不需要知道目标的精确位置,仅提供粗略方向参考,可在实际部署中通过GPS航点差分或指南针获取。

2.3 数值标记化(Numerical Tokenization)

无人机飞行的连续3-DoF动作包括:

  • Δx∈ [0, 5] m(前进距离)
  • Δz∈ [-5, 5] m(升降距离)
  • Δψ∈ [-π, π](偏航角变化)

AerialVLA将每个连续值均匀离散为N=99个bins,映射到LLM词汇表中已有的数字token(如"0""1"..."98")。相比自定义特殊token,数字token在预训练阶段已有充分的语义表征,避免了冷启动问题。

2.4 统一着陆与几何一致性过滤

着陆判断不需要外部检测器:模型可以输出LAND token或生成接近零位移的动作来实现内在停止。

此外,论文提出几何一致性过滤:在训练数据中,约4%的帧存在监督矛盾(目标在大角度方向上,但偏航率接近零且侧方空间畅通),这些帧被移除以提高训练信号质量。


三、实验结果:Unseen Map上SR提升约3倍

训练配置

AerialVLA在420,000帧(来自7,922条专家轨迹)上训练。采用LoRA微调:r=64, α=128, dropout=0.05,可训练参数占比约2.98%。视觉编码器冻结,视觉投影器全量微调。训练在4×RTX 4090上完成,耗时约35小时,共5个epoch。

主要结果

论文与6个基线方法进行对比:Random、Fixed、CMA、TravelUAV-DA、NavFoM、LongFly。以下为关键结果:

Test Seen(已见环境):

方法SR↑SPL↑
LongFly36.3931.07
AerialVLA47.9638.54
差值+11.57+7.47

Unseen Object(未见目标):

方法SR↑SPL↑
LongFly43.8738.39
AerialVLA56.6046.61
差值+12.73+8.22

Unseen Map(未见地图,最具挑战性的泛化测试):

方法SR↑SPL↑
LongFly11.279.32
AerialVLA37.5828.22
差值+26.31(约3倍)+18.90(约3倍)

Unseen Map的结果是最值得关注的:当环境完全未见过时,LongFly的SR骤降至11.27%,而AerialVLA仍保持37.58%,提升幅度达26.31个百分点。这说明端到端VLA模型在泛化能力上具有明显优势。

作为参考,人类操作者在Seen场景中的SR为94.51%,SPL为77.84%。

计算效率

指标AerialVLATravelUAV
VRAM17 GB20 GB
总延迟0.38s0.63s

AerialVLA的显存占用比TravelUAV低3 GB,推理延迟降低约40%。


四、消融实验:极简设计为何优于复杂输入

论文对关键设计进行了消融分析:

变体Seen SRUnseen Map SR
自定义token(非数字)39.8426.51
5视图输入41.5421.71
无几何过滤40.9032.15
AerialVLA完整版47.9637.58

三个关键发现:

1. 5视图输入反而严重损害泛化

将输入从2视图扩展到5视图后,Seen SR仅从47.96%降至41.54%(-6.42),但Unseen Map SR从37.58%骤降至21.71%(-15.87)。冗余的视觉输入导致模型在训练环境中过拟合,泛化能力大幅下降。这验证了极简双视图设计的合理性。

2. 数字token避免冷启动

使用自定义token替代数字token后,Seen SR降至39.84%(-8.12),Unseen Map SR降至26.51%(-11.07)。自定义token在LLM词汇表中没有预训练权重,需要从零学习语义表征,这就是冷启动问题。

3. 几何一致性过滤有效但非决定性

移除过滤后,Unseen Map SR从37.58%降至32.15%(-5.43),仍然是LongFly的11.27%的约3倍。这说明架构设计本身已经具备较强的鲁棒性,几何过滤在此基础上提供了额外的提升。

图片

图片来源于原论文


五、总结与思考

AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径:通过极简视觉输入、模糊方向提示和数值标记化三个设计,移除了对oracle引导和外部检测器的依赖,在Unseen Map泛化场景中相比此前最优方法实现了约3倍的SR提升。

  • 极简输入的启示:5视图反而不如2视图,在训练数据有限(420,000帧)时更多视角带来的信息增量不足以抵消过拟合风险,对其他VLA任务的视觉输入设计有参考价值。
  • 数值标记化的通用性:将连续控制量映射为LLM已有数字token的策略不依赖特定任务,可迁移到地面机器人、机械臂等其他连续控制场景。