导读
无人机视觉-语言导航(Vision-Language Navigation, VLN)的目标是让无人机根据自然语言指令自主飞往目标。但现有方法普遍依赖两根"拐杖":一是需要oracle在每一步提供方向引导,二是需要外部目标检测器(如Grounding DINO)来触发着陆判断。这两个依赖在真实部署中都难以满足。
UESTC万少华团队提出的AerialVLA,基于OpenVLA-7B骨干,仅用前视+下视两个摄像头的极简输入,将连续3-DoF飞行动作离散为数字token,用IMU估计的模糊方向提示替代oracle引导,实现了端到端的导航与着陆控制。在最具挑战性的Unseen Map测试中,AerialVLA的SR达到37.58%,较此前最优方法LongFly的11.27%提升了约3倍;同时推理延迟仅0.38s,显存占用17 GB,均低于TravelUAV。
论文信息
- 标题: AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control
- 作者: Peng Xu, Zhengnan Deng, Jiayan Deng, Zonghua Gu, Shaohua Wan
- 机构: 电子科技大学深圳高等研究院、霍夫斯特拉大学
一、现有无人机导航方法的"双拐杖"问题
无人机视觉-语言导航要求智能体在三维城市环境中,根据自然语言指令自主飞行到目标位置并着陆。与室内VLN相比,无人机面临更大的搜索空间、更复杂的视角变化和缺少明确路径标记等挑战。
现有方法存在两个关键依赖:
- Oracle逐步引导:每个时间步都从环境获取最优方向指示,相当于在考试中每道题都有人提示正确答案。这在真实部署中不可能获得。
- 外部目标检测器:使用如Grounding DINO等预训练检测模型来判断目标是否出现在视野中,以此触发着陆。这引入了额外的计算开销和故障点。
AerialVLA的设计目标是同时移除这两个依赖,用一个统一的VLA模型完成从感知到动作的端到端映射。
二、AerialVLA的三个核心设计
AerialVLA以OpenVLA-7B为骨干模型,该模型包含SigLIP+DINOv2双视觉编码器和Llama 2 7B语言模型。在此基础上,论文提出三个关键设计:
图片来源于原论文
2.1 极简双视图感知
不同于以往方法使用4-5个方向的全景视图,AerialVLA仅使用前视(front-view)和下视(bottom-view)两个摄像头。两张图片垂直拼接为224×224的输入,恰好与ViT的patch网格对齐,无需额外的视图融合模块。
这一设计的逻辑是:前视图提供导航方向信息,下视图提供着陆判断信息,两者已覆盖无人机飞行的核心感知需求。
2.2 模糊方向提示替代Oracle
AerialVLA使用机载IMU(惯性测量单元) 估计的航向角,将方向量化为8个语义桶(如"straight ahead""forward-right""right"等),以自然语言形式输入模型。这种模糊方向提示(fuzzy directional hint) 不需要知道目标的精确位置,仅提供粗略方向参考,可在实际部署中通过GPS航点差分或指南针获取。
2.3 数值标记化(Numerical Tokenization)
无人机飞行的连续3-DoF动作包括:
- Δx∈ [0, 5] m(前进距离)
- Δz∈ [-5, 5] m(升降距离)
- Δψ∈ [-π, π](偏航角变化)
AerialVLA将每个连续值均匀离散为N=99个bins,映射到LLM词汇表中已有的数字token(如"0""1"..."98")。相比自定义特殊token,数字token在预训练阶段已有充分的语义表征,避免了冷启动问题。
2.4 统一着陆与几何一致性过滤
着陆判断不需要外部检测器:模型可以输出LAND token或生成接近零位移的动作来实现内在停止。
此外,论文提出几何一致性过滤:在训练数据中,约4%的帧存在监督矛盾(目标在大角度方向上,但偏航率接近零且侧方空间畅通),这些帧被移除以提高训练信号质量。
三、实验结果:Unseen Map上SR提升约3倍
训练配置
AerialVLA在420,000帧(来自7,922条专家轨迹)上训练。采用LoRA微调:r=64, α=128, dropout=0.05,可训练参数占比约2.98%。视觉编码器冻结,视觉投影器全量微调。训练在4×RTX 4090上完成,耗时约35小时,共5个epoch。
主要结果
论文与6个基线方法进行对比:Random、Fixed、CMA、TravelUAV-DA、NavFoM、LongFly。以下为关键结果:
Test Seen(已见环境):
| 方法 | SR↑ | SPL↑ |
|---|---|---|
| LongFly | 36.39 | 31.07 |
| AerialVLA | 47.96 | 38.54 |
| 差值 | +11.57 | +7.47 |
Unseen Object(未见目标):
| 方法 | SR↑ | SPL↑ |
|---|---|---|
| LongFly | 43.87 | 38.39 |
| AerialVLA | 56.60 | 46.61 |
| 差值 | +12.73 | +8.22 |
Unseen Map(未见地图,最具挑战性的泛化测试):
| 方法 | SR↑ | SPL↑ |
|---|---|---|
| LongFly | 11.27 | 9.32 |
| AerialVLA | 37.58 | 28.22 |
| 差值 | +26.31(约3倍) | +18.90(约3倍) |
Unseen Map的结果是最值得关注的:当环境完全未见过时,LongFly的SR骤降至11.27%,而AerialVLA仍保持37.58%,提升幅度达26.31个百分点。这说明端到端VLA模型在泛化能力上具有明显优势。
作为参考,人类操作者在Seen场景中的SR为94.51%,SPL为77.84%。
计算效率
| 指标 | AerialVLA | TravelUAV |
|---|---|---|
| VRAM | 17 GB | 20 GB |
| 总延迟 | 0.38s | 0.63s |
AerialVLA的显存占用比TravelUAV低3 GB,推理延迟降低约40%。
四、消融实验:极简设计为何优于复杂输入
论文对关键设计进行了消融分析:
| 变体 | Seen SR | Unseen Map SR |
|---|---|---|
| 自定义token(非数字) | 39.84 | 26.51 |
| 5视图输入 | 41.54 | 21.71 |
| 无几何过滤 | 40.90 | 32.15 |
| AerialVLA完整版 | 47.96 | 37.58 |
三个关键发现:
1. 5视图输入反而严重损害泛化
将输入从2视图扩展到5视图后,Seen SR仅从47.96%降至41.54%(-6.42),但Unseen Map SR从37.58%骤降至21.71%(-15.87)。冗余的视觉输入导致模型在训练环境中过拟合,泛化能力大幅下降。这验证了极简双视图设计的合理性。
2. 数字token避免冷启动
使用自定义token替代数字token后,Seen SR降至39.84%(-8.12),Unseen Map SR降至26.51%(-11.07)。自定义token在LLM词汇表中没有预训练权重,需要从零学习语义表征,这就是冷启动问题。
3. 几何一致性过滤有效但非决定性
移除过滤后,Unseen Map SR从37.58%降至32.15%(-5.43),仍然是LongFly的11.27%的约3倍。这说明架构设计本身已经具备较强的鲁棒性,几何过滤在此基础上提供了额外的提升。
图片来源于原论文
五、总结与思考
AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径:通过极简视觉输入、模糊方向提示和数值标记化三个设计,移除了对oracle引导和外部检测器的依赖,在Unseen Map泛化场景中相比此前最优方法实现了约3倍的SR提升。
- 极简输入的启示:5视图反而不如2视图,在训练数据有限(420,000帧)时更多视角带来的信息增量不足以抵消过拟合风险,对其他VLA任务的视觉输入设计有参考价值。
- 数值标记化的通用性:将连续控制量映射为LLM已有数字token的策略不依赖特定任务,可迁移到地面机器人、机械臂等其他连续控制场景。