AerialVLA：用VLA模型实现无人机端到端视觉-语言导航无人机视觉-语言导航（Vision-Language Na

导读

无人机视觉-语言导航（Vision-Language Navigation, VLN）的目标是让无人机根据自然语言指令自主飞往目标。但现有方法普遍依赖两根"拐杖"：一是需要oracle在每一步提供方向引导，二是需要外部目标检测器（如Grounding DINO）来触发着陆判断。这两个依赖在真实部署中都难以满足。

UESTC万少华团队提出的AerialVLA，基于OpenVLA-7B骨干，仅用前视+下视两个摄像头的极简输入，将连续3-DoF飞行动作离散为数字token，用IMU估计的模糊方向提示替代oracle引导，实现了端到端的导航与着陆控制。在最具挑战性的Unseen Map测试中，AerialVLA的SR达到37.58%，较此前最优方法LongFly的11.27%提升了约3倍；同时推理延迟仅0.38s，显存占用17 GB，均低于TravelUAV。

论文信息

标题： AerialVLA: A Vision-Language-Action Model for UAV Navigation via Minimalist End-to-End Control
作者： Peng Xu, Zhengnan Deng, Jiayan Deng, Zonghua Gu, Shaohua Wan
机构： 电子科技大学深圳高等研究院、霍夫斯特拉大学

一、现有无人机导航方法的"双拐杖"问题

无人机视觉-语言导航要求智能体在三维城市环境中，根据自然语言指令自主飞行到目标位置并着陆。与室内VLN相比，无人机面临更大的搜索空间、更复杂的视角变化和缺少明确路径标记等挑战。

现有方法存在两个关键依赖：

Oracle逐步引导：每个时间步都从环境获取最优方向指示，相当于在考试中每道题都有人提示正确答案。这在真实部署中不可能获得。
外部目标检测器：使用如Grounding DINO等预训练检测模型来判断目标是否出现在视野中，以此触发着陆。这引入了额外的计算开销和故障点。

AerialVLA的设计目标是同时移除这两个依赖，用一个统一的VLA模型完成从感知到动作的端到端映射。

二、AerialVLA的三个核心设计

AerialVLA以OpenVLA-7B为骨干模型，该模型包含SigLIP+DINOv2双视觉编码器和Llama 2 7B语言模型。在此基础上，论文提出三个关键设计：

图片来源于原论文

2.1 极简双视图感知

不同于以往方法使用4-5个方向的全景视图，AerialVLA仅使用前视（front-view）和下视（bottom-view）两个摄像头。两张图片垂直拼接为224×224的输入，恰好与ViT的patch网格对齐，无需额外的视图融合模块。

这一设计的逻辑是：前视图提供导航方向信息，下视图提供着陆判断信息，两者已覆盖无人机飞行的核心感知需求。

2.2 模糊方向提示替代Oracle

AerialVLA使用机载IMU（惯性测量单元） 估计的航向角，将方向量化为8个语义桶（如"straight ahead""forward-right""right"等），以自然语言形式输入模型。这种模糊方向提示（fuzzy directional hint） 不需要知道目标的精确位置，仅提供粗略方向参考，可在实际部署中通过GPS航点差分或指南针获取。

2.3 数值标记化（Numerical Tokenization）

无人机飞行的连续3-DoF动作包括：

Δx∈ [0, 5] m（前进距离）
Δz∈ [-5, 5] m（升降距离）
Δψ∈ [-π, π]（偏航角变化）

AerialVLA将每个连续值均匀离散为N=99个bins，映射到LLM词汇表中已有的数字token（如"0""1"..."98"）。相比自定义特殊token，数字token在预训练阶段已有充分的语义表征，避免了冷启动问题。

2.4 统一着陆与几何一致性过滤

着陆判断不需要外部检测器：模型可以输出LAND token或生成接近零位移的动作来实现内在停止。

此外，论文提出几何一致性过滤：在训练数据中，约4%的帧存在监督矛盾（目标在大角度方向上，但偏航率接近零且侧方空间畅通），这些帧被移除以提高训练信号质量。

三、实验结果：Unseen Map上SR提升约3倍

训练配置

AerialVLA在420,000帧（来自7,922条专家轨迹）上训练。采用LoRA微调：r=64, α=128, dropout=0.05，可训练参数占比约2.98%。视觉编码器冻结，视觉投影器全量微调。训练在4×RTX 4090上完成，耗时约35小时，共5个epoch。

主要结果

论文与6个基线方法进行对比：Random、Fixed、CMA、TravelUAV-DA、NavFoM、LongFly。以下为关键结果：

Test Seen（已见环境）：

方法	SR↑	SPL↑
LongFly	36.39	31.07
AerialVLA	47.96	38.54
差值	+11.57	+7.47

Unseen Object（未见目标）：

方法	SR↑	SPL↑
LongFly	43.87	38.39
AerialVLA	56.60	46.61
差值	+12.73	+8.22

Unseen Map（未见地图，最具挑战性的泛化测试）：

方法	SR↑	SPL↑
LongFly	11.27	9.32
AerialVLA	37.58	28.22
差值	+26.31（约3倍）	+18.90（约3倍）

Unseen Map的结果是最值得关注的：当环境完全未见过时，LongFly的SR骤降至11.27%，而AerialVLA仍保持37.58%，提升幅度达26.31个百分点。这说明端到端VLA模型在泛化能力上具有明显优势。

作为参考，人类操作者在Seen场景中的SR为94.51%，SPL为77.84%。

计算效率

指标	AerialVLA	TravelUAV
VRAM	17 GB	20 GB
总延迟	0.38s	0.63s

AerialVLA的显存占用比TravelUAV低3 GB，推理延迟降低约40%。

四、消融实验：极简设计为何优于复杂输入

论文对关键设计进行了消融分析：

变体	Seen SR	Unseen Map SR
自定义token（非数字）	39.84	26.51
5视图输入	41.54	21.71
无几何过滤	40.90	32.15
AerialVLA完整版	47.96	37.58

三个关键发现：

1. 5视图输入反而严重损害泛化

将输入从2视图扩展到5视图后，Seen SR仅从47.96%降至41.54%（-6.42），但Unseen Map SR从37.58%骤降至21.71%（-15.87）。冗余的视觉输入导致模型在训练环境中过拟合，泛化能力大幅下降。这验证了极简双视图设计的合理性。

2. 数字token避免冷启动

使用自定义token替代数字token后，Seen SR降至39.84%（-8.12），Unseen Map SR降至26.51%（-11.07）。自定义token在LLM词汇表中没有预训练权重，需要从零学习语义表征，这就是冷启动问题。

3. 几何一致性过滤有效但非决定性

移除过滤后，Unseen Map SR从37.58%降至32.15%（-5.43），仍然是LongFly的11.27%的约3倍。这说明架构设计本身已经具备较强的鲁棒性，几何过滤在此基础上提供了额外的提升。

图片来源于原论文

五、总结与思考

AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径：通过极简视觉输入、模糊方向提示和数值标记化三个设计，移除了对oracle引导和外部检测器的依赖，在Unseen Map泛化场景中相比此前最优方法实现了约3倍的SR提升。

极简输入的启示：5视图反而不如2视图，在训练数据有限（420,000帧）时更多视角带来的信息增量不足以抵消过拟合风险，对其他VLA任务的视觉输入设计有参考价值。
数值标记化的通用性：将连续控制量映射为LLM已有数字token的策略不依赖特定任务，可迁移到地面机器人、机械臂等其他连续控制场景。