面向具身操作的视觉-语言-动作模型综述总结

2026-04-21 3 阅读7分钟

论文链接：[2508.15201] Survey of Vision-Language-Action Models for Embodied Manipulation

一、引言

具身智能系统通过智能体与环境交互提升能力，视觉-语言-动作（VLA）模型作为受大模型启发的机器人通用控制模型，提高了智能体与环境交互能力，扩展了应用场景。本文从发展历程、模型架构、训练数据、预训练方法、后训练方法和模型评估五个方面对VLA模型进行综述，并探讨了挑战与未来方向。

二、具身操作与VLA

具身智能：强调智能体通过与物理环境持续交互实现感知、学习和决策，核心要素包括环境、本体和进化算法。
具身操作：机器人通过控制机械臂与环境交互完成任务，相比传统机器人操作，能通过反馈数据迭代算法，提升模型能力和对新场景、新任务的适应能力，包含操作环境、机器人本体和进化算法三大关键部分。
VLA的核心作用：VLA是具身操作中基础智能的核心，其模型结构、训练数据、预训练、后训练和模型评估是具身操作的核心功能模块。

三、VLA的发展历程

VLA模型发展大致经历了三个阶段：

萌芽阶段：VLA概念尚未形成，但已出现相似功能模型。早期端到端视觉控制策略采用独热编码实现多任务区分，存在局限。语言被引入任务描述增强系统适应性，多种技术路径被提出。Transformer框架出现后，大模型展现优秀能力，形成主流VLA模型，“视觉”概念扩展到多种传感器信号。
探索阶段：2023年7月左右VLA概念首次提出，推出参数量为55B的VLA模型RT-2，谷歌构建大规模数据集OXE。Transformer成为VLA骨干模型主流选择，部分模型继承LLM或VLM预训练权重以提升泛化能力，同时探索利用视频数据提升操作性能。
快速发展阶段：2024年底开始，模型更倾向选择预训练的LLM/VLM作为基座构建VLA模型，但泛化能力仍有差距，“虚假遗忘”问题凸显。分层架构成为解决复杂操作问题的热门选择，同时从预训练角度提升泛化性，VLA向更多维度发展，如视频数据预训练、融入多维度传感器数据、提高推理效率等。

四、VLA模型架构

主流VLA模型架构分为观测编码、特征推理和动作解码三部分，还有分层系统：

观测编码：将任务语言描述和观测信息转换到特征空间。语言描述使用预训练语言编码器或字节对编码器；观测信息包括彩色图像、几何信息、交互反馈信息等，分别有不同的编码方式。
特征推理：设计骨干网络捕获特征间相关信息并推理动作特征。骨干网络有基于Transformer/DiT、MoE、Mamba等多种选择。
动作解码：将特征令牌转换为机器人可执行动作，涉及动作空间选择和动作分布建模。
分层系统：将VLA任务拆解成长时域复杂任务理解与短时域动作生成，使用两个模型分别完成，不同层间通过文本语言、动作轨迹和隐特征向量等通信原语通信。

五、VLA训练数据

VLA预训练数据集分为四类：

互联网图文数据：帮助机器人构建通用知识和场景理解能力，如COCO、CapsFusion等数据集。
视频数据：用于构建VLA模型对动态环境理解和动作操作模式的理解基础，如Something-Something V2、EPIC-KITCHENS-100等，有多种参与训练的方式。
仿真数据：以低成本生成大量带动作标签的机器人合成轨迹数据，如RoboCasa、SynGrasp-1B等，但存在模拟保真度等局限性。
真实机器人采集数据：是实现VLA在真实世界泛化的前提，如Bridge数据集、DROID等。

六、VLA预训练

根据训练数据和方式，VLA预训练方法分为四种：

单一领域数据训练：使用大量机器人轨迹数据监督训练，模型泛化能力差。
跨域数据分阶段训练：继承预训练大语言模型或视觉语言模型权重，或使用视频数据辅助训练，提升泛化能力。
跨域数据联合训练：通过联合训练不同领域数据缓解“虚假遗忘”，但存在任务间参数竞争，动态混合专家架构等方法可缓解。
思维链增强：通过让模型理解场景和任务增强泛化能力，但面临推理过程增加时间延迟等挑战。

七、VLA后训练

VLA后训练方法分为三类：

监督微调：采集少量任务相关数据，使用监督学习在预训练模型基础上微调，简单高效但对数据质量要求高，面临数据一致性和复合误差问题。
强化微调：使用强化学习训练小模型或直接微调VLA模型权重，性能上限高但训练难度大、稳定性差，适用于操作精度要求高的场景。
推理扩展：推理时采样多个动作并评估选择最优，避免数据微调但推理时间代价高，难以满足实时控制要求。

八、VLA模型评估

VLA模型评估包括泛化能力与评价指标、基于真实环境评估、基于仿真器评估、基于世界模型评估等方面：

泛化能力与评价指标：泛化能力分为形态泛化、任务泛化和环境泛化，评价指标有任务成功率、过程评估指标等。
基于真实环境评估：设置分布内和分布外任务评估模型能力和泛化能力，面临公平性和可复现性问题，有相关基准和框架解决。
基于仿真器评估：可生成多样场景，评估客观可复现，有多种仿真器用于VLA模型评估。
基于世界模型评估：通过真实数据构建，有更逼真渲染和动力学响应，但仍处起步阶段。

九、VLA模型在产业界的发展

产业界对VLA发展至关重要，国内外众多公司和机构发布了VLA模型及应用场景，如谷歌的RT-2、英伟达的GR00T N1，国内字节跳动的RoboFlamingo等。但目前VLA模型能力仍面临环境敏感、任务泛化能力差等挑战，大部分工作处于研究阶段，需先实现小范围商业化应用再逐步推广。

十、具身操作的VLA模型展望

VLA模型在泛化能力、精细操作和实时推理方面面临挑战：

泛化能力：视觉泛化、机器人形态泛化和跨任务泛化均存在问题，需从数据、网络结构等方面探索。
精细操作：遥操作数据动作一致性差和缺乏多模态信息影响精细操作成功率，需构建高效数据采集方案和利用多模态信息。
实时推理：模型参数量和计算量大、机器人算力有限、部署不合理等导致实时推理困难，需从动作分块、异步分层、模型优化等方向缓解。