论文链接:[2508.15201] Survey of Vision-Language-Action Models for Embodied Manipulation
一、引言
具身智能系统通过智能体与环境交互提升能力,视觉-语言-动作(VLA)模型作为受大模型启发的机器人通用控制模型,提高了智能体与环境交互能力,扩展了应用场景。本文从发展历程、模型架构、训练数据、预训练方法、后训练方法和模型评估五个方面对VLA模型进行综述,并探讨了挑战与未来方向。
二、具身操作与VLA
- 具身智能:强调智能体通过与物理环境持续交互实现感知、学习和决策,核心要素包括环境、本体和进化算法。
- 具身操作:机器人通过控制机械臂与环境交互完成任务,相比传统机器人操作,能通过反馈数据迭代算法,提升模型能力和对新场景、新任务的适应能力,包含操作环境、机器人本体和进化算法三大关键部分。
- VLA的核心作用:VLA是具身操作中基础智能的核心,其模型结构、训练数据、预训练、后训练和模型评估是具身操作的核心功能模块。
三、VLA的发展历程
VLA模型发展大致经历了三个阶段:
- 萌芽阶段:VLA概念尚未形成,但已出现相似功能模型。早期端到端视觉控制策略采用独热编码实现多任务区分,存在局限。语言被引入任务描述增强系统适应性,多种技术路径被提出。Transformer框架出现后,大模型展现优秀能力,形成主流VLA模型,“视觉”概念扩展到多种传感器信号。
- 探索阶段:2023年7月左右VLA概念首次提出,推出参数量为55B的VLA模型RT-2,谷歌构建大规模数据集OXE。Transformer成为VLA骨干模型主流选择,部分模型继承LLM或VLM预训练权重以提升泛化能力,同时探索利用视频数据提升操作性能。
- 快速发展阶段:2024年底开始,模型更倾向选择预训练的LLM/VLM作为基座构建VLA模型,但泛化能力仍有差距,“虚假遗忘”问题凸显。分层架构成为解决复杂操作问题的热门选择,同时从预训练角度提升泛化性,VLA向更多维度发展,如视频数据预训练、融入多维度传感器数据、提高推理效率等。
四、VLA模型架构
主流VLA模型架构分为观测编码、特征推理和动作解码三部分,还有分层系统:
- 观测编码:将任务语言描述和观测信息转换到特征空间。语言描述使用预训练语言编码器或字节对编码器;观测信息包括彩色图像、几何信息、交互反馈信息等,分别有不同的编码方式。
- 特征推理:设计骨干网络捕获特征间相关信息并推理动作特征。骨干网络有基于Transformer/DiT、MoE、Mamba等多种选择。
- 动作解码:将特征令牌转换为机器人可执行动作,涉及动作空间选择和动作分布建模。
- 分层系统:将VLA任务拆解成长时域复杂任务理解与短时域动作生成,使用两个模型分别完成,不同层间通过文本语言、动作轨迹和隐特征向量等通信原语通信。
五、VLA训练数据
VLA预训练数据集分为四类:
- 互联网图文数据:帮助机器人构建通用知识和场景理解能力,如COCO、CapsFusion等数据集。
- 视频数据:用于构建VLA模型对动态环境理解和动作操作模式的理解基础,如Something-Something V2、EPIC-KITCHENS-100等,有多种参与训练的方式。
- 仿真数据:以低成本生成大量带动作标签的机器人合成轨迹数据,如RoboCasa、SynGrasp-1B等,但存在模拟保真度等局限性。
- 真实机器人采集数据:是实现VLA在真实世界泛化的前提,如Bridge数据集、DROID等。
六、VLA预训练
根据训练数据和方式,VLA预训练方法分为四种:
- 单一领域数据训练:使用大量机器人轨迹数据监督训练,模型泛化能力差。
- 跨域数据分阶段训练:继承预训练大语言模型或视觉语言模型权重,或使用视频数据辅助训练,提升泛化能力。
- 跨域数据联合训练:通过联合训练不同领域数据缓解“虚假遗忘”,但存在任务间参数竞争,动态混合专家架构等方法可缓解。
- 思维链增强:通过让模型理解场景和任务增强泛化能力,但面临推理过程增加时间延迟等挑战。
七、VLA后训练
VLA后训练方法分为三类:
- 监督微调:采集少量任务相关数据,使用监督学习在预训练模型基础上微调,简单高效但对数据质量要求高,面临数据一致性和复合误差问题。
- 强化微调:使用强化学习训练小模型或直接微调VLA模型权重,性能上限高但训练难度大、稳定性差,适用于操作精度要求高的场景。
- 推理扩展:推理时采样多个动作并评估选择最优,避免数据微调但推理时间代价高,难以满足实时控制要求。
八、VLA模型评估
VLA模型评估包括泛化能力与评价指标、基于真实环境评估、基于仿真器评估、基于世界模型评估等方面:
- 泛化能力与评价指标:泛化能力分为形态泛化、任务泛化和环境泛化,评价指标有任务成功率、过程评估指标等。
- 基于真实环境评估:设置分布内和分布外任务评估模型能力和泛化能力,面临公平性和可复现性问题,有相关基准和框架解决。
- 基于仿真器评估:可生成多样场景,评估客观可复现,有多种仿真器用于VLA模型评估。
- 基于世界模型评估:通过真实数据构建,有更逼真渲染和动力学响应,但仍处起步阶段。
九、VLA模型在产业界的发展
产业界对VLA发展至关重要,国内外众多公司和机构发布了VLA模型及应用场景,如谷歌的RT-2、英伟达的GR00T N1,国内字节跳动的RoboFlamingo等。但目前VLA模型能力仍面临环境敏感、任务泛化能力差等挑战,大部分工作处于研究阶段,需先实现小范围商业化应用再逐步推广。
十、具身操作的VLA模型展望
VLA模型在泛化能力、精细操作和实时推理方面面临挑战:
- 泛化能力:视觉泛化、机器人形态泛化和跨任务泛化均存在问题,需从数据、网络结构等方面探索。
- 精细操作:遥操作数据动作一致性差和缺乏多模态信息影响精细操作成功率,需构建高效数据采集方案和利用多模态信息。
- 实时推理:模型参数量和计算量大、机器人算力有限、部署不合理等导致实时推理困难,需从动作分块、异步分层、模型优化等方向缓解。