RT-2 学习笔记——VLA范式

9 阅读6分钟

时间:2023-7-28

原文链接:arxiv.org/abs/2307.15…

读论文前

RT-2 是 具身智能(Embodied AI)VLA(视觉-语言-动作) 模型的开山之作。学习这篇论文的目的是打好基础,通向前沿自动驾驶VLA模型,Alpamayo-R1。

与 Alpamayo-R1 的关键差异点

带着三个问题去读RT-2

  1. Tokenization: RT-2 是怎么把物理世界的电压/坐标变成 LLM 能理解的 Token 的?(这是 VLA 的基础原理)。
  2. Data Mixing: 它是如何平衡“通用能力(VQA)”和“专业能力(控制)”的?(Alpamayo-R1 同样面临这个问题,如何不让大模型在开车时“胡言乱语”)。
  3. Emergent Capabilities (涌现能力): 重点看论文里提到的“未见过的指令”和“语义推理”。这证明了 VLM 是智驾解决 Corner Case 的唯一希望。

一句话总结:

RT-2 告诉你 “大模型可以控制机器人”(VLA 范式);

Alpamayo-R1 则是告诉你 “如何让大模型像老司机一样思考并平滑地开车”(Reasoning + Diffusion)

整体架构

左:输入端,混合数据流

中:VLA架构,包括 ViT 与 LLM

右:闭环控制,将LLM输出的 Token 序列通过查表变为机器人控制命令

Tokenization 离散化

背景:物理世界中的数值、动作是连续的,如机械手臂的移动,可能是1.0m,也可能是1.11111111m,这对LLM习惯的离散化token来说是一个灾难,因为不可能穷举所有可能的数值然后用token id进行表示。

RT-2解决方案:有损压缩 + 整数映射

  1. 定义边界,即机器人动作的物理极限
    1. 假设机器人的手在 X 轴上,一步最多移动 -1.0米 到 +1.0米
  2. 将这个范围切分成256份,每份代表一定的宽度
  3. 映射到 LLM 词表,每份代表一个 Token ID

缺陷:

因为损失了精度,其对应到物理世界是不够平滑的(一顿一顿的),无法满足精度要求高的场景(如高速行驶的汽车)。后续该方案也被放弃,改为Diffusion Policy直接生成连续分布。

联合微调 (Co-Fine-Tuning)

动机:在使用“机器人数据”对基座模型进行SFT时,RT-2 发现,如果只用机器人数据微调 VLM,会出现严重的灾难性遗忘(Catastrophic Forgetting)——模型虽然学会了机械臂动作,但把预训练中学到的“世界知识”(比如什么是 Taylor Swift,什么是恐龙)全忘光了

目的:在学“动作”的同时,必须复习“常识”

方案:数据混合 (Data Mixture)

从预训练好的VLM基座模型开始,使用混合数据SFT

  • 机器人轨迹数据:
    • Input: 图像 + 文本指令(如 "Q: what action should the robot take to [pick up the apple]? A:"
    • Output: 动作 Token 序列(如 "1 128 91 241..."
  • 互联网视觉语言数据
    • 维持对未见物体(Unseen Objects)、语义概念和逻辑推理的理解能力

采样比例:

  • RT-2-PaLI-X 模型(5B):机器人数据 : 互联网数据 = 5 :5
  • RT-2-PaLM-E 模型(55B):机器人数据 : 互联网数据 = 6 :3

输出约束

在“推理”时,模型需要根据任务切换模式:

  • 做 VQA 任务时: 允许模型输出整个词表(Natural Language Tokens)。
  • 做机器人任务时: 强制约束模型的 Output Head,只允许它在采样时选择那 256 个合法的动作 Token。这保证了机器人不会在执行任务时突然输出一句“哈哈哈哈”
  • 对智驾场景的启示:必须限制模型的输出空间,防止 LLM 产生幻觉输出非法的控制指令(“安全围栏”)

三种训练方式效果对比

  1. Train from Scratch (从头训练,无预训练): 效果极差,根本学不会。
  2. Fine-Tuning (只用机器人数据微调): 模型能处理见过的物体,但在面对没见过的物体或复杂指令时,泛化能力很弱。
  3. Co-Fine-Tuning (联合微调)
    • 结论: 联合微调的模型在未见过的场景中表现最好。因为它保留了 Web 数据中的概念。
    • 例子: 机器人数据里没有“灭霸玩偶”。但 Web 数据里有。通过联合微调,当指令是“捡起灭霸”时,模型能利用 Web 知识识别出灭霸,再结合机器人知识执行“捡起”动作。

启发:

  1. 从经过通用数据预训练的基座模型开始,使用混合数据进行SFT
  2. 微调数据配比:通用:机器人数据 = 1:1 或 2:1

Emergent Capabilities (涌现能力)

涌现的定义: 当用户给出一个从未在机器人数据中出现过的复杂指令时,RT-2 能够利用 Web 知识将图像中的物体与指令对应起来,并调用机器人学到的动作去执行

三类涌现能力:

  1. 语义推理 (Reasoning)
    1. 这不仅仅是识别物体,而是理解物理状态抽象概念
  2. 符号与指代理解 (Symbol Understanding)
    1. 可以识别机器人数据中未出现的物体、概念(在通用数据中出现)
  3. 人类识别(Human Recognition)
    1. 在智驾场景,就能分清交警与其他人员的区别

对智驾场景Corner Case的启示:

也许并不需要收集所有Corner Case的数据,只要模型具备足够强的因果推理、泛化能力,就能应对。

例如:

  • Corner Case: 前方有一辆车走位飘忽,或者路边有个小孩在追球。
  • 传统智驾: 只能看到 Object Detection 框在抖动。
  • VLA智驾: 模型能进行因果推理——“那辆车走位飘忽可能是醉驾分心,我要远离它”;或者“有球滚出来 -> 后面大概率跟着小孩 -> 也就是鬼探头 -> 立即减速”。这就是 Alpamayo-R1 强调的 System 2 推理。

局限

语义泛化 ≠ 物理泛化

  • VLM 可以让机器人“听懂”从未见过的指令(比如“拿 Taylor Swift”),但无法让机器人学会从未见过的物理动作(比如“擦桌子”或“双指转笔”)。如果训练数据里只有“抓取”,VLM 就算读了一万本关于擦桌子的书,它也只会用“抓取”的动作去“擦”
  • VLM 提升的是决策的上限(脑子),但物理控制的上限(小脑)依然受限于驾驶数据的分布。

实时推理的挑战

RT-2中55B的模型用一个多 TPU 云端推理服务,才勉强做到 1-3 Hz 的控制频率,而自动驾驶通常需要 10Hz - 20Hz 的控制频率