时间:2023-7-28
读论文前
RT-2 是 具身智能(Embodied AI) 和 VLA(视觉-语言-动作) 模型的开山之作。学习这篇论文的目的是打好基础,通向前沿自动驾驶VLA模型,Alpamayo-R1。
与 Alpamayo-R1 的关键差异点
带着三个问题去读RT-2
- Tokenization: RT-2 是怎么把物理世界的电压/坐标变成 LLM 能理解的 Token 的?(这是 VLA 的基础原理)。
- Data Mixing: 它是如何平衡“通用能力(VQA)”和“专业能力(控制)”的?(Alpamayo-R1 同样面临这个问题,如何不让大模型在开车时“胡言乱语”)。
- Emergent Capabilities (涌现能力): 重点看论文里提到的“未见过的指令”和“语义推理”。这证明了 VLM 是智驾解决 Corner Case 的唯一希望。
一句话总结:
RT-2 告诉你 “大模型可以控制机器人”(VLA 范式);
Alpamayo-R1 则是告诉你 “如何让大模型像老司机一样思考并平滑地开车”(Reasoning + Diffusion)
整体架构
左:输入端,混合数据流
中:VLA架构,包括 ViT 与 LLM
右:闭环控制,将LLM输出的 Token 序列通过查表变为机器人控制命令
Tokenization 离散化
背景:物理世界中的数值、动作是连续的,如机械手臂的移动,可能是1.0m,也可能是1.11111111m,这对LLM习惯的离散化token来说是一个灾难,因为不可能穷举所有可能的数值然后用token id进行表示。
RT-2解决方案:有损压缩 + 整数映射
- 定义边界,即机器人动作的物理极限
- 假设机器人的手在 X 轴上,一步最多移动 -1.0米 到 +1.0米
- 将这个范围切分成256份,每份代表一定的宽度
- 映射到 LLM 词表,每份代表一个 Token ID
缺陷:
因为损失了精度,其对应到物理世界是不够平滑的(一顿一顿的),无法满足精度要求高的场景(如高速行驶的汽车)。后续该方案也被放弃,改为Diffusion Policy直接生成连续分布。
联合微调 (Co-Fine-Tuning)
动机:在使用“机器人数据”对基座模型进行SFT时,RT-2 发现,如果只用机器人数据微调 VLM,会出现严重的灾难性遗忘(Catastrophic Forgetting)——模型虽然学会了机械臂动作,但把预训练中学到的“世界知识”(比如什么是 Taylor Swift,什么是恐龙)全忘光了
目的:在学“动作”的同时,必须复习“常识”
方案:数据混合 (Data Mixture)
从预训练好的VLM基座模型开始,使用混合数据SFT
- 机器人轨迹数据:
- Input: 图像 + 文本指令(如
"Q: what action should the robot take to [pick up the apple]? A:") - Output: 动作 Token 序列(如
"1 128 91 241...")
- Input: 图像 + 文本指令(如
- 互联网视觉语言数据
- 维持对未见物体(Unseen Objects)、语义概念和逻辑推理的理解能力
采样比例:
- RT-2-PaLI-X 模型(5B):机器人数据 : 互联网数据 = 5 :5
- RT-2-PaLM-E 模型(55B):机器人数据 : 互联网数据 = 6 :3
输出约束
在“推理”时,模型需要根据任务切换模式:
- 做 VQA 任务时: 允许模型输出整个词表(Natural Language Tokens)。
- 做机器人任务时: 强制约束模型的 Output Head,只允许它在采样时选择那 256 个合法的动作 Token。这保证了机器人不会在执行任务时突然输出一句“哈哈哈哈”
- 对智驾场景的启示:必须限制模型的输出空间,防止 LLM 产生幻觉输出非法的控制指令(“安全围栏”)
三种训练方式效果对比
- Train from Scratch (从头训练,无预训练): 效果极差,根本学不会。
- Fine-Tuning (只用机器人数据微调): 模型能处理见过的物体,但在面对没见过的物体或复杂指令时,泛化能力很弱。
- Co-Fine-Tuning (联合微调)
- 结论: 联合微调的模型在未见过的场景中表现最好。因为它保留了 Web 数据中的概念。
- 例子: 机器人数据里没有“灭霸玩偶”。但 Web 数据里有。通过联合微调,当指令是“捡起灭霸”时,模型能利用 Web 知识识别出灭霸,再结合机器人知识执行“捡起”动作。
启发:
- 从经过通用数据预训练的基座模型开始,使用混合数据进行SFT
- 微调数据配比:通用:机器人数据 = 1:1 或 2:1
Emergent Capabilities (涌现能力)
涌现的定义: 当用户给出一个从未在机器人数据中出现过的复杂指令时,RT-2 能够利用 Web 知识将图像中的物体与指令对应起来,并调用机器人学到的动作去执行
三类涌现能力:
- 语义推理 (Reasoning)
- 这不仅仅是识别物体,而是理解物理状态和抽象概念
- 符号与指代理解 (Symbol Understanding)
- 可以识别机器人数据中未出现的物体、概念(在通用数据中出现)
- 人类识别(Human Recognition)
- 在智驾场景,就能分清交警与其他人员的区别
对智驾场景Corner Case的启示:
也许并不需要收集所有Corner Case的数据,只要模型具备足够强的因果推理、泛化能力,就能应对。
例如:
- Corner Case: 前方有一辆车走位飘忽,或者路边有个小孩在追球。
- 传统智驾: 只能看到 Object Detection 框在抖动。
- VLA智驾: 模型能进行因果推理——“那辆车走位飘忽可能是醉驾或分心,我要远离它”;或者“有球滚出来 -> 后面大概率跟着小孩 -> 也就是鬼探头 -> 立即减速”。这就是 Alpamayo-R1 强调的 System 2 推理。
局限
语义泛化 ≠ 物理泛化
- VLM 可以让机器人“听懂”从未见过的指令(比如“拿 Taylor Swift”),但无法让机器人学会从未见过的物理动作(比如“擦桌子”或“双指转笔”)。如果训练数据里只有“抓取”,VLM 就算读了一万本关于擦桌子的书,它也只会用“抓取”的动作去“擦”
- VLM 提升的是决策的上限(脑子),但物理控制的上限(小脑)依然受限于驾驶数据的分布。
实时推理的挑战
RT-2中55B的模型用一个多 TPU 云端推理服务,才勉强做到 1-3 Hz 的控制频率,而自动驾驶通常需要 10Hz - 20Hz 的控制频率