RT-2 学习笔记——VLA范式RT-2 是具身智能（Embodied AI）和 VLA（视觉-语言-动作）模型的

时间：2023-7-28

读论文前

RT-2 是 具身智能（Embodied AI） 和 VLA（视觉-语言-动作） 模型的开山之作。学习这篇论文的目的是打好基础，通向前沿自动驾驶VLA模型，Alpamayo-R1。

Tokenization: RT-2 是怎么把物理世界的电压/坐标变成 LLM 能理解的 Token 的？（这是 VLA 的基础原理）。
Data Mixing: 它是如何平衡“通用能力（VQA）”和“专业能力（控制）”的？（Alpamayo-R1 同样面临这个问题，如何不让大模型在开车时“胡言乱语”）。
Emergent Capabilities (涌现能力): 重点看论文里提到的“未见过的指令”和“语义推理”。这证明了 VLM 是智驾解决 Corner Case 的唯一希望。

一句话总结：

RT-2 告诉你 “大模型可以控制机器人”（VLA 范式）；

Alpamayo-R1 则是告诉你 “如何让大模型像老司机一样思考并平滑地开车”（Reasoning + Diffusion）

左：输入端，混合数据流

中：VLA架构，包括 ViT 与 LLM

右：闭环控制，将LLM输出的 Token 序列通过查表变为机器人控制命令

背景：物理世界中的数值、动作是连续的，如机械手臂的移动，可能是1.0m，也可能是1.11111111m，这对LLM习惯的离散化token来说是一个灾难，因为不可能穷举所有可能的数值然后用token id进行表示。

RT-2解决方案：有损压缩 + 整数映射

缺陷：

因为损失了精度，其对应到物理世界是不够平滑的（一顿一顿的），无法满足精度要求高的场景（如高速行驶的汽车）。后续该方案也被放弃，改为Diffusion Policy直接生成连续分布。

动机：在使用“机器人数据”对基座模型进行SFT时，RT-2 发现，如果只用机器人数据微调 VLM，会出现严重的灾难性遗忘（Catastrophic Forgetting）——模型虽然学会了机械臂动作，但把预训练中学到的“世界知识”（比如什么是 Taylor Swift，什么是恐龙）全忘光了

目的：在学“动作”的同时，必须复习“常识”

方案：数据混合 (Data Mixture)

从预训练好的VLM基座模型开始，使用混合数据SFT

机器人轨迹数据：
- Input: 图像 + 文本指令（如 "Q: what action should the robot take to [pick up the apple]? A:"）
- Output: 动作 Token 序列（如 "1 128 91 241..."）
互联网视觉语言数据
- 维持对未见物体（Unseen Objects）、语义概念和逻辑推理的理解能力

采样比例：

输出约束

在“推理”时，模型需要根据任务切换模式：

做 VQA 任务时：允许模型输出整个词表（Natural Language Tokens）。
做机器人任务时：强制约束模型的 Output Head，只允许它在采样时选择那 256 个合法的动作 Token。这保证了机器人不会在执行任务时突然输出一句“哈哈哈哈”
对智驾场景的启示：必须限制模型的输出空间，防止 LLM 产生幻觉输出非法的控制指令（“安全围栏”）

三种训练方式效果对比

Train from Scratch (从头训练，无预训练): 效果极差，根本学不会。
Fine-Tuning (只用机器人数据微调): 模型能处理见过的物体，但在面对没见过的物体或复杂指令时，泛化能力很弱。
Co-Fine-Tuning (联合微调)
- 结论： 联合微调的模型在未见过的场景中表现最好。因为它保留了 Web 数据中的概念。
- 例子： 机器人数据里没有“灭霸玩偶”。但 Web 数据里有。通过联合微调，当指令是“捡起灭霸”时，模型能利用 Web 知识识别出灭霸，再结合机器人知识执行“捡起”动作。

启发：

涌现的定义： 当用户给出一个从未在机器人数据中出现过的复杂指令时，RT-2 能够利用 Web 知识将图像中的物体与指令对应起来，并调用机器人学到的动作去执行

三类涌现能力：

对智驾场景Corner Case的启示：

也许并不需要收集所有Corner Case的数据，只要模型具备足够强的因果推理、泛化能力，就能应对。

例如：

Corner Case: 前方有一辆车走位飘忽，或者路边有个小孩在追球。
传统智驾： 只能看到 Object Detection 框在抖动。
VLA智驾： 模型能进行因果推理——“那辆车走位飘忽可能是醉驾或分心，我要远离它”；或者“有球滚出来 -> 后面大概率跟着小孩 -> 也就是鬼探头 -> 立即减速”。这就是 Alpamayo-R1 强调的 System 2 推理。

语义泛化 ≠ 物理泛化

VLM 可以让机器人“听懂”从未见过的指令（比如“拿 Taylor Swift”），但无法让机器人学会从未见过的物理动作（比如“擦桌子”或“双指转笔”）。如果训练数据里只有“抓取”，VLM 就算读了一万本关于擦桌子的书，它也只会用“抓取”的动作去“擦”
VLM 提升的是决策的上限（脑子），但物理控制的上限（小脑）依然受限于驾驶数据的分布。

实时推理的挑战

RT-2中55B的模型用一个多 TPU 云端推理服务，才勉强做到 1-3 Hz 的控制频率，而自动驾驶通常需要 10Hz - 20Hz 的控制频率