Alpamayo-R1 学习笔记Alpamayo-R1工作介绍，是目前（2026年）自动驾驶领域中 System 2（慢

时间：2025-10-30

原文链接：arxiv.org/abs/2511.00…

背景

Alpamayo-R1 是目前（2026年）自动驾驶领域中 System 2（慢思考/推理） 与 System 1（快直觉/感知） 结合的集大成者

痛点：目前的端到端（E2E）自动驾驶模型虽然在常规场景表现不错，但在长尾场景（如复杂的交互、罕见路况）中非常脆弱。主要原因是缺乏因果推理能力，单纯的模仿学习（Imitation Learning）只是拟合分布，不懂“为什么”。
现有方案的不足：之前的 VLM/VLA 自动驾驶工作（如 OpenDriveVLA, DriveGPT4）要么没有显式推理，要么推理是“自由格式”的（free-form），往往是一堆正确的废话（如“天气晴朗，所以...”），与实际驾驶决策（Action）没有强因果联系，甚至会出现“幻觉”。

目的：解决端到端自动驾驶在“长尾”场景（Long Tail）中表现脆弱的问题。

方案：通过结构化的因果推理链（CoC） 和 RL 后训练，强制模型学习“观察 -> 推理 -> 决策 -> 轨迹”的严格因果路径

核心贡献

提出并构建因果推理链（CoC）数据集
1. 解决了以往自动驾驶数据只有“感知输入”和“控制输出”，缺乏中间“思维过程”的问题。
设计了模块化的 VLA 架构
1. 解决了视觉语言模型（VLM）通常难以输出高精度、符合物理动力学的连续轨迹的问题
引入了基于 RL 的后训练策略
1. 这是本文最大的亮点，解决了大模型常见的“幻觉”问题以及“说的”和“做的”不一致的问题

核心架构

整个数据流可以概括为：

眼睛看: 环视视频 -> SigLIP -> 压缩 -> Visual Tokens
大脑想: Visual Tokens + Prompt -> Cosmos-Reason -> 输出 Reasoning Text (CoC) -> 输出 Discrete Action Tokens
手脚做: Discrete Action Tokens (作为条件) -> Flow Matching Expert -> 生成最终平滑轨迹

感知层：多模态编码器 (Multi-Modal Encoders)

将物理世界的原始信号（视频、车身状态）压缩成 LLM 能“消化”的 Token

视觉编码 (Vision Encoding)
- Backbone: 外挂了 SigLIP (Sigmoid Loss for Language Image Pre-training)。相比于早期的 CLIP，SigLIP 在多图处理上的边缘对齐能力更强。
状态编码 (Ego-Status Encoding)
- 将车辆自身的速度、加速度、方向盘转角等数值，通过 MLP 映射到与 LLM 相同的 Embedding 维度，作为 State Tokens 拼接到输入序列中
文本编码（Text Encoder）
- 包含用户指令（User Commands）与高层导航指令（Navigation）
- 是 Backbone 的一部分，而不是独立的感知模块

三个部分的信息全部转换为Embedding向量，拼接后传入 Cosmos-Reason 主干网络

推理层：VLM Backbone (Cosmos-Reason)

系统的“大脑”，负责处理信息、生成因果推理链（CoC），并做出高层的驾驶决策

基座模型: Cosmos-Reason

这是一个 NVIDIA 自研的、针对物理世界（Physical AI）预训练的模型。
关键特性: 它不是一个纯文本模型，而是在海量视频-文本对上训练过的，因此对物理规律（重力、碰撞、遮挡）有内嵌的理解。
标准的 Transformer Decoder-only 架构
采用了 GQA (Grouped Query Attention) 来加速推理

核心任务:

Input: [Visual Tokens, State Tokens, Text Instruction]
Output Phase 1: 生成文本形式的 Reasoning Trace（例如：“前方有行人横穿，且左侧车辆正在变道，因此我需要减速...”）。
Output Phase 2: 生成离散的 Action Tokens（决策意图）。

执行层：混合动作解码器 (Hybrid Action Decoder)

采用 “离散决策 + 连续修正” 的双重表征设计，解决 LLM 无法输出平滑连续轨迹的问题

训练过程：离散分支 + 连续分支
推理过程：连续分支

离散分支 (Discrete Action Head)

作用: 粗粒度规划 (Coarse-level Planning)。
机制:
- 将连续的轨迹空间离散化为 1024 个 Cluster (类似于 VQ-VAE 的 Codebook)。
- VLM 像生成文本一样，自回归地预测出代表轨迹形状的 Token 序列。
目的: 让 Transformer 能够利用其擅长的概率预测能力，决定“大概怎么走”（比如：左转、急刹、缓行）

连续分支 (Flow Matching Action Expert)

作用: 细粒度精修 (Fine-grained Refinement)。
机制: Flow Matching (流匹配)。
- 这就好比是一个轻量级的 Diffusion Model，但速度更快。
- Input: 它接收两个输入：
  - 从标准高斯分布采样的噪声 $x_0$
  - Conditioning: 来自 VLM 输出的离散 Action Token 的 Embedding（即 VLM 的“意图”）。
- Process: 它通过求解常微分方程（ODE），将噪声“流”向目标轨迹分布。
- Output: 输出符合单车动力学 (Unicycle Dynamics) 的连续轨迹点 $(x, y, h)$ (位置 + 航向角)。

Flow Matching 相比自回归形式的 Action Token，在驾驶表现、舒适度、解码速度上均有提升

在推理阶段仅使用Flow Matching进行动作解码，整体耗时压缩至99ms

为什么用 Flow Matching 而非 DDPM or DDIM?

传统的 Diffusion 生成步骤太多（50-100步），推理太慢。
Flow Matching 使用 Straight Vector Fields (直线向量场)，可以在极少的步数内（甚至 1 步）生成高质量轨迹，完美契合车载端的实时性要求

Vision Encoding & Tokenization Strategies

痛点：自动驾驶需要极高的视觉感知分辨率和多视角覆盖，但这会产生海量的 Visual Tokens，导致 LLM 推理极其缓慢甚至显存溢出

Single-Image Tokenization

基础范式：使用标准的 **Vision Encoder **独立处理每一个摄像头的每一帧图像

问题：Token 数量与“摄像头数量 $\times$ 图像分辨率”呈线性增长，自动驾驶通常有 6-10 个摄像头，如果简单拼接，每一帧就会产生数千个 Visual Token，导致无法实时推理

此为文章默认方法，如何缓解Visual Token过多的问题？

降低分辨率（例如降至 448 $\times$ 280）
只看“关键帧”而非全量视频流，主要依赖当前时刻的多视角图像以及历史轨迹/状态数据

Chain of Causation (CoC) Dataset 构建

为解决以往自动驾驶 VLM 数据集中“推理模糊”和“因果倒置”的痛点，必须满足三个硬性标准：

Decision-Grounded（基于决策）：推理必须指向一个明确的驾驶动作（如“向左变道”），而不是模糊的“小心驾驶”
Causally Linked（因果关联）：解释必须基于历史观测（因），推导出随后的决策（果）
No Causal Confusion（无因果混淆）：严禁利用未来发生的事件来解释当前的决策（例如不能说“因为未来那辆车撞过来了，所以我现在减速”，只能根据当前的迹象推理）

为此，文章设计了一套结构化的数据定义，并开发了一套混合标注流水线（结合人工和自动化）

Data Curation (数据筛选) - "When to label?"

仅筛选出包含 Explicit Driving Decision (明确驾驶决策) 的片段进行标注

Reactive (反应式)：车辆必须对环境做出反应（例如：前车减速、红灯、有行人切入）
Proactive (主动式)：车辆主动规划行为（例如：为了导航而准备变道、通过路口）

目的：

去除低信息量数据：避免大量的直行、无交互的垃圾数据，提高训练效率。
强化因果信号：只有在有明确决策的时刻，因果关系（为什么这么做）才最清晰。

Keyframe Labeling (关键帧定位) - "The Decision-Making Moment"

在筛选出的片段中，精确定位“推理时刻”。

具体操作：通常选择在车辆行为发生改变（如减速、转向）之前的 0.5秒。

Structured CoC Definition (结构化定义) - "What to label?"

Label Critical Components (关键组件 - 因)

动作：从历史视频（0-2s）中标注出影响决策的关键物体
目的：确保推理的依据是 Observable (可观测的)，且仅包含决策相关的因素

Label Driving Decision (驾驶决策 - 果)

动作：从预定义的 Closed Set (闭集) 表格（Tab. 1）中选择一个动作。
目的：Decision Grounding (决策锚定)。消除自然语言的模糊性，让推理直接对应具体的控制意图

Compose CoC Trace (生成推理链)

动作：将 A 和 B 组合成通顺的自然语言。
目的：为模型提供可解释的文本监督信号。

Hybrid Labeling Procedure (混合标注流程)

为了平衡质量（Quality）和规模（Scale），文章采用了双管齐下的策略

Human Labeling (人工标注)，约占10%

动作：设计了特殊的工具，强制标注员分两步走。第一步只能看历史视频标组件（0～2s，防止利用未来信息），第二步看完整视频标决策（0～8s）。
目的：生成高可信度的数据，用于监督微调 (SFT) 和模型评估。

Auto-Labeling (自动标注)

动作：
1. 先用规则检测底层的 Meta Actions（原子动作，如“向左打方向”、“减速”），以此自动定位关键帧

2. 将视频、轨迹和原子动作喂给大模型（如 GPT-5），让 Teacher VLM 生成结构化的 CoC 推理

目的：Scale Up (规模化)。人工标注太贵太慢，自动标注可以快速生成 700k+ 的训练数据，让模型学习广泛的驾驶知识。

COC数据集评估流程

目的：为因果链数据集打分

评估现状：评估开放式文本（尤其是推理链）非常困难，传统的指标（如 BLEU、METEOR）只能衡量文本表面相似度，无法评估逻辑因果性

难点：

人工评估：准确但不可扩展（无法评估数十万条数据）
启发式指标 (BLEU/CIDEr)：只看词汇重叠，不懂因果逻辑
直接 LLM 评分：容易产生幻觉（Hallucination），尤其是在评估复杂的多步因果链时

评估流程：

评估集构建 (Evaluation Set)
- 构建了一个包含 2,000 个样本的精选评估集。
- 样本覆盖了文中提到的各类代表性场景（如表 3 定义的反应式和主动式场景）
- 用于评估LLM评估器是否按照要求对数据集进行评估
LLM 评估器 (LLM-Based Auto-Evaluation)
- 模型选择：使用 GPT-5 作为评估器（Evaluator）。
- 抗幻觉策略（关键创新）：
  - 作者避免直接让 LLM 打分或生成自由文本评价。
  - 结构化分解：将评估任务拆解为三个具体的 True/False (是/否) 问题：
    - 驾驶决策 (Driving Decision)：决策类别是否识别正确？
    - 因果因子 (Causal Factors)：是否提到了关键的环境组件？
    - 因果关系 (Cause-and-Effect)：因和果之间的逻辑链接是否有效？
- 优势：这种“判断题”的形式比“作文题”更具可解释性，也更能与人类的判断对齐。

经对比，LLM评估器在精选评估集上与人类专家的一致率达92%。文章也说明，并非100%一致率就是最好的，因为复杂驾驶场景中因果推理本身存在固有的模糊性，以及数据中不可避免的噪声。

训练流程

基础模型准备（Cosmos-Reason：For Physical AI）

输入数据：通用推理数据 (General reasoning data)。
目的：获取通用的物理世界知识 (Knowing general world knowledge)
采用 Cosmos-Reason 作为骨干网络。这是一个针对物理 AI（Physical AI）预训练过的视觉语言模型，它已经具备了基本的物理常识（比如重力、碰撞概念）和通用的视觉理解能力

训练流程：

大规模后训练：在通用VLM模型的基础上
1. 在3.7M个视觉问答 (VQA) 样本上进行了后训练 (post-training)，以培养物理常识和具身推理能力
2. 预训练数据中包含 24.7K 个专门针对驾驶场景的精选视频 VQA 样本。这些样本不仅包含场景描述和驾驶难度标注，还包含了通过 DeepSeek-R1 蒸馏出的、用于预测下一步行动的推理轨迹 (reasoning traces)
领域特定的监督微调 (Domain-Specific SFT)
1. 跨域知识迁移：整理了涵盖多个“物理 AI”领域的补充数据集，包括自动驾驶、机器人、医疗保健、智慧城市、制造、零售和物流。这种广泛的训练旨在让模型获得通用的物理常识，从而能更好地迁移到驾驶场景中
2. 驾驶数据增强：专门为自动驾驶增加了 100K 个新样本。这些样本包含对环境关键对象（Critical Objects）的标注以及对下一步行动的推理

物理能力衡量：

LingoQA是一个专门针对 自动驾驶场景 的 视觉问答（Visual Question Answering, VQA） 基准测试集。

核心任务：它给模型看驾驶视角的视频或图像，然后问各种与驾驶相关的问题（例如：“前车在干什么？”“现在变道安全吗？”“路边的标志是什么意思？”）
本质：它是一个衡量模型 “驾驶场景理解能力” (Scene Understanding) 的考卷

在零样本情况下，Cosmos-Reason-7B 对驾驶场景理解能力超过其他 VLM

动作模态注入 (Action Modality Injection)

输入数据：纯驾驶轨迹数据 (Driving data)

目的：学会如何“开车” (Solving nominal scenarios)。 让原本只会生成文本的 VLM 能够输出车辆控制信号

核心机制：

离散 Token 训练：将连续的轨迹（加速度、曲率）量化为 离散的 Token（每个轨迹 128 个 Token）。这样模型就可以像生成文本一样，“自回归”地预测驾驶动作。
双重表示策略 (Dual Representation)：
- 训练时：使用离散 Token，方便与推理文本一起进行联合训练。
- 推理时：引入了一个 Action Expert (动作专家)，使用 Flow Matching (流匹配) 技术将 Token 解码为连续、平滑、符合动力学的轨迹。这是实现 99ms 实时推理 的关键。

结果：在这个阶段结束时，模型变成了一个会开车的 VLA（视觉-语言-动作模型），但它还只会通过模仿来开车，不懂得解释原因

推理能力冷启动 (Eliciting Reasoning)

输入数据：推理轨迹数据 (Reasoning traces)。这里用到的就是 Sec 4 构建的 Chain of Causation (CoC) 数据集。

目的：学会“思考” (Eliciting reasoning capability)。 激发模型的推理能力，让它在做出动作前生成因果解释。

核心机制：

SFT (监督微调)：利用 CoC 数据集中的 <图像, 推理文本, 动作> 三元组进行微调。
模型学习的序列变成了：[图像输入] -> [推理思考：因为前方有红灯...] -> [动作：减速停止]。

效果展示：

在左图中展示了一个场景，右图对比了两种模式的表现：

Video -> Traj
- 仅经过 Action Modality Injection 的模型。它直接从视频像素映射到轨迹，没有显式的推理过程
- 表现：Violates traffic rules（违反交规）。模型生成的轨迹（绿色线条）显示它打算直接冲过路口，完全没有减速或停车的迹象
- 原因：纯粹的模仿学习（Imitation Learning）可能在长尾场景下失效。模型可能只关注到了“前方道路空旷”，而忽略了“STOP 标志”和“侧向来车”的语义含义
Video -> CoC -> Traj
- 经过 SFT 训练后，它引入了中间步骤 CoC（因果链）。
- 生成的推理 (Generated Chain of Causation)：模型不仅输出了轨迹，还输出了一段推理
- 表现：正确且安全。轨迹图显示，车辆先减速（蓝色点），在路口前完全停止，等待，然后再加速通过（绿色点）

局限性：虽然让模型学会了说话，但存在 “幻觉” 和 “不一致” 的问题。比如模型可能会说“我要减速”，但实际生成的轨迹却是加速。这就需要下一个阶段来解决。

弱视觉定位 (Weak Visual Grounding)：SFT 模型倾向于“背书”或“瞎编”。它可能生成通顺的句子，但内容与画面不符（幻觉）。它可能忽略画面中关键的障碍物，或者凭空捏造不存在的交通信号

左图：

对画面中明显的红色施工锥桶视而不见

右图：

幻觉出了不存在或不相关的“红绿灯”
陷入了死板的“礼让”模式，没有意识到行人已经快走完了，导致车辆在路口死等，影响通行效率

推理-动作不一致（Reasoning-action inconsistency）：SFT 模型是通过模仿学习训练的。它可能学会了像专家一样“说话”（生成正确的推理文本），也学会了像专家一样“开车”（生成轨迹）。但这两者在大脑中是割裂的。模型可能会嘴上说“我要直行”，手却打方向盘“转弯”，因为它没有受到惩罚

图中对比了 SFT 基座模型（Base model，灰色） 和 RL 后训练模型（Post-trained model，绿色） 在两个场景下的表现

左图：停止后起步场景(Stop & Go)

场景逻辑：夜间遇到 STOP 标志。正确的逻辑是：减速 -> 停止 -> 观察安全 -> 加速通过。
SFT 模型 (灰色 - 失败)：
- 推理 (言)：模型生成的文字正确地说出了 "...then accelerating straight through..."（然后加速通过）。
- 动作 (行)：看 t=4s 和 t=6s 的灰色方块，车辆在停止后一直停在原地，没有恢复移动。
- 问题：这是典型的 “言行不一”。模型知道该走，但轨迹解码器没有执行这个指令
Post-trained 模型 (绿色 - 成功)：
- 动作：看 $t=6s$ 的绿色方块，车辆已经通过了路口。
- 改进：RL 训练中的 Consistency Reward 奖励了那些“推理说走，动作就走”的样本，惩罚了“只说不练”的样本。

右图：跟车保持车道场景 (Lane Keeping)

场景逻辑：在高速公路上跟随前车（红车）。正确的逻辑是：保持车道 (Keep Lane) 并跟随。
SFT 模型 (灰色 - 失败)：
- 推理 (言)：模型文字说的是 "...and keeping lane..."（保持车道）。
- 动作 (行)：看灰色虚线轨迹，车辆明显向右漂移，跨越了车道线（changed the lane）。
- 问题：推理说“不换道”，动作却“换道了”。这在高速行驶中极度危险。
Post-trained 模型 (绿色 - 成功)：
- 动作：看绿色实线轨迹，车辆稳稳地保持在当前车道中心。
- 改进：模型学会了将“keeping lane”这个语义概念精确地映射到几何空间的约束上。

基于 RL 的后训练 (RL-Based Post-Training)

输入数据：云端的强化学习反馈 (RL)

目的：**对齐与提升。**进一步提升推理质量并确保推理与动作一致性

核心机制：使用 GRPO (Group Relative Policy Optimization) 算法进行强化学习。

奖励模型 (Reward Model)：为了指导 RL，设计了三个关键的奖励信号：

推理质量 (Reasoning Quality)：Teacher model feedback
1. 用一个更大的推理模型（Teacher Model / LRM）作为“判卷老师”，给模型生成的推理文本打分。如果逻辑不通，给低分。
推理与行为一致性 (Reasoning-Action Consistency)：图中聚合部分
1. CoC-Action Consistency。检查模型说的（推理）和做的（轨迹）是否一致。如果嘴上说“让行”，身体却“抢行”，就会受到惩罚。
轨迹质量 (Low-level Trajectory Quality)：Verifiable rewards
1. 物理层面的奖励，比如是否发生碰撞、是否急刹车（Jerk）。

实验部分

概念澄清：

开环测试（Open-Loop Evaluation）：“看录像预测”
- 从收集好的历史数据集中拿出一段视频
- 把视频喂给模型，让模型预测“接下来该怎么走”
- 把模型的预测结果（Predicted Trajectory）与当时人类司机实际开出的轨迹（Ground Truth）进行对比，计算误差（如 minADE）
闭环测试 (Closed-Loop Evaluation)：“实战模拟”
- 把模型放入一个仿真器（如本文使用的 AlpaSim）。
- 模型根据当前画面做出决策（如向左转）。
- 仿真器会根据这个决策更新下一帧的画面（车真的向左转了，视野变了）。
- 如果模型决策错误（如撞墙），仿真就会真的发生碰撞，测试结束

ADE 和 minADE 是用来衡量轨迹预测准确度的两个核心指标

ADE (Average Displacement Error) - 平均位移误差

定义：计算的是一条预测轨迹与真实轨迹（Ground Truth）在所有未来时间步（Time Steps）上的平均欧式距离
计算逻辑：假设预测未来 6.4 秒，每 0.1 秒一个点（共 64 个点）。ADE 就是把这 64 个点与真实轨迹对应点的距离加起来，除以 64
特点：它衡量的是单一预测的平均准确度。

$ADE = \frac{1}{T} \sum_{t=1}^{T} \sqrt{\left(x_{pred}^{t} - x_{gt}^{t}\right)^2 + \left(y_{pred}^{t} - y_{gt}^{t}\right)^2}$

minADE (Minimum Average Displacement Error) - 最小平均位移误差

背景：Alpamayo-R1 是一个生成式模型，针对同一个场景，它会生成多条可能的未来轨迹（文中设定为 6条，即 K=6 samples），分别代表不同的驾驶意图（例如：一条是直行，一条是左转，一条是减速停车等）。这被称为“多模态预测”（Multi-modality）。
定义：minADE 是指在模型生成的 6条预测轨迹中，挑选出那条与真实轨迹最接近（ADE 最小）的轨迹，用它的 ADE 值作为最终得分。

开环测试中，引入COC推理后，不管是常规场景还是挑战性场景，相比仅输出轨迹的基线模型和带有元动作的模型，Alpamayo-R1更能做出正确驾驶决策

挑战性场景：直观上更需要复杂推理的场景

在AlpaSim 闭环模拟器中，针对75 个极具挑战性的场景（精心挑选的高密度交互场景，如复杂的十字路口、施工区域、行人穿行等）进行测试。

难度加码：Without Route Information。模型没有被告知“向左转”或“向右转”的导航指令，它必须完全依靠场景理解（例如看到障碍物绕行，看到红灯停下）来决定怎么开

Baseline：Trajectory-only model，在 CoC 数据上微调过，但它不生成推理文本，只输出轨迹。这代表了“没有思考，只有直觉”的驾驶方式

Close Encounter Rate - All (所有险情)
Close Encounter Rate - At-fault (主责险情)
Off-Road Rate (冲出道路率)
AlpaSim Score：综合指标，计算的是两次故障事件（险情或冲出道路）之间的平均行驶距离（km）

这张图展示了在闭环测试中，两个不同的驾驶场景随时间步（Step 0 -> Step 90）的演变过程。是对Table 8的“视频化”证据

每一列代表一个时间点，包含了 BEV 鸟瞰图（上方）和 前视相机视角（下方），以及对车辆行为的文字描述。

上排：路口交互场景 (Intersection Scenario)

这是一个经典但复杂的非保护右转场景，涉及多步决策：

Step 0: 车辆识别到前方的 STOP 标志，开始减速准备停车（Decelerating and preparing to stop）。
Step 30: 车辆在路口完全停止。关键点在于它正在观察（Observing）横穿马路的行人。这体现了模型对 Vulnerable Road Users (VRUs, 弱势道路使用者) 的交互能力。
Step 60: 行人通过后，车辆起步并执行右转，同时顺应道路的弯曲（Following the road curve）。
Step 90: 完成转弯后，车辆加速并绕过路边的停放车辆和障碍物。

下排：施工区域场景 (Construction Scenario)

这是一个典型的长尾（Long-tail）感知与规划场景：

Step 0: 面对非常规的道路几何形状（施工锥桶侵占车道），车辆向左打方向并加速，绕行（Navigating through）施工区域。
Step 30: 绕过障碍后，车辆减速并保持车道（Keeping lane），跟随前方的大卡车。
Step 60 & 90: 车辆持续稳定地跟随前车，保持安全距离（Maintaining a safe distance）

结论：

验证了“闭环”控制能力 (Proven Closed-Loop Capability)
1. 图中展示连续90个时间步（约9s）的完整过程，证明了 Alpamayo-R1 具备长期、稳定的控制能力
展示了处理“时序逻辑”的能力 (Temporal Reasoning)
1. 驾驶不是瞬间动作，而是一系列因果动作的组合。在上排场景中，模型成功执行了 减速 -> 停车 -> 等待行人 -> 起步 -> 转弯 这一整套复杂的时序逻辑。如果模型不懂因果推理（Reasoning），很容易在行人还没走完时就起步，或者在 STOP 标志前没有完全停止
展示了应对“长尾/感知困难”场景的能力 (Robustness in Long-tail)
1. 施工区域（下排）通常没有标准的车道线，且障碍物不规则。
2. 模型能够正确理解“锥桶”的语义，主动偏离车道中心去绕行，然后又迅速回归车道跟随前车。这证明了 Vision Encoder 和 Reasoning 模块在处理非结构化道路环境时的鲁棒性

未来展望

策略结构化 (Policy Structuring)：目前的模型使用基于流匹配（flow-matching）的轨迹解码器，未来计划探索分层策略架构。这种架构将高级元动作（meta-actions）分解为结构化的运动基元（motion primitives），旨在进一步提高模型的可解释性和效率。
按需推理 (Reasoning on Demand)：当前的架构会对每一个输入都生成推理过程（reasoning traces）。未来的工作将研究自适应机制，即仅在安全关键或模糊不清的场景下选择性地调用推理功能。这类似于测试时扩展（test-time scaling）的最新进展，目的是实现更高效的推理时计算分配。
辅助任务集成 (Auxiliary Task Integration)：目前主要关注轨迹预测和因果推理，未来计划整合互补的自监督目标，例如深度估计（depth estimation）、场景流预测（scene flow prediction）或 3D Gaussian Splatting 表示。这将有助于提升视觉主干网络的语义理解能力。
世界模型集成 (World Model Integration)：当前方法是直接从观测状态预测动作，未来计划引入学习到的世界模型（learned world models）。这将支持前向模拟（forward simulation）和反事实推理（counterfactual reasoning），从而提高模型在动态场景中的鲁棒性

Alpamayo-R1 学习笔记

背景