时间:2025-10-30
背景
Alpamayo-R1 是目前(2026年)自动驾驶领域中 System 2(慢思考/推理) 与 System 1(快直觉/感知) 结合的集大成者
- 痛点:目前的端到端(E2E)自动驾驶模型虽然在常规场景表现不错,但在长尾场景(如复杂的交互、罕见路况)中非常脆弱。主要原因是缺乏因果推理能力,单纯的模仿学习(Imitation Learning)只是拟合分布,不懂“为什么”。
- 现有方案的不足:之前的 VLM/VLA 自动驾驶工作(如 OpenDriveVLA, DriveGPT4)要么没有显式推理,要么推理是“自由格式”的(free-form),往往是一堆正确的废话(如“天气晴朗,所以...”),与实际驾驶决策(Action)没有强因果联系,甚至会出现“幻觉”。
目的:解决端到端自动驾驶在“长尾”场景(Long Tail)中表现脆弱的问题。
方案:通过结构化的因果推理链(CoC) 和 RL 后训练,强制模型学习“观察 -> 推理 -> 决策 -> 轨迹”的严格因果路径
核心贡献
- 提出并构建因果推理链(CoC)数据集
- 解决了以往自动驾驶数据只有“感知输入”和“控制输出”,缺乏中间“思维过程”的问题。
- 设计了模块化的 VLA 架构
- 解决了视觉语言模型(VLM)通常难以输出高精度、符合物理动力学的连续轨迹的问题
- 引入了基于 RL 的后训练策略
- 这是本文最大的亮点,解决了大模型常见的“幻觉”问题以及“说的”和“做的”不一致的问题
核心架构
整个数据流可以概括为:
- 眼睛看: 环视视频 -> SigLIP -> 压缩 ->
Visual Tokens - 大脑想:
Visual Tokens+Prompt-> Cosmos-Reason -> 输出 Reasoning Text (CoC) -> 输出 Discrete Action Tokens - 手脚做:
Discrete Action Tokens(作为条件) -> Flow Matching Expert -> 生成最终平滑轨迹
感知层:多模态编码器 (Multi-Modal Encoders)
将物理世界的原始信号(视频、车身状态)压缩成 LLM 能“消化”的 Token
- 视觉编码 (Vision Encoding)
- Backbone: 外挂了 SigLIP (Sigmoid Loss for Language Image Pre-training)。相比于早期的 CLIP,SigLIP 在多图处理上的边缘对齐能力更强。
- 状态编码 (Ego-Status Encoding)
- 将车辆自身的速度、加速度、方向盘转角等数值,通过 MLP 映射到与 LLM 相同的 Embedding 维度,作为 State Tokens 拼接到输入序列中
- 文本编码(Text Encoder)
- 包含用户指令(User Commands)与高层导航指令(Navigation)
- 是 Backbone 的一部分,而不是独立的感知模块
三个部分的信息全部转换为Embedding向量,拼接后传入 Cosmos-Reason 主干网络
推理层:VLM Backbone (Cosmos-Reason)
系统的“大脑”,负责处理信息、生成因果推理链(CoC),并做出高层的驾驶决策
基座模型: Cosmos-Reason
- 这是一个 NVIDIA 自研的、针对物理世界(Physical AI)预训练的模型。
- 关键特性: 它不是一个纯文本模型,而是在海量视频-文本对上训练过的,因此对物理规律(重力、碰撞、遮挡)有内嵌的理解。
- 标准的 Transformer Decoder-only 架构
- 采用了 GQA (Grouped Query Attention) 来加速推理
核心任务:
- Input:
[Visual Tokens, State Tokens, Text Instruction] - Output Phase 1: 生成文本形式的 Reasoning Trace(例如:“前方有行人横穿,且左侧车辆正在变道,因此我需要减速...”)。
- Output Phase 2: 生成离散的 Action Tokens(决策意图)。
执行层:混合动作解码器 (Hybrid Action Decoder)
采用 “离散决策 + 连续修正” 的双重表征设计,解决 LLM 无法输出平滑连续轨迹的问题
- 训练过程:离散分支 + 连续分支
- 推理过程:连续分支
- 离散分支 (Discrete Action Head)
- 作用: 粗粒度规划 (Coarse-level Planning)。
- 机制:
- 将连续的轨迹空间离散化为 1024 个 Cluster (类似于 VQ-VAE 的 Codebook)。
- VLM 像生成文本一样,自回归地预测出代表轨迹形状的 Token 序列。
- 目的: 让 Transformer 能够利用其擅长的概率预测能力,决定“大概怎么走”(比如:左转、急刹、缓行)
- 连续分支 (Flow Matching Action Expert)
- 作用: 细粒度精修 (Fine-grained Refinement)。
- 机制: Flow Matching (流匹配)。
- 这就好比是一个轻量级的 Diffusion Model,但速度更快。
- Input: 它接收两个输入:
- 从标准高斯分布采样的噪声
- Conditioning: 来自 VLM 输出的离散 Action Token 的 Embedding(即 VLM 的“意图”)。
- Process: 它通过求解常微分方程(ODE),将噪声“流”向目标轨迹分布。
- Output: 输出符合 单车动力学 (Unicycle Dynamics) 的连续轨迹点 (位置 + 航向角)。
Flow Matching 相比自回归形式的 Action Token,在驾驶表现、舒适度、解码速度上均有提升
在推理阶段仅使用Flow Matching进行动作解码,整体耗时压缩至99ms
为什么用 Flow Matching 而非 DDPM or DDIM?
- 传统的 Diffusion 生成步骤太多(50-100步),推理太慢。
- Flow Matching 使用 Straight Vector Fields (直线向量场),可以在极少的步数内(甚至 1 步)生成高质量轨迹,完美契合车载端的实时性要求
Vision Encoding & Tokenization Strategies
痛点:自动驾驶需要极高的视觉感知分辨率和多视角覆盖,但这会产生海量的 Visual Tokens,导致 LLM 推理极其缓慢甚至显存溢出
Single-Image Tokenization
基础范式:使用标准的 **Vision Encoder **独立处理每一个摄像头的每一帧图像
问题:Token 数量与“摄像头数量 图像分辨率”呈线性增长,自动驾驶通常有 6-10 个摄像头,如果简单拼接,每一帧就会产生数千个 Visual Token,导致无法实时推理
此为文章默认方法,如何缓解Visual Token过多的问题?
- 降低分辨率(例如降至 448280)
- 只看“关键帧”而非全量视频流,主要依赖当前时刻的多视角图像以及历史轨迹/状态数据
Chain of Causation (CoC) Dataset 构建
为解决以往自动驾驶 VLM 数据集中“推理模糊”和“因果倒置”的痛点,必须满足三个硬性标准:
- Decision-Grounded(基于决策):推理必须指向一个明确的驾驶动作(如“向左变道”),而不是模糊的“小心驾驶”
- Causally Linked(因果关联):解释必须基于历史观测(因),推导出随后的决策(果)
- No Causal Confusion(无因果混淆):严禁利用未来发生的事件来解释当前的决策(例如不能说“因为未来那辆车撞过来了,所以我现在减速”,只能根据当前的迹象推理)
为此,文章设计了一套结构化的数据定义,并开发了一套 混合标注流水线(结合人工和自动化)
Data Curation (数据筛选) - "When to label?"
仅筛选出包含 Explicit Driving Decision (明确驾驶决策) 的片段进行标注
- Reactive (反应式):车辆必须对环境做出反应(例如:前车减速、红灯、有行人切入)
- Proactive (主动式):车辆主动规划行为(例如:为了导航而准备变道、通过路口)
目的:
- 去除低信息量数据:避免大量的直行、无交互的垃圾数据,提高训练效率。
- 强化因果信号:只有在有明确决策的时刻,因果关系(为什么这么做)才最清晰。
Keyframe Labeling (关键帧定位) - "The Decision-Making Moment"
在筛选出的片段中,精确定位“推理时刻”。
- 具体操作:通常选择在车辆行为发生改变(如减速、转向)之前的 0.5秒。
Structured CoC Definition (结构化定义) - "What to label?"
Label Critical Components (关键组件 - 因)
- 动作:从历史视频(0-2s)中标注出影响决策的关键物体
- 目的:确保推理的依据是 Observable (可观测的),且仅包含决策相关的因素
Label Driving Decision (驾驶决策 - 果)
- 动作:从预定义的 Closed Set (闭集) 表格(Tab. 1)中选择一个动作。
- 目的:Decision Grounding (决策锚定)。消除自然语言的模糊性,让推理直接对应具体的控制意图
Compose CoC Trace (生成推理链)
- 动作:将 A 和 B 组合成通顺的自然语言。
- 目的:为模型提供可解释的文本监督信号。
Hybrid Labeling Procedure (混合标注流程)
为了平衡质量(Quality)和规模(Scale),文章采用了双管齐下的策略
Human Labeling (人工标注),约占10%
- 动作:设计了特殊的工具,强制标注员分两步走。第一步只能看历史视频标组件(0~2s,防止利用未来信息),第二步看完整视频标决策(0~8s)。
- 目的:生成高可信度的数据,用于监督微调 (SFT) 和模型评估。
Auto-Labeling (自动标注)
- 动作:
- 先用规则检测底层的 Meta Actions(原子动作,如“向左打方向”、“减速”),以此自动定位关键帧
2. 将视频、轨迹和原子动作喂给大模型(如 GPT-5),让 Teacher VLM 生成结构化的 CoC 推理
- 目的:Scale Up (规模化)。人工标注太贵太慢,自动标注可以快速生成 700k+ 的训练数据,让模型学习广泛的驾驶知识。
COC数据集评估流程
目的:为因果链数据集打分
评估现状:评估开放式文本(尤其是推理链)非常困难,传统的指标(如 BLEU、METEOR)只能衡量文本表面相似度,无法评估逻辑因果性
难点:
- 人工评估:准确但不可扩展(无法评估数十万条数据)
- 启发式指标 (BLEU/CIDEr):只看词汇重叠,不懂因果逻辑
- 直接 LLM 评分:容易产生幻觉(Hallucination),尤其是在评估复杂的多步因果链时
评估流程:
- 评估集构建 (Evaluation Set)
- 构建了一个包含 2,000 个样本的精选评估集。
- 样本覆盖了文中提到的各类代表性场景(如表 3 定义的反应式和主动式场景)
- 用于评估LLM评估器是否按照要求对数据集进行评估
- LLM 评估器 (LLM-Based Auto-Evaluation)
- 模型选择:使用 GPT-5 作为评估器(Evaluator)。
- 抗幻觉策略(关键创新):
- 作者避免直接让 LLM 打分或生成自由文本评价。
- 结构化分解:将评估任务拆解为三个具体的 True/False (是/否) 问题:
- 驾驶决策 (Driving Decision):决策类别是否识别正确?
- 因果因子 (Causal Factors):是否提到了关键的环境组件?
- 因果关系 (Cause-and-Effect):因和果之间的逻辑链接是否有效?
- 优势:这种“判断题”的形式比“作文题”更具可解释性,也更能与人类的判断对齐。
经对比,LLM评估器在精选评估集上与人类专家的一致率达92%。文章也说明,并非100%一致率就是最好的,因为复杂驾驶场景中因果推理本身存在固有的模糊性,以及数据中不可避免的噪声。
训练流程
基础模型准备 (Cosmos-Reason:For Physical AI)
- 输入数据:通用推理数据 (General reasoning data)。
- 目的:获取通用的物理世界知识 (Knowing general world knowledge)
- 采用 Cosmos-Reason 作为骨干网络。这是一个针对物理 AI(Physical AI)预训练过的视觉语言模型,它已经具备了基本的物理常识(比如重力、碰撞概念)和通用的视觉理解能力
训练流程:
- 大规模后训练:在通用VLM模型的基础上
- 在3.7M个视觉问答 (VQA) 样本上进行了后训练 (post-training),以培养物理常识和具身推理能力
- 预训练数据中包含 24.7K 个专门针对驾驶场景的精选视频 VQA 样本。这些样本不仅包含场景描述和驾驶难度标注,还包含了通过 DeepSeek-R1 蒸馏出的、用于预测下一步行动的推理轨迹 (reasoning traces)
- 领域特定的监督微调 (Domain-Specific SFT)
- 跨域知识迁移:整理了涵盖多个“物理 AI”领域的补充数据集,包括自动驾驶、机器人、医疗保健、智慧城市、制造、零售和物流 。这种广泛的训练旨在让模型获得通用的物理常识,从而能更好地迁移到驾驶场景中
- 驾驶数据增强:专门为自动驾驶增加了 100K 个新样本。这些样本包含对环境关键对象(Critical Objects)的标注以及对下一步行动的推理
物理能力衡量:
LingoQA是一个专门针对 自动驾驶场景 的 视觉问答(Visual Question Answering, VQA) 基准测试集。
- 核心任务:它给模型看驾驶视角的视频或图像,然后问各种与驾驶相关的问题(例如:“前车在干什么?”“现在变道安全吗?”“路边的标志是什么意思?”)
- 本质:它是一个衡量模型 “驾驶场景理解能力” (Scene Understanding) 的考卷
在零样本情况下,Cosmos-Reason-7B 对驾驶场景理解能力超过其他 VLM
动作模态注入 (Action Modality Injection)
输入数据:纯驾驶轨迹数据 (Driving data)
目的:学会如何“开车” (Solving nominal scenarios)。 让原本只会生成文本的 VLM 能够输出车辆控制信号
核心机制:
- 离散 Token 训练:将连续的轨迹(加速度、曲率)量化为 离散的 Token(每个轨迹 128 个 Token)。这样模型就可以像生成文本一样,“自回归”地预测驾驶动作。
- 双重表示策略 (Dual Representation):
- 训练时:使用离散 Token,方便与推理文本一起进行联合训练。
- 推理时:引入了一个 Action Expert (动作专家),使用 Flow Matching (流匹配) 技术将 Token 解码为连续、平滑、符合动力学的轨迹。这是实现 99ms 实时推理 的关键。
结果:在这个阶段结束时,模型变成了一个会开车的 VLA(视觉-语言-动作模型),但它还只会通过模仿来开车,不懂得解释原因
推理能力冷启动 (Eliciting Reasoning)
输入数据:推理轨迹数据 (Reasoning traces)。这里用到的就是 Sec 4 构建的 Chain of Causation (CoC) 数据集。
目的:学会“思考” (Eliciting reasoning capability)。 激发模型的推理能力,让它在做出动作前生成因果解释。
核心机制:
- SFT (监督微调):利用 CoC 数据集中的
<图像, 推理文本, 动作>三元组进行微调。 - 模型学习的序列变成了:
[图像输入] -> [推理思考:因为前方有红灯...] -> [动作:减速停止]。
效果展示:
在左图中展示了一个场景,右图对比了两种模式的表现:
- Video -> Traj
- 仅经过 Action Modality Injection 的模型。它直接从视频像素映射到轨迹,没有显式的推理过程
- 表现:Violates traffic rules(违反交规)。模型生成的轨迹(绿色线条)显示它打算直接冲过路口,完全没有减速或停车的迹象
- 原因:纯粹的模仿学习(Imitation Learning)可能在长尾场景下失效。模型可能只关注到了“前方道路空旷”,而忽略了“STOP 标志”和“侧向来车”的语义含义
- Video -> CoC -> Traj
- 经过 SFT 训练后,它引入了中间步骤 CoC(因果链)。
- 生成的推理 (Generated Chain of Causation):模型不仅输出了轨迹,还输出了一段推理
- 表现:正确且安全。轨迹图显示,车辆先减速(蓝色点),在路口前完全停止,等待,然后再加速通过(绿色点)
局限性:虽然让模型学会了说话,但存在 “幻觉” 和 “不一致” 的问题。比如模型可能会说“我要减速”,但实际生成的轨迹却是加速。这就需要下一个阶段来解决。
弱视觉定位 (Weak Visual Grounding):SFT 模型倾向于“背书”或“瞎编”。它可能生成通顺的句子,但内容与画面不符(幻觉)。它可能忽略画面中关键的障碍物,或者凭空捏造不存在的交通信号
左图:
- 对画面中明显的红色施工锥桶视而不见
右图:
- 幻觉出了不存在或不相关的“红绿灯”
- 陷入了死板的“礼让”模式,没有意识到行人已经快走完了,导致车辆在路口死等,影响通行效率
推理-动作不一致(Reasoning-action inconsistency):SFT 模型是通过模仿学习训练的。它可能学会了像专家一样“说话”(生成正确的推理文本),也学会了像专家一样“开车”(生成轨迹)。但这两者在大脑中是割裂的。模型可能会嘴上说“我要直行”,手却打方向盘“转弯”,因为它没有受到惩罚
图中对比了 SFT 基座模型(Base model,灰色) 和 RL 后训练模型(Post-trained model,绿色) 在两个场景下的表现
左图:停止后起步场景(Stop & Go)
- 场景逻辑:夜间遇到 STOP 标志。正确的逻辑是:减速 -> 停止 -> 观察安全 -> 加速通过。
- SFT 模型 (灰色 - 失败):
- 推理 (言):模型生成的文字正确地说出了 "...then accelerating straight through..."(然后加速通过)。
- 动作 (行):看 t=4s 和 t=6s 的灰色方块,车辆在停止后一直停在原地,没有恢复移动。
- 问题:这是典型的 “言行不一”。模型知道该走,但轨迹解码器没有执行这个指令
- Post-trained 模型 (绿色 - 成功):
- 动作:看 的绿色方块,车辆已经通过了路口。
- 改进:RL 训练中的 Consistency Reward 奖励了那些“推理说走,动作就走”的样本,惩罚了“只说不练”的样本。
右图:跟车保持车道场景 (Lane Keeping)
- 场景逻辑:在高速公路上跟随前车(红车)。正确的逻辑是:保持车道 (Keep Lane) 并跟随。
- SFT 模型 (灰色 - 失败):
- 推理 (言):模型文字说的是 "...and keeping lane..."(保持车道)。
- 动作 (行):看灰色虚线轨迹,车辆明显向右漂移,跨越了车道线(changed the lane)。
- 问题:推理说“不换道”,动作却“换道了”。这在高速行驶中极度危险。
- Post-trained 模型 (绿色 - 成功):
- 动作:看绿色实线轨迹,车辆稳稳地保持在当前车道中心。
- 改进:模型学会了将“keeping lane”这个语义概念精确地映射到几何空间的约束上。
基于 RL 的后训练 (RL-Based Post-Training)
输入数据:云端的强化学习反馈 (RL)
目的:**对齐与提升。**进一步提升推理质量并确保推理与动作一致性
核心机制:使用 GRPO (Group Relative Policy Optimization) 算法进行强化学习。
奖励模型 (Reward Model): 为了指导 RL,设计了三个关键的奖励信号:
- 推理质量 (Reasoning Quality):Teacher model feedback
- 用一个更大的推理模型(Teacher Model / LRM)作为“判卷老师”,给模型生成的推理文本打分。如果逻辑不通,给低分。
- 推理与行为一致性 (Reasoning-Action Consistency):图中聚合部分
- CoC-Action Consistency。检查模型说的(推理)和做的(轨迹)是否一致。如果嘴上说“让行”,身体却“抢行”,就会受到惩罚。
- 轨迹质量 (Low-level Trajectory Quality):Verifiable rewards
- 物理层面的奖励,比如是否发生碰撞、是否急刹车(Jerk)。
实验部分
概念澄清:
- 开环测试(Open-Loop Evaluation):“看录像预测”
- 从收集好的历史数据集中拿出一段视频
- 把视频喂给模型,让模型预测“接下来该怎么走”
- 把模型的预测结果(Predicted Trajectory)与当时人类司机实际开出的轨迹(Ground Truth)进行对比,计算误差(如 minADE)
- 闭环测试 (Closed-Loop Evaluation):“实战模拟”
- 把模型放入一个仿真器(如本文使用的 AlpaSim)。
- 模型根据当前画面做出决策(如向左转)。
- 仿真器会根据这个决策更新下一帧的画面(车真的向左转了,视野变了)。
- 如果模型决策错误(如撞墙),仿真就会真的发生碰撞,测试结束
ADE 和 minADE 是用来衡量轨迹预测准确度的两个核心指标
ADE (Average Displacement Error) - 平均位移误差
- 定义:计算的是一条预测轨迹与真实轨迹(Ground Truth)在所有未来时间步(Time Steps)上的平均欧式距离
- 计算逻辑: 假设预测未来 6.4 秒,每 0.1 秒一个点(共 64 个点)。ADE 就是把这 64 个点与真实轨迹对应点的距离加起来,除以 64
- 特点: 它衡量的是单一预测的平均准确度。
minADE (Minimum Average Displacement Error) - 最小平均位移误差
- 背景:Alpamayo-R1 是一个生成式模型,针对同一个场景,它会生成 多条 可能的未来轨迹(文中设定为 6条,即 K=6 samples),分别代表不同的驾驶意图(例如:一条是直行,一条是左转,一条是减速停车等)。这被称为“多模态预测”(Multi-modality)。
- 定义:minADE 是指在模型生成的 6条预测轨迹 中,挑选出那条与真实轨迹最接近(ADE 最小) 的轨迹,用它的 ADE 值作为最终得分。
开环测试中,引入COC推理后,不管是常规场景还是挑战性场景,相比仅输出轨迹的基线模型和带有元动作的模型,Alpamayo-R1更能做出正确驾驶决策
挑战性场景:直观上更需要复杂推理的场景
在AlpaSim 闭环模拟器中,针对75 个极具挑战性的场景(精心挑选的高密度交互场景,如复杂的十字路口、施工区域、行人穿行等)进行测试。
难度加码:Without Route Information。模型没有被告知“向左转”或“向右转”的导航指令,它必须完全依靠场景理解(例如看到障碍物绕行,看到红灯停下)来决定怎么开
Baseline:Trajectory-only model,在 CoC 数据上微调过,但它不生成推理文本,只输出轨迹。这代表了“没有思考,只有直觉”的驾驶方式
- Close Encounter Rate - All (所有险情)
- Close Encounter Rate - At-fault (主责险情)
- Off-Road Rate (冲出道路率)
- AlpaSim Score:综合指标,计算的是两次故障事件(险情或冲出道路)之间的平均行驶距离(km)
这张图展示了在闭环测试中,两个不同的驾驶场景随时间步(Step 0 -> Step 90)的演变过程。是对Table 8的“视频化”证据
每一列代表一个时间点,包含了 BEV 鸟瞰图(上方)和 前视相机视角(下方),以及对车辆行为的文字描述。
上排:路口交互场景 (Intersection Scenario)
这是一个经典但复杂的非保护右转场景,涉及多步决策:
- Step 0: 车辆识别到前方的 STOP 标志,开始减速准备停车(Decelerating and preparing to stop)。
- Step 30: 车辆在路口完全停止。关键点在于它正在观察(Observing) 横穿马路的行人。这体现了模型对 Vulnerable Road Users (VRUs, 弱势道路使用者) 的交互能力。
- Step 60: 行人通过后,车辆起步并执行右转,同时顺应道路的弯曲(Following the road curve)。
- Step 90: 完成转弯后,车辆加速并绕过路边的停放车辆和障碍物。
下排:施工区域场景 (Construction Scenario)
这是一个典型的长尾(Long-tail)感知与规划场景:
- Step 0: 面对非常规的道路几何形状(施工锥桶侵占车道),车辆向左打方向并加速,绕行(Navigating through) 施工区域。
- Step 30: 绕过障碍后,车辆减速并保持车道(Keeping lane),跟随前方的大卡车。
- Step 60 & 90: 车辆持续稳定地跟随前车,保持安全距离(Maintaining a safe distance)
结论:
- 验证了“闭环”控制能力 (Proven Closed-Loop Capability)
- 图中展示连续90个时间步(约9s)的完整过程,证明了 Alpamayo-R1 具备长期、稳定的控制能力
- 展示了处理“时序逻辑”的能力 (Temporal Reasoning)
- 驾驶不是瞬间动作,而是一系列因果动作的组合。在上排场景中,模型成功执行了
减速 -> 停车 -> 等待行人 -> 起步 -> 转弯这一整套复杂的时序逻辑。如果模型不懂因果推理(Reasoning),很容易在行人还没走完时就起步,或者在 STOP 标志前没有完全停止
- 驾驶不是瞬间动作,而是一系列因果动作的组合。在上排场景中,模型成功执行了
- 展示了应对“长尾/感知困难”场景的能力 (Robustness in Long-tail)
- 施工区域(下排)通常没有标准的车道线,且障碍物不规则。
- 模型能够正确理解“锥桶”的语义,主动偏离车道中心去绕行,然后又迅速回归车道跟随前车。这证明了 Vision Encoder 和 Reasoning 模块在处理非结构化道路环境时的鲁棒性
未来展望
- 策略结构化 (Policy Structuring): 目前的模型使用基于流匹配(flow-matching)的轨迹解码器,未来计划探索分层策略架构。这种架构将高级元动作(meta-actions)分解为结构化的运动基元(motion primitives),旨在进一步提高模型的可解释性和效率 。
- 按需推理 (Reasoning on Demand): 当前的架构会对每一个输入都生成推理过程(reasoning traces) 。未来的工作将研究自适应机制,即仅在安全关键或模糊不清的场景下选择性地调用推理功能 。这类似于测试时扩展(test-time scaling)的最新进展,目的是实现更高效的推理时计算分配 。
- 辅助任务集成 (Auxiliary Task Integration): 目前主要关注轨迹预测和因果推理,未来计划整合互补的自监督目标,例如深度估计(depth estimation)、场景流预测(scene flow prediction)或 3D Gaussian Splatting 表示 。这将有助于提升视觉主干网络的语义理解能力 。
- 世界模型集成 (World Model Integration): 当前方法是直接从观测状态预测动作,未来计划引入学习到的世界模型(learned world models)。这将支持前向模拟(forward simulation)和反事实推理(counterfactual reasoning),从而提高模型在动态场景中的鲁棒性