Cosmos-Reason1:从物理常识到具身推理--读论文报告
论文地址: arxiv.org/pdf/2503.15…
一、研究背景与核心目标
在人工智能领域,物理 AI 系统需要在真实物理世界中感知、理解并执行复杂动作。然而,当前大语言模型(LLMs)在物理世界接地能力上存在显著局限,尽管它们在文本数据上训练后能获得关于物理世界的知识,但难以将这些知识与真实世界的交互和动态建立联系。
本研究的核心目标是开发Cosmos-Reason1 模型,这是一种多模态大语言模型,能够理解物理世界并通过长链式思维推理过程以自然语言生成适当的具身决策(如下一步动作)。研究聚焦于两大关键能力:物理常识推理和具身推理,并通过构建专门的本体、训练框架和评估基准来实现这一目标。
二、物理 AI 推理的本体构建
(一)物理常识推理本体
研究提出了一个分层本体,将物理常识组织为三大类及 16 个细分子类别:
-
空间(Space) :涵盖物体关系、合理性、可供性和环境理解。
- 关系(Relationship) :判断场景中物体的空间位置(如相对于人的左右或相机视角)。
- 合理性(Plausibility) :评估空间关系的可行性。
- 可供性(Affordance) :理解物体与主体(人类、动物、机器人等)的交互可能。
- 环境(Environment) :理解场景或周围环境特征。
-
时间(Time) :涉及动作、顺序、因果、相机和规划。
- 动作(Actions) :描述动作特征、分解任务目标并判断任务完成状态。
- 顺序(Order) :理解事件的时间戳和先后顺序。
- 因果(Causality) :判断事件 A 是否导致事件 B。
- 相机(Camera) :确定相机的位置和运动。
- 规划(Planning) :基于过去观察制定未来计划。
-
基础物理(Fundamental Physics) :包括属性、状态、物体恒存性、力学、电磁学、热力学和反物理现象。
- 属性(Attributes) :确定物体的物理属性(如大小、质量、温度)。
- 状态(States) :理解物体状态及变化(如冰融化、鸡蛋煮熟)。
- 物体恒存性(Object Permanence) :理解物体在遮挡或环境变化下的属性保持。
- 力学(Mechanics) :涵盖静力学、运动学和动力学原理。
- 电磁学(Electromagnetism) :包括光学、电学和磁学现象。
- 热力学(Thermodynamics) :涉及热量、温度变化和热传递。
- 反物理(Anti-Physics) :识别违反物理定律的情况(如反重力、时间倒流)。
(二)具身推理本体
具身推理本体采用二维框架,整合了四大推理能力和五类具身主体:
-
能力维度:
- 处理复杂感官输入(Process Complex Sensory Inputs) :从原始、不完整的感官数据中提取模式。
- 预测动作效果(Predict Action Effects) :理解动作的物理后果(如物体受力反应、机器人与环境交互)。
- 遵守物理约束(Respect Physical Constraints) :考虑惯性、摩擦等物理限制,生成可行的长视距动作规划。
- 从交互中学习(Learn from Interactions) :基于环境反馈动态更新行为(作为未来工作)。
-
主体类型:
- 自然主体(Natural Agents) :人类、动物(如木匠预测木材劈裂、狗预判球的落点)。
- 机器人系统(Robotics Systems) :机械臂、人形机器人、自动驾驶车辆(如机械臂补偿抓取动量、汽车预测冰面打滑)。
三、模型架构与训练策略
(一)多模态架构设计
Cosmos-Reason1 包含两种模型规模:
-
Cosmos-Reason1-7B:基于 Qwen2.5-VL,采用解码器架构,包含视觉编码器、投影仪和 LLM 主干。
-
Cosmos-Reason1-56B:结合 InternViT-300M-V2.5 视觉编码器和 Nemotron-H LLM 主干,采用Mamba-MLP-Transformer 混合架构,融合线性时间序列建模(Mamba)和 Transformer 长上下文能力,解决传统 Transformer 自注意力机制的二次时间复杂度问题。
输入处理流程:
- 视频均匀采样至多 32 帧,每帧调整为 448×448 像素。
- 视觉编码器生成 1,024 维视觉 tokens,通过 PixelShuffle 下采样至 256 tokens。
- 多帧视频 tokens 直接拼接,多图 tiles tokens 与 tile ID 标签串联。
(二)两阶段训练框架
-
物理 AI 监督微调(SFT) :
-
使用约 400 万视频 - 文本对,包括字幕、多选题和长链式思维轨迹。
-
数据构建:
- 物理常识数据:通过人类标注和 DeepSeek-R1 模型蒸馏生成 VQA 数据集。
- 具身推理数据:从 BridgeData V2、RoboVQA 等公开数据集提取短视距推理片段,涵盖人类、机械臂、人形机器人和自动驾驶场景。
- 直观物理数据:通过空间拼图(打乱时空视频块)、时间箭头(判断视频正放 / 倒放)和物体恒存性(物理模拟)任务增强基础推理能力。
-
-
物理 AI 强化学习(RL) :
-
采用 GRPO 算法,基于规则的可验证奖励(多选题正确性)优化模型。
-
奖励设计:
- 准确性奖励:匹配模型响应与 ground truth(字符串匹配)。
- 格式奖励:强制思维过程和答案分别封装在指定标签中(正则表达式匹配)。
-
训练框架:全异步、高鲁棒性的 RL 框架,支持 5D 并行(数据、流水线、上下文、全分片、张量并行),训练效率较同地框架提升 160%,并具备动态故障恢复能力。
-
四、评估基准与实验结果
(一)基准构建
-
物理常识基准:
- 604 个问题,源自 426 个视频,覆盖空间(13.25%)、时间(49.33%)和基础物理(37.4%)。
- 包含二进制(336 题)和多选题(268 题),需多步推理才能正确回答。
-
具身推理基准:
-
610 个问题,源自 600 个视频,涵盖机械臂、人形机器人、自动驾驶等场景的三大任务:
- 任务完成验证:判断任务 / 子任务是否成功完成。
- 动作可供性评估:评估特定动作实现目标的可能性。
- 下一个合理动作预测:预测实现目标的下一动作。
-
(二)关键实验结果
-
SFT 阶段性能:
- 物理常识:Cosmos-Reason1-56B 平均准确率 60.2%,超越 OpenAI o1(59.9%);7B 模型较 Qwen2.5-VL 提升 6.9%。
- 具身推理:7B 和 56B 模型分别比基础 VLM 提升 11.0% 和 10.2%,在 BridgeData V2 和 RoboVQA 等场景中表现显著优于 GPT-4o、Gemini 等模型。
-
RL 阶段性能:
- 物理常识和具身推理准确率进一步提升约 5%。
- 直观物理任务:7B 模型通过 RL 后,时间箭头、空间拼图、物体恒存性任务的平均准确率达 81.5%,较 SFT 阶段提升 7%,显著优于随机猜测和其他 VLMs。
-
典型案例分析:
- 时间箭头推理:RL 后模型能识别反物理运动(如粉末违反重力上升),不受静态干扰物影响。
- 空间拼图:RL 前模型依赖时间顺序,RL 后能提取关键特征并系统比较多帧,准确判断空间关系。
- 物体恒存性:RL 后模型可直接推断物体消失是否因遮挡或违反物理定律,推理过程更简洁准确。
五、开源贡献与未来方向
(一)开源资源
代码和预训练模型通过 NVIDIA 开放模型许可证发布,地址:github.com/nvidia-cosm…,推动物理 AI 领域研究进展。
(二)未来研究方向
- 深化具身推理能力:强化 “从交互中学习” 的能力,实现动态环境下的持续优化。
- 长视距动作规划:优化复杂物理约束下的多步动作规划,提升决策的连贯性和可行性。
- 场景扩展:将模型应用于更多物理主体(如无人机、水下机器人)和真实世界场景(如家庭服务、工业自动化)。
- 评估体系完善:量化思维轨迹质量,构建更全面的物理 AI 推理评估框架。
六、研究价值与创新点
- 本体定义:首次提出系统的物理常识和具身推理本体,为物理 AI 研究提供统一框架。
- 模型架构:开发混合 Mamba-Transformer 架构,提升长序列物理推理效率。
- 训练范式:两阶段训练(SFT+RL)结合规则化奖励,显著提升物理推理能力。
- 数据与基准:构建大规模物理 AI 数据集和评估基准,填补领域空白。