添加图片注释,不超过 140 字(可选)
🔥 开源代码已放出:github.com/nvidia/cosm…
🔥Huggingface 模型地址:huggingface.co/collections…
一个残酷的现实:训练一个能在现实世界干活的机器人,可能比训练一个能写诗的AI难上十倍。因为机器人需要的不是单一技能,而是一整套“理解世界、预测未来、执行动作”的耦合能力。许多团队不得不把视觉理解、视频预测、动作规划等模型拼接起来,来回倒腾,既昂贵又低效。但今天我们要深挖的技术报告,给出了一个彻底颠覆这种碎片化范式的答案——用一个单一模型吃掉所有模态、同时完成理解与生成,而且效果还全面领先。准备好,这篇文章将带你进入全模态世界模型的内心地。
核心痛点:为什么你需要关心Cosmos 3?
现在的物理AI训练就像用一堆各自为政的工具装一台精密仪器:先用VLM看懂场景,再用视频生成器做规划,接着让专用策略模型输出动作,还要靠前向动力学模型评估后果。这种拼凑管线不仅浪费算力,不同模型之间的表征鸿沟更是创新杀手。你有没有想过,如果把这些能力都喂给一个统一的模型,会擦出怎样的火花?
Cosmos 3——一个全模态世界模型家族——正是这个想法的大胆实践。它在一个混合Transformer架构中同时处理语言、图像、视频、音频和动作序列,支持“自回归+扩散”双生成模式。理解、生成、预测、规划,全部承载于同一个框架,无需任何架构修改。早期结果已经验证了它的威力:在文本到图像和图像到视频榜单上被评为开源最佳,机器人策略也在RoboArena登顶。那么,这个通用主干网路的底层黑科技是什么?我们一层一层剥开。
原理拆解:统一架构如何支撑理解与生成双全
🏗️ 整体框架:多模态统一主干
Cosmos 3的设计核心可概括为一句话:用一个共享的Transformer解码器同时处理自回归推理与扩散生成。这听起来很像那些“统一大模型”的口号,但它的实现远不是简单拼接。
图1
图:Cosmos 3 作为统一多模态世界模型,联合建模语言、图像、视频、音频和动作,支持六大核心任务,展示出极致的通用性。
如图1所示,Cosmos 3可以无缝切换角色:作为视觉语言模型回答复杂问题;作为文生图/视频生成器创作高保真视觉内容;也可以充当世界‑动作模型,既预测未来帧又推理该采取什么动作。这种灵活性来自一个巧妙的token组织方式——所有输入先被拆分到两条逻辑通道:一条走“推理器”(Reasoner),另一条走“生成器”(Generator)。
💡 双塔层结构:因果推理与全注意力生成共存
对于自回归子序列,模型沿用标准的因果自注意力,保证语言和ViT视觉token的自回归预测质量。而对于扩散子序列,模型则采用双向注意力,允许每个扩散token看到所有条件和待生成token。双流联合注意力机制是灵魂:扩散token可以自由关注推理器的输出(比如文本描述),但反过来不会污染因果流。
图5
图:Mixture-of-Transformers (MoT)架构核心——双塔层结构联合自回归与扩散生成,通过共享多模态注意力实现模态交互。
从图5可以直观看到,每一层Transformer内部都分裂成两套参数(各自LayerNorm、注意力投影和FFN),但扩散侧的Q/K/V能直接与AR侧的K/V交互。两套塔共享一个初始化权重(来自VLM预训练),既能保留强大的语言推理能力,又能从头学习高保真生成,实现知识的双向迁移。
🎯 动作编码:让异构机器人说同一种“动作语言”
想让Cosmos 3真正操控物理世界,必须解决一个棘手难题:不同机器人本体的控制空间千差万别——自动驾驶输出方向盘角度,机械臂需要末端位姿,人形机器人则是一堆关节轨迹。如何统一?
Cosmos 3提出了一套精巧的“统一动作表示”(Unified Action Representation)。它把所有本体动作分解成四种基础组件:Ego Pose(自身姿态)、Effector Pose(末端执行器姿态)、Grasp State(抓取状态,五根手指的三维位置或夹爪开度)。任何具身智能体,无论是单臂、双臂还是人形机器人,其动作向量都能由这些组件组合而成,维度从9D到57D不等(图3)。
图3
图:统一动作表示将异构控制空间映射到紧凑语义向量,实现跨机器人本体的策略共享与通用学习。
在模型内部,每个领域配有一个独立的输入/输出投影层(使用式1‑2),将特定本体的动作向量映射到共享的潜在动作token,再交给MoT主干。这使得模型可以同时阅读不同机器人的数据,真正实现跨形态的协同学习。这背后的直觉是:虽然控制接口不同,但“抓住一个杯子”这种底层语义是通用的,共享表征理应能捕获它。
🌐 多模态位置编码:让视频、音频、动作沿同一时间轴起舞
多模态token的时序对齐是另一大难题。Cosmos 3采用了改进的3D多模态旋转位置编码(3D MRoPE),在传统时空坐标基础上加入了绝对时间调制。视频token在t、h、w三个维度变化,音频和动作token仅使用时间坐标。更巧妙的是,它通过模态偏移来隔离不同模态的时间范围,并能自适应不同帧率——无论视频是24、30还是60 FPS,经过FPS调制后都会映射到统一的时间尺度,保证长时一致性。
图6
图:3D MRoPE的坐标分配策略和FPS调制机制,解决多模态token的时空对齐与帧率自适应。
这一设计让Cosmos 3在生成长视频时能维持稳定的物理动态,后面实验中FPS控制消融(表29)也证实,文本控制+MRoPE FPS调制组合能获得最高的运动保真度,同时不损伤视频质量。
🔄 训练范式:预训练 + 中期训练 + 后训练的课程学习
Cosmos 3的训练分为三段。预训练阶段用海量图文、视频数据(包括大量合成数据)分别训练推理器和生成器;中期训练阶段引入动作和新模态(如音频),实现多模态混合训练;后训练阶段则针对特定任务(文本到图像、图像到视频、机器人策略)做专业化微调。
这里有一个非常工程化的核心洞察:中期训练初始化(MT‑init)远比预训练初始化(PT‑init)有效。表格18的跨领域前向/逆动力学结果表明,MT‑init在自动驾驶、相机运动、机器人操作等所有测试上全面碾压PT‑init,在机器人前向动力学中PSNR最高可达35.03 dB。这说明先进行多任务的中期训练,能让共享表征吸收更复杂的动态和时间先验,大幅提升下游适应速度。
实验验证:数据说话,全面领先
Cosmos 3的评估图谱极其庞大,涵盖推理理解的几十个基准和视频、图像、音频生成。我们挑选最有代表性的结果,看看这个统一模型有多能打。
🏆 综合能力一览
首先看整体SOTA对比表。
表1
表:Cosmos 3与一众开源/闭源基线模型在多维度上的能力对比,覆盖推理(通用、机器人、智能基础设施、驾驶)与生成(T2I、T2V、I2V、音频、FD、策略)。
从表1可以看出,Cosmos 3在General推理、Robotics、Driving、Text2Image、Text2Video、Image2Video、Audio、FD Robot、Policy Robot全部能力上持续优于专门的开源基线模型。这意味着它不但没有“多而不精”的弊病,反而靠着多模态联合训练获得了正向迁移。
🧠 Reasoner:多模态理解新高度
在覆盖通用、机器人、基础设施、驾驶的四大类基准中,Cosmos 3 Super的平均得分分别为73.7、57.8、62.6、79.3,全面领先Qwen3-VL、Gemma-4等强基线(表10)。特别在驾驶推理上,达到79.3分,比专门的自动驾驶模型更强。
这种优势得益于共享主干中注入的大量合成驾驶数据和动作先验。换句话说,它不只是“看过”驾驶视频,而是“理解”了车轮转角与未来路径之间的物理关系。
🎨 生成器:文本到图像/视频双料王者
在Artificial Analysis的文本到图像排行榜上,Cosmos3‑Super‑Text2Image以ELO评分在开源模型中位列第一,所有模型中排第四(图18)。在UniGenBench等专业测试中,它拿下了91.36%的总分,字符级渲染准确率(GNED 80.88)甚至超过Gemini 3 Pro Image(表11)。
视频生成方面同样强势。在PAIBench‑G基准上,Cosmos3‑Super的T2V总分达到80.0,I2V总分82.8,均为开源最佳;而在更严格的物理推理测试Physics‑IQ中,I2V+BoN达到48.9分,V2V+BoN达到63.4分,均大幅刷新记录(表13)。换言之,Cosmos 3生成的视频不仅看着真实,还能更准确地模拟物理规律。
下面这个示例可以直观感受生成质量:复杂驾驶场景中,模型从HD地图控制信号(包含车道线、交通灯、车辆立方体)生成了高度丰富、时空一致的驾驶视频帧(图21)。
图21
图:Cosmos3‑Nano根据HD地图控制信号生成的驾驶场景视频,准确再现道路拓扑和交通参与者。
🤖 机器人策略与动力学生成
机器人控制的评测也许最具说服力。在RoboArena真实世界策略排行榜上,Cosmos3‑Nano‑Policy以1870分位列第一(图26)。在RoboLab操作基准中,它进一步建立了新的SOTA,整体成功率、简单和中等难度任务均大幅领先π₀.₅、DreamZero等方法(表19)。
前向动力学视频生成的定性对比同样亮眼。在布料操作场景中,基线模型Ctrl‑World出现了明显的失真和伪影,而Cosmos3‑Nano紧密遵循手臂运动,生成逼真的布料交互(图3.4)。
添加图片注释,不超过 140 字(可选)
图:机器人布料操作前向动力学对比,Cosmos3‑Nano生成帧更真实,避免伪影。
不仅如此,联合训练前向动力学、逆动力学和策略(动作模式协同)还能带来额外收益。消融实验显示,联合训练的ID MSE降低了72%,策略覆盖率提升3.2个百分点(表31),而视频‑动作一致性也得到了验证——预测的视频帧与模拟器真实滚动高度吻合,PSNR达到23.19 dB。
🔬 消融实验:几项关键发现
- 推理器初始化:将Cosmos3 Reasoner作为生成器的理解塔初始化,相比Qwen3‑VL,在Physical AI相关领域的得分提升显著,比如机器人域在T2V上从66.5涨到71.3(表28)。
- 音频预训练:在预训练阶段加入音频数据,反而能小幅度提升纯视频生成的质量(T2V Overall从78.6→79.1),表明多模态训练产生了正向的知识迁移(表30)。
- 合成数据(SDG):混合多个SDG数据源(DriveSim、RobotSim、SynHuman等)能带来均衡且全面的性能提升(表26),不过人类相关的生成仍受限于仿真到真实的差距。
- FPS控制:MRoPE调制+文本控制联合方案在保持高质量的同时,更好地遵循目标帧率的运动幅度(表29)。
观察与未来展望
Cosmos 3给出的核心启示是:物理AI的未来,在于理解和生成的一体化。当模型不再将感知与行动割裂,而是通过统一的表征流去学习世界的动态,知识迁移和样本效率会得到质的飞跃。
不过,这项技术也面临显而易见的挑战。首先是计算开销,Super模型在GB200上训练吞吐量虽高,但MFU仅0.30,依然有相当提升空间。其次,人类相关生成的合成数据gap仍待弥合。最后,如何将这种超大模型高效部署到边缘设备,还需要更好的推理优化,目前vLLM‑Omni虽然比PyTorch‑OSS降低了不少延迟,但在高分辨率下批处理收益有限(表9)。
但方向清晰无比:用一个全模态世界模型统治物理AI。这对于任何在机器人、自动驾驶、多模态AI从业者来说,都是必须紧紧跟住的技术浪潮。
🤔 深度思考:你认为统一的全模态世界模型会在什么时候进入机器人量产应用?最可能率先落地的场景是自动驾驶、家庭服务还是工业制造?欢迎在评论区留下你的判断,我们一起碰撞火花! 💝 支持原创:如果这篇硬核拆解让你对物理AI有了全新认知,点个赞和收藏就是最好的支持!分享给身边的AI技术伙伴,让更多人看到这项变革!
#AI技术 #多模态模型 #世界模型 #机器人 #自动驾驶 #论文解读 #Cosmos3
参考
Cosmos 3: Omnimodal World Models for Physical AI