盘古世界模型深度解读:当STCG遇见4D空间,华为如何用"物理引擎+数据驱动"重构自动驾驶仿真范式
华为HDC 2025技术揭秘
从"理解世界"到"生成世界":盘古世界模型的升维逻辑
在HDC 2025的舞台上,华为博士天团首次系统阐述了盘古世界模型的技术哲学。与业界普遍将大模型定位为"世界理解器"不同,华为认为,真正的世界模型必须同时具备理解、生成与预测三重能力——只有预测未来世界,才能辅助决策与行为交互,从而在物理世界与虚拟世界之间建立真正的桥梁。
> "之前大家对大模型的研究较偏重于理解这个世界,但我们更需要生成这个世界,以及预测这个世界的未来。"
> ——金博士,华为HDC 2025直播对谈
这一判断直指当前AI发展的关键瓶颈:LLM大语言模型通过数据驱动学习了世界的语义规律,但语义层面的理解无法直接驱动物理世界;多模态视频生成模型虽然能生成像素级逼真的画面,却往往在3D一致性、物理合理性上败下阵来。
盘古世界模型的出现,正是为了填补这一鸿沟。它并非一个单纯的视频生成工具,而是一个融合动态输入与动态输出的全模态系统——从自然模态(视觉、语言)到行为模态(驾驶动作、机器人操作),构建起能够支撑自动驾驶、具身智能等复杂决策任务的"数字宇宙"。
STCG技术解密:让AI学会"交规"与"物理"
在盘古世界模型的技术栈中,STCG(Spatio-Temporal Controllable Generation,时空可控生成技术) 是承上启下的核心模块。它的诞生源于华为对产业痛点的深刻洞察:自动驾驶要达到足够的安全性,至少需要在真实路况上行驶110亿英里(约177亿公里),而交通事故等长尾场景的自然采集效率极低。
早期困境:当生成模型还是"像素画师"
盘古团队坦诚分享了技术攻坚初期的挫折。在启动驾驶视频生成研究时,模型表现出典型的"物理幻觉":
- 空间失控:生成的车辆过于"自由",频繁出现在人行道、逆行车道等违反物理常识的位置;
- 时序断裂:在生成跨摄像头视角视频时,目标车辆会无故消失,无法保持时空连续性;
- 一致性缺失:同一车辆在不同视角下的尺寸、外观发生畸变,破坏了多摄像头系统的几何一致性。
这些问题暴露出早期生成模型的根本缺陷:缺乏对真实世界物理规律与交通规则的深度理解。模型只是在"模仿像素",而非"理解场景"。
破局之道:将3D世界作为控制信号
STCG的核心创新在于,将真实世界的3D信号作为显式控制条件注入生成过程。具体而言,大模型可以使用BEV(Bird's Eye View)地图表示道路结构输入,将控制信号与模拟世界规律的信号同时输入多模态大模型,从而保证生成视频和行为信息严格符合真实世界规律。
在HDC现场演示中,盘古世界模型生成了车身四周六个摄像头的同步视频,展现了对三维空间关系的精确把握:
> 当对向来车接近时,车辆会按照严格的物理顺序,依次出现在正前→左前→左后→正后四个摄像头画面中。贯穿多视角的过程中,车辆的颜色、形状、运行规律保持恒定。
这一细节至关重要。它意味着模型并非独立生成六个视频流,而是在一个统一的三维世界坐标系下进行场景渲染。车辆在不同视角间的过渡符合透视投影规律,体现出模型对"车辆在空间中相对位置"的深度理解。这种跨视角一致性直接决定了合成数据的可用性——只有符合多摄像头几何约束的视频,才能被用于训练自动驾驶的BEV感知模型。
细粒度条件控制:从"无车街道"到"复杂路口"
"可控"是STCG的另一关键词。盘古世界模型支持通过增加控制条件灵活生成不同路况的训练数据:
- 基础场景:生成一条无车的空旷街道;
- 单目标注入:增加一辆侧方向来车;
- 多目标复杂化:叠加多辆不同方向的来车,构建交叉路口冲突场景。
这种渐进式场景构建能力,让研发团队能够按需生成稀缺的长尾数据。更进一步,模型能够生成覆盖晴天、雨天、黑夜等多种条件的行车视频。在一段雨天场景中,一个细节引发了技术圈的广泛讨论:
> 雨天光线较暗时,目标车辆的尾灯自动处于开启状态。
这一像素级特征揭示了模型的深层能力:通过对海量真实视频的训练,盘古不仅学习了雨天的视觉纹理,更学习到了雨天行车的功能性规律——低能见度环境下开启车灯是驾驶员的标准操作。从"纹理模仿"到"规律理解",这是生成式AI从玩具走向工具的关键跨越。
从2D到4D:盘古世界模型的空间跃迁
如果说STCG解决了"生成符合物理规律的视频"问题,那么盘古世界模型在2025年的重大升级,则是将生成维度从2D平面推向了4D动态空间。
3D一致性之后:激光点云生成
> "当我们能够生成多视角视频的时候,已经说明模型对于整个空间的3D、时间维度,都有了比较好的生成能力。但对于自动驾驶来说,仅仅只生成2D的信息是远远不够的。"
> ——王博士
激光雷达(LiDAR)是自动驾驶中至关重要的传感器,大量感知算法依赖3D点云数据进行目标检测与定位。因此,盘古世界模型在今年新增了激光生成能力,实现了从2D视频到3D点云的跨越。这意味着合成数据不再局限于摄像头视角的RGB像素,而是能够直接生成与视觉信息严格对齐的三维几何结构,为自动驾驶算法提供完整的传感器仿真。
4D空间:动态3D+可控交互
那么,盘古世界模型所指的"4D"究竟是什么?
> "我们在这里所说的4D,本质上是动态的3D。3D中,我们可以从不同的视角查看数据或观察世界,而4D就是在3D的基础上增加时间维度的变化,甚至可能增加一些可控的交互。"
> ——王博士
从技术路线来看,业界长期存在两条平行路径:可控视频生成(动态能力强,但3D一致性有限)与3D空间生成(几何结构准确,但动态能力有限)。盘古的整体思路是将二者结合,推广到动态空间生成能力上。目前华为正在并行探索两个技术方向:
- 路线一:给视频生成增加显式的3D表征,让像素流动受限于三维空间约束;
- 路线二:在3D基础上,利用视频生成模型做动态内容的生成或编辑。
这种融合的最终目标,是构建一个4D世界引擎——不仅能生成精准的多相机视频,还能将其转化为可交互的4D世界,满足自动驾驶模拟场景要求。在这个4D世界中,研发人员可以进行不同的场景推演:对同一个基础世界,输出不同的驾驶行为(加减速、左右侧超车等),验证自动驾驶算法在各类决策下的表现,通过测试后再进行实车验证。
物理规律的"双轮驱动":数据+公式
当前,世界模型的技术路线存在明显的阵营分野。以OpenAI Sora为代表的一方坚持纯数据驱动,期望通过海量视频训练让模型自动学习到物理规律;另一方则主张将物理理论、物理公式显式嵌入大模型中。
在HDC对谈中,金博士提出了华为的"第三条道路":将两条路线结合,既包含物理知识,又包含数据驱动的统计规律。
> "我们当前的主要技术路线除了可控视频生成、3D生成之外,还有类似传统仿真引擎的过程。仿真引擎里面包含了很多物理的知识,我们将它的结果或中间知识作为初始引导,无论是引导视频的生成还是空间的生成,都会显式引入物理知识,并带来较大的提升。"
> ——王博士
这一思路的实际意义在于:纯数据驱动模型在理解碰撞、摩擦、动量守恒等物理规律时往往表现不稳定,而显式引入物理公式(如动量守恒定律)作为约束条件,能让生成的动态内容更加符合真实物理规律。王博士坦言,当前模型生成的动态仍存在"范围小、时间短"的局限,后续通过仿真引擎引入显式物理知识将是重点发展方向。
超越自动驾驶:从地球到火星
盘古世界模型的产业价值,首先体现在自动驾驶数据飞轮的重构上。通过STCG与4D生成技术,华为正在将合成数据的边际成本趋近于零,同时实现"场景自由"——按需生成极端天气、罕见交通冲突等长尾场景,且生成过程自带完美标注(3D框、轨迹、语义分割),彻底打通数据生产瓶颈。
但华为的野心不止于此。在对谈中,金博士透露了一个更具想象力的应用场景:火星探测。
> "我们在做火星探测的时候,不可能采集到大量火星真实的数据。我们只能通过几张图像,做出我们认为的三维世界,将待验证设备放到3D世界里面去,进行3D交互验证。"
> ——金博士
这一场景揭示了世界模型的终极价值:对于任何难以获得海量真实数据的物理环境——无论是外星地表、深海深渊,还是极端工业现场——盘古世界模型都能通过4D空间重构出符合物理规律的新世界,实现虚拟世界与真实世界的交互闭环。
在具身智能领域,这一能力同样关键。具身智能比自动驾驶更难,因为它缺乏现成的训练数据集。盘古世界模型通过在物理世界采集与虚拟世界模拟相结合的方式,为具身大模型提供所需的scaling law训练范式,有望加速通用机器人的进化。
未来挑战:3D Token与全模态统一
尽管技术进展显著,华为博士天团也坦诚指出了世界模型面临的深层挑战。
首要挑战是底层表示。 当前大语言模型将世界理解为一维Token序列,但3D世界并非一维信息。如果时间和空间信息都转化为控制信号,理论上需要"3D Token"甚至"4D Token"的表示方法。然而,业界目前仍缺乏高效的3D/4D Token化方案,大多转化为与自然语言对齐的Token表示,这在信息效率与压缩率上存在固有损失。找到高效的3D/4D原生表示,将是未来重要的趋势点。
另一大趋势是理解与生成的统一。 当前,理解大模型输入重、输出轻,生成模型则输入轻、输出重。业界已开始尝试将图像理解与图像生成做融合,未来,视频、3D/4D理解与生成的统一模型将更具挑战意义,也是盘古世界模型持续演进的方向。
结语:世界模型的"华为范式"
盘古世界模型在HDC 2025的亮相,标志着多模态大模型从"内容创作工具"向"物理世界模拟器"的战略跃迁。它不追求一镜到底的娱乐效果,而是聚焦行业急需的价值场景;它不满足于2D像素的逼真,而是致力于4D空间的物理精确;它不依赖单一的数据驱动,而是探索"物理引擎+数据驱动"的双轮融合。
从六路环视摄像头的跨视角一致性,到激光点云的3D生成,再到可交互的4D世界推演,盘古世界模型正在证明:大模型的终极竞争力,不在于生成多么惊艳的娱乐内容,而在于能否成为产业智能化的"数字风洞"——让AI在踏入真实世界之前,先在虚拟世界中学会敬畏物理规律。
> "面对纷繁的现实世界,盘古世界模型可以通过4D空间重构出符合物理规律的新世界,实现虚拟世界与真实世界的交互。"
> ——金博士
这场从理解到生成再到预测的升维之旅,或许正是通往通用人工智能的关键路径。
本文基于华为HDC 2025"盘古大模型关键技术解读"直播对谈及公开技术资料整理解读。
背后团队
金鑫博士 华为云视频生成大模型、世界模型 团队主管 · 华为云盘古多模态大模型首席架构师 · 华为技术专家A
金鑫博士个人主页:jinxindeep.github.io/ blog.csdn.net/sdlcjx/arti… juejin.cn/post/763225…
目前专注于大模型、人工智能与云计算领域,负责华为盘古视频生成基础模型、自动驾驶世界模型、具身世界模型、3D大模型、AR/VR、视频分析、OCR、机器学习平台、机器翻译等多个系统和服务。
担任华为集团级大模型项目"4野15纵"视频生成技术负责人、华为集团级天水计划-AIGC视频创意生成项目经理。技术成果于2023、2024、2025连续三年由华为云CEO在HDC/HC大会Keynote重磅发布。
核心专长: 多模态大模型架构设计 · 视频生成与世界模型 · 3D/4D空间智能 · 自动驾驶仿真 · 具身智能数据合成 · 机器人· 视觉与AR算法