华为开发者大会2025HDC｜“盘古大模型关键技术解读”直播（Part.2-盘古世界模型：GenJi & 金鑫博士）

盘古世界模型深度解读：当STCG遇见4D空间，华为如何用"物理引擎+数据驱动"重构自动驾驶仿真范式

华为HDC 2025技术揭秘

从"理解世界"到"生成世界"：盘古世界模型的升维逻辑

在HDC 2025的舞台上，华为博士天团首次系统阐述了盘古世界模型的技术哲学。与业界普遍将大模型定位为"世界理解器"不同，华为认为，真正的世界模型必须同时具备理解、生成与预测三重能力——只有预测未来世界，才能辅助决策与行为交互，从而在物理世界与虚拟世界之间建立真正的桥梁。

> "之前大家对大模型的研究较偏重于理解这个世界，但我们更需要生成这个世界，以及预测这个世界的未来。"
> ——金博士，华为HDC 2025直播对谈

这一判断直指当前AI发展的关键瓶颈：LLM大语言模型通过数据驱动学习了世界的语义规律，但语义层面的理解无法直接驱动物理世界；多模态视频生成模型虽然能生成像素级逼真的画面，却往往在3D一致性、物理合理性上败下阵来。

盘古世界模型的出现，正是为了填补这一鸿沟。它并非一个单纯的视频生成工具，而是一个融合动态输入与动态输出的全模态系统——从自然模态（视觉、语言）到行为模态（驾驶动作、机器人操作），构建起能够支撑自动驾驶、具身智能等复杂决策任务的"数字宇宙"。

STCG技术解密：让AI学会"交规"与"物理"

在盘古世界模型的技术栈中，STCG（Spatio-Temporal Controllable Generation，时空可控生成技术） 是承上启下的核心模块。它的诞生源于华为对产业痛点的深刻洞察：自动驾驶要达到足够的安全性，至少需要在真实路况上行驶110亿英里（约177亿公里），而交通事故等长尾场景的自然采集效率极低。

早期困境：当生成模型还是"像素画师"

盘古团队坦诚分享了技术攻坚初期的挫折。在启动驾驶视频生成研究时，模型表现出典型的"物理幻觉"：

空间失控：生成的车辆过于"自由"，频繁出现在人行道、逆行车道等违反物理常识的位置；
时序断裂：在生成跨摄像头视角视频时，目标车辆会无故消失，无法保持时空连续性；
一致性缺失：同一车辆在不同视角下的尺寸、外观发生畸变，破坏了多摄像头系统的几何一致性。

这些问题暴露出早期生成模型的根本缺陷：缺乏对真实世界物理规律与交通规则的深度理解。模型只是在"模仿像素"，而非"理解场景"。

破局之道：将3D世界作为控制信号

STCG的核心创新在于，将真实世界的3D信号作为显式控制条件注入生成过程。具体而言，大模型可以使用BEV（Bird's Eye View）地图表示道路结构输入，将控制信号与模拟世界规律的信号同时输入多模态大模型，从而保证生成视频和行为信息严格符合真实世界规律。

在HDC现场演示中，盘古世界模型生成了车身四周六个摄像头的同步视频，展现了对三维空间关系的精确把握：

> 当对向来车接近时，车辆会按照严格的物理顺序，依次出现在正前→左前→左后→正后四个摄像头画面中。贯穿多视角的过程中，车辆的颜色、形状、运行规律保持恒定。

这一细节至关重要。它意味着模型并非独立生成六个视频流，而是在一个统一的三维世界坐标系下进行场景渲染。车辆在不同视角间的过渡符合透视投影规律，体现出模型对"车辆在空间中相对位置"的深度理解。这种跨视角一致性直接决定了合成数据的可用性——只有符合多摄像头几何约束的视频，才能被用于训练自动驾驶的BEV感知模型。

细粒度条件控制：从"无车街道"到"复杂路口"

"可控"是STCG的另一关键词。盘古世界模型支持通过增加控制条件灵活生成不同路况的训练数据：

基础场景：生成一条无车的空旷街道；
单目标注入：增加一辆侧方向来车；
多目标复杂化：叠加多辆不同方向的来车，构建交叉路口冲突场景。

这种渐进式场景构建能力，让研发团队能够按需生成稀缺的长尾数据。更进一步，模型能够生成覆盖晴天、雨天、黑夜等多种条件的行车视频。在一段雨天场景中，一个细节引发了技术圈的广泛讨论：

> 雨天光线较暗时，目标车辆的尾灯自动处于开启状态。

这一像素级特征揭示了模型的深层能力：通过对海量真实视频的训练，盘古不仅学习了雨天的视觉纹理，更学习到了雨天行车的功能性规律——低能见度环境下开启车灯是驾驶员的标准操作。从"纹理模仿"到"规律理解"，这是生成式AI从玩具走向工具的关键跨越。

从2D到4D：盘古世界模型的空间跃迁

如果说STCG解决了"生成符合物理规律的视频"问题，那么盘古世界模型在2025年的重大升级，则是将生成维度从2D平面推向了4D动态空间。

3D一致性之后：激光点云生成

> "当我们能够生成多视角视频的时候，已经说明模型对于整个空间的3D、时间维度，都有了比较好的生成能力。但对于自动驾驶来说，仅仅只生成2D的信息是远远不够的。"
> ——王博士

激光雷达（LiDAR）是自动驾驶中至关重要的传感器，大量感知算法依赖3D点云数据进行目标检测与定位。因此，盘古世界模型在今年新增了激光生成能力，实现了从2D视频到3D点云的跨越。这意味着合成数据不再局限于摄像头视角的RGB像素，而是能够直接生成与视觉信息严格对齐的三维几何结构，为自动驾驶算法提供完整的传感器仿真。

4D空间：动态3D+可控交互

那么，盘古世界模型所指的"4D"究竟是什么？

> "我们在这里所说的4D，本质上是动态的3D。3D中，我们可以从不同的视角查看数据或观察世界，而4D就是在3D的基础上增加时间维度的变化，甚至可能增加一些可控的交互。"
> ——王博士

从技术路线来看，业界长期存在两条平行路径：可控视频生成（动态能力强，但3D一致性有限）与3D空间生成（几何结构准确，但动态能力有限）。盘古的整体思路是将二者结合，推广到动态空间生成能力上。目前华为正在并行探索两个技术方向：

路线一：给视频生成增加显式的3D表征，让像素流动受限于三维空间约束；
路线二：在3D基础上，利用视频生成模型做动态内容的生成或编辑。

这种融合的最终目标，是构建一个4D世界引擎——不仅能生成精准的多相机视频，还能将其转化为可交互的4D世界，满足自动驾驶模拟场景要求。在这个4D世界中，研发人员可以进行不同的场景推演：对同一个基础世界，输出不同的驾驶行为（加减速、左右侧超车等），验证自动驾驶算法在各类决策下的表现，通过测试后再进行实车验证。

物理规律的"双轮驱动"：数据+公式

当前，世界模型的技术路线存在明显的阵营分野。以OpenAI Sora为代表的一方坚持纯数据驱动，期望通过海量视频训练让模型自动学习到物理规律；另一方则主张将物理理论、物理公式显式嵌入大模型中。

在HDC对谈中，金博士提出了华为的"第三条道路"：将两条路线结合，既包含物理知识，又包含数据驱动的统计规律。

> "我们当前的主要技术路线除了可控视频生成、3D生成之外，还有类似传统仿真引擎的过程。仿真引擎里面包含了很多物理的知识，我们将它的结果或中间知识作为初始引导，无论是引导视频的生成还是空间的生成，都会显式引入物理知识，并带来较大的提升。"
> ——王博士

这一思路的实际意义在于：纯数据驱动模型在理解碰撞、摩擦、动量守恒等物理规律时往往表现不稳定，而显式引入物理公式（如动量守恒定律）作为约束条件，能让生成的动态内容更加符合真实物理规律。王博士坦言，当前模型生成的动态仍存在"范围小、时间短"的局限，后续通过仿真引擎引入显式物理知识将是重点发展方向。

超越自动驾驶：从地球到火星

盘古世界模型的产业价值，首先体现在自动驾驶数据飞轮的重构上。通过STCG与4D生成技术，华为正在将合成数据的边际成本趋近于零，同时实现"场景自由"——按需生成极端天气、罕见交通冲突等长尾场景，且生成过程自带完美标注（3D框、轨迹、语义分割），彻底打通数据生产瓶颈。

但华为的野心不止于此。在对谈中，金博士透露了一个更具想象力的应用场景：火星探测。

> "我们在做火星探测的时候，不可能采集到大量火星真实的数据。我们只能通过几张图像，做出我们认为的三维世界，将待验证设备放到3D世界里面去，进行3D交互验证。"
> ——金博士

这一场景揭示了世界模型的终极价值：对于任何难以获得海量真实数据的物理环境——无论是外星地表、深海深渊，还是极端工业现场——盘古世界模型都能通过4D空间重构出符合物理规律的新世界，实现虚拟世界与真实世界的交互闭环。

在具身智能领域，这一能力同样关键。具身智能比自动驾驶更难，因为它缺乏现成的训练数据集。盘古世界模型通过在物理世界采集与虚拟世界模拟相结合的方式，为具身大模型提供所需的scaling law训练范式，有望加速通用机器人的进化。

未来挑战：3D Token与全模态统一

尽管技术进展显著，华为博士天团也坦诚指出了世界模型面临的深层挑战。

首要挑战是底层表示。 当前大语言模型将世界理解为一维Token序列，但3D世界并非一维信息。如果时间和空间信息都转化为控制信号，理论上需要"3D Token"甚至"4D Token"的表示方法。然而，业界目前仍缺乏高效的3D/4D Token化方案，大多转化为与自然语言对齐的Token表示，这在信息效率与压缩率上存在固有损失。找到高效的3D/4D原生表示，将是未来重要的趋势点。

另一大趋势是理解与生成的统一。 当前，理解大模型输入重、输出轻，生成模型则输入轻、输出重。业界已开始尝试将图像理解与图像生成做融合，未来，视频、3D/4D理解与生成的统一模型将更具挑战意义，也是盘古世界模型持续演进的方向。

结语：世界模型的"华为范式"

盘古世界模型在HDC 2025的亮相，标志着多模态大模型从"内容创作工具"向"物理世界模拟器"的战略跃迁。它不追求一镜到底的娱乐效果，而是聚焦行业急需的价值场景；它不满足于2D像素的逼真，而是致力于4D空间的物理精确；它不依赖单一的数据驱动，而是探索"物理引擎+数据驱动"的双轮融合。

从六路环视摄像头的跨视角一致性，到激光点云的3D生成，再到可交互的4D世界推演，盘古世界模型正在证明：大模型的终极竞争力，不在于生成多么惊艳的娱乐内容，而在于能否成为产业智能化的"数字风洞"——让AI在踏入真实世界之前，先在虚拟世界中学会敬畏物理规律。

> "面对纷繁的现实世界，盘古世界模型可以通过4D空间重构出符合物理规律的新世界，实现虚拟世界与真实世界的交互。"
> ——金博士

这场从理解到生成再到预测的升维之旅，或许正是通往通用人工智能的关键路径。

本文基于华为HDC 2025"盘古大模型关键技术解读"直播对谈及公开技术资料整理解读。

背后团队

金鑫博士华为云视频生成大模型、世界模型团队主管 · 华为云盘古多模态大模型首席架构师 · 华为技术专家A

金鑫博士个人主页：jinxindeep.github.io/ blog.csdn.net/sdlcjx/arti… juejin.cn/post/763225…

目前专注于大模型、人工智能与云计算领域，负责华为盘古视频生成基础模型、自动驾驶世界模型、具身世界模型、3D大模型、AR/VR、视频分析、OCR、机器学习平台、机器翻译等多个系统和服务。

担任华为集团级大模型项目"4野15纵"视频生成技术负责人、华为集团级天水计划-AIGC视频创意生成项目经理。技术成果于2023、2024、2025连续三年由华为云CEO在HDC/HC大会Keynote重磅发布。

核心专长： 多模态大模型架构设计 · 视频生成与世界模型 · 3D/4D空间智能 · 自动驾驶仿真 · 具身智能数据合成 · 机器人· 视觉与AR算法

华为开发者大会2025HDC｜“盘古大模型关键技术解读”直播 （Part.2-盘古世界模型：GenJi & 金鑫博士）