> 在HDC2025大会上,华为云CEO张平安正式发布了盘古大模型5.5,五大基础模型全面升级。其中,最引人注目的技术突破莫过于盘古世界模型——它是业界首个支持可交互4D空间生成的大模型。这不仅是多模态生成技术的跃迁,更标志着AI从"生成内容"正式迈向"生成世界"的新纪元。
一、从"生成内容"到"生成世界":盘古世界模型的范式跃迁
在AI大模型领域,多模态生成的长期难点之一,是如何在生成过程中实现不同模态的数据在空间和时间维度的精准匹配。华为云在这一领域已经取得了扎实的进展。
盘古赋能万兴天幕:专业运镜与音画同步的新高度
作为盘古多模态生成能力的重要落地,华为云协助万兴科技打造了天幕音视频大模型。在HDC2025的现场演示中,一段由天幕大模型生成的视频令人印象深刻:在提示词中加入推拉、环绕、俯仰等专业运镜指令,生成的视频能够精准匹配这些复杂指令,画面运动流畅自然;更令人惊讶的是,大模型已经实现了音效与动作的自动匹配——轮胎与地面的摩擦声、石块与车门的撞击声,都与画面动作高度同步,逼真度足以乱真。这背后正是盘古大模型在多模态时空对齐上的深厚积累:视频生成不再只是画面的堆砌,而是声、画、运动在统一时空坐标下的协同创造。
但这只是起点。张平安在大会上提出了一个更具雄心的命题:机器人训练的难点在于没有足够多的真实数据供其学习和训练。那么,是否可以通过生成的方式,构建一个符合自然规律的数字物理空间,让机器人在其中得到充分的训练,去学习和理解任务与空间的关系?
今天,这个问题的答案已经揭晓——盘古世界模型正式发布。
盘古世界模型的本质,不是传统意义上的内容创作工具,而是物理世界的"数字孪生生成器"。它可以为智能驾驶、具身智能机器人等场景的训练,构建所需的数字物理空间。更重要的是,它的愿景不止于此——盘古世界模型,是要为各行各业生成所需要的数字物理空间。
二、4D空间生成的技术攻坚:像素级对齐与物理一致性
盘古世界模型的核心突破在于可交互4D空间生成——即在三维空间的基础上叠加时间维度,并确保不同模态数据在空间和时间上保持严格的物理一致性。
火星数字空间:从数百张照片到可交互世界
大会现场展示了一个极具想象力的场景:人类尚未踏足火星,如何在地面上训练火星车完成采集岩石标本的任务?通过收集到的数百张火星照片,加上模拟的深度信息,盘古世界模型经过增训,即可生成完整的火星数字物理空间。在这个空间里,火星车可以根据角度信息、距离信息,评估发生物理碰撞的可能,练习避障;通过对数字空间中岩石的抓取模拟,机械臂的操作能力得以持续提升。
这意味着,世界模型正在打破物理边界对AI训练的约束——无论是深空探测还是极端环境作业,只要有限的视觉线索,模型就能"想象"并构建出符合物理规律的可交互空间。
智能驾驶:像素级多模态对齐与30FPS实时续写
回到地球,盘古世界模型在智能驾驶领域展现了硬核的工程能力。具备高阶智能驾驶的车辆通常配置6个摄像头和多个激光雷达,数据采集成本极高。而现在,只需输入首帧的行车场景、行车控制信息和路网数据,盘古世界模型就能同时生成每路摄像头的行车视频和激光雷达的点云,且生成的视频与激光点云能够达到像素级对应。
这种多模态、跨传感器的精准对齐,解决了自动驾驶训练数据中长期存在的"视觉-几何"一致性问题。更关键的是,模型支持根据行车控制信息实时续写——左超车、右超车、刹车等不同驾驶行为的视频可以连续生成,供智能驾驶系统训练。目前,盘古世界大模型的生成能力已达到30帧每秒的视频续写,并已经应用到自动驾驶的软件仿真和硬件仿真中。这意味着,车企无需依赖高成本的路采,就能获得近乎无限的、物理一致的训练数据。
三、具身智能的"数字训练场":让机器人理解任务与空间
在大会上,张平安分享了一个细节:机器人已经走到我们身边,甚至在后台帮他倒咖啡、叠衣服。具身时代已然来临,但机器人训练的数据瓶颈依然存在。
盘古世界模型为此提供了根本性的解决方案。通过生成与真实工作环境一致的数字工作环境,机器人的训练可以变得更快速、更泛化。例如,要训练机器人把不同物体放到盒子里,只需通过大模型生成不同环境、不同物体的样本数据,机器人就能在数字空间中反复试错,获得任务泛化的能力。
这种"数字训练场"的价值在于,它让机器人能够在接触真实物理世界之前,先在符合自然规律的数字空间中建立对物理交互的理解——这本质上是在用生成式AI解决具身智能的数据稀缺问题。
四、盘古5.5全面升级:世界模型的底座支撑
盘古世界模型的发布,离不开盘古大模型5.5的整体能力升级。在HDC2025上,华为云对自然语言处理、多模态等五大基础模型进行了全面升级。其中,自然语言处理方面带来了7180亿参数的深度思考大模型,为世界模型提供了强大的语义理解和逻辑推理底座;多模态生成能力的跃迁,则让4D空间的生成成为可能。
大会还邀请了广汽集团平台技术研究院负责人梁伟强,现场介绍了盘古多模态大模型在广汽的实际使用情况,展示了世界模型在头部车企中的落地价值。
五、结语:世界模型作为AI的"新型基础设施"
回顾HDC2025的技术发布,盘古世界模型的战略意义或许被低估了。它不仅仅是一个多模态生成模型的版本升级,而是代表了一种全新的AI基础设施形态——可交互的4D数字物理空间。
当自动驾驶不再需要百万公里的高成本路采,当机器人可以在数字空间中无限次地理解物理交互,当火星车的训练可以在地球的数字世界中完成——我们看到的不仅是技术的进步,更是AI从"数据消耗者"向"世界构建者"的角色转变。
张平安在大会上说:"盘古世界模型,是要为各行各业生成所需要的数字物理空间。"
这句话的背后,是华为云对AI终局的判断:未来的竞争不在于谁拥有最多的历史数据,而在于谁能够生成最高质量、最符合物理规律、可供交互的数字世界。
盘古开天,世界新生。这一次,开的不是混沌,而是千行万业AI训练的无限可能。
背后团队
金鑫博士 华为云视频生成大模型、世界模型 团队主管 ·
华为云盘古多模态大模型首席架构师 · 华为技术专家A
金鑫博士个人主页:
baijiahao.baidu.com/s?id=186354…
目前专注于大模型、人工智能与云计算领域,负责华为盘古视频生成基础模型、自动驾驶世界模型、具身世界模型、3D大模型、AR/VR、视频分析、OCR、机器学习平台、机器翻译等多个系统和服务。
担任华为集团级大模型项目"4野15纵"视频生成技术负责人、华为集团级天水计划-AIGC视频创意生成项目经理。技术成果于2023、2024、2025连续三年由华为云CEO在HDC/HC大会Keynote重磅发布。
核心专长: 多模态大模型架构设计 · 视频生成与世界模型 · 3D/4D空间智能 · 自动驾驶仿真 · 具身智能数据合成 · 机器人· 视觉与AR算法