华为发布 WorldGrow 世界模型:单卡 30 分钟生成 272㎡场景
大家好,我是AI算法工程师七月,曾在华为、阿里任职,技术栈广泛,爱好广泛,喜欢摄影、羽毛球。目前个人在烟台有一家企业星瀚科技。
- 关注公众号:智启七月,获取最新观察、思考和文章推送。
- 关注知乎:七月,获取最新观察、思考和文章推送。
- 关注CSDN:智启七月,获取最新观察、思考和文章推送。
- 关注稀土掘金:智启七月,获取最新观察、思考和文章推送。
- 网站1 :七月
- 网站2:zerodesk
我会在这里分享关于 编程技术、独立开发、行业资讯,思考感悟 等内容。爱好交友,想加群滴滴我,wx:swk15688532358,交流分享
如果本文能给你提供启发或帮助,欢迎动动小手指,一键三连 (点赞、评论、转发),给我一些支持和鼓励,谢谢。
作者:七月 链接:www.xinghehuimeng.com.cn 来源:七月 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
世界模型 WorldGrow发布
添加图片注释,不超过 140 字(可选)
2025 年 10 月,华为联合上海交通大学、华中科技大学推出的世界模型 WorldGrow 引发行业震动。这款聚焦室内 3D 场景生成的 AI 模型,实现了 "单张 A100 显卡 30 分钟生成 272㎡连贯场景" 的技术突破,其照片级真实感与逻辑化布局能力,正颠覆传统 3D 建模的效率与质量边界。目前,相关研究成果已通过论文形式在 arXiv 平台公开(论文链接:arxiv.org/abs/2510.21…),华为云官网也在盘古多模态大模型体系中披露了该技术的底层支撑逻辑。
传送门
官方介绍:华为云发布盘古大模型5.5,宣布新一代昇腾AI云服务上线,成就行业AI先锋-华为云
WorldGrow
添加图片注释,不超过 140 字(可选)
在worldgrow发布之前,AI 造 3D 房子简直是 “踩坑大赛”。有的技术先画 2D 图再硬掰成 3D,转个视角就露怯:沙发腿歪成麻花,墙纸在墙角突然 “断片”,地板缝能塞进虚拟拳头。
有的顶多造个单间,想扩成套房直接卡崩,就算勉强拼出来,要么走廊突然变窄,要么两个房间门对着撞。更离谱的是没逻辑,冰箱往卧室塞,床摆在厨房正中央,生成的场景只能看不能用,设计师改到崩溃都是常事。
总体来讲worldgrow的过程如下:
第一步是 “备料”,得给 AI 喂高质量的数据。团队没拿杂乱的数据集凑数。
专门从 3D-FRONT 这类专业库里挑 “好料”,用 Blender 把场景切成整整齐齐的区块,就像把蛋糕切成标准方块。还得用 occupancy 检测筛一遍,只留那些可见内容占 95% 以上的 “实心块”,空荡房间或者遮挡严重的直接扔掉。这些数据还区分了 粗 和 细:粗料管大局,比如哪面是墙、哪是走廊、窗户朝哪开;细料管颜值,像沙发纹理、墙面乳胶漆质感、灯光阴影这些细节都藏在里面。这样 AI 自然不会乱搭。
添加图片注释,不超过 140 字(可选)
第二步是 “拼积木”,解决最头疼的拼接问题。以前拼场景像贴膏药,边缘总会翘起来,WorldGrow 发明了 “双生成器搭档” 的办法。要扩展房间时,先让结构生成器搭骨架,确定新房间的墙在哪、门朝哪、该做卧室还是书房;再让 latent 生成器补 “颜值”,重建一种叫 SLAT 的特征,保证新房间的地板颜色、墙面材质和老房间一模一样。就像给墙刷漆,先找对同款色号再动手,自然看不出接缝。输入模型时还会带上三样 “工具”:带噪潜变量负责搞点新花样避免重复,二进制掩码标清 “要补哪块”,已知区域特征提供参考,三者一配合,边缘断裂的问题直接解决了九成。
添加图片注释,不超过 140 字(可选)
第三步是 “精装修”,兼顾速度和细节。它走 “先搭骨架再长肉” 的路子,一点不浪费时间。先用轻量模型快速搭出粗结构,确保房间布局合理,比如厨房肯定挨着餐厅,卫生间不会正对客厅,从根上杜绝 “冰箱进卧室” 的荒诞情况。接着用三线性插值算法把骨架放大,分辨率提上去,最后再让高精度模型填细节:沙发的缝线、插座的划痕、甚至阳台地漏的坡度都能做出来,放大看都跟真的一样。这一套流程下来,速度直接比同类技术快了 6 倍,单张 A100 显卡 30 分钟就能搞定 10×10 区块的 272㎡场景,效率高得吓人。
添加图片注释,不超过 140 字(可选)
效果
在 3D-FRONT 数据集上测试时,它的 FID 值只有 7.52。几何重建的 MMD、COV 指标也都是当前最好的,意味着生成的家具、墙体跟真东西几乎没差别。就算扩到 7×7 的大场景,边缘画质也稳得很,不会越扩越糙。
在效率上,单张A100显卡,30 分钟即可生成10×10区块(约272㎡)的室内场景,速度是同类技术的6倍。
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
虚拟人在 1800㎡的大空间里逛,能自己找路、躲家具,导航成功率快到 98%。偶尔卡在自动扶梯口 一下。
有意思的是,这么牛的技术,核心研发是上海交大的两个实习生李思旷和杨晨在华为实习时做的,通讯作者是华为终端 BG 的首席科学家田奇院士。