AI教母造了个"平行世界":李飞飞用 Marble 想做什么?

0 阅读6分钟

2023年,李飞飞离开斯坦福创办了一家叫 World Labs 的公司,外界一头雾水。两年后,她拿出一个产品叫 Marble——一张图就能生成一个 3D 世界。外行人看热闹,内行人开始冒冷汗:这个方向如果成了,比大语言模型的影响还要深远。


为什么是李飞飞?

在 AI 圈,李飞飞是一个有点特殊的存在。

她是斯坦福大学教授、斯坦福 AI Lab 主任、Google Cloud 首席科学家——但让她真正家喻户晓的,是 ImageNet。

2010 年代初,她推动创建了 ImageNet,一个包含1400万张图片的数据库,直接奠定了深度学习革命的数据基础。没有 ImageNet,就没有后来 AlexNet 在图像识别上的突破,也就没有这十年 AI 视觉的飞速发展。

但到了 2020 年代中期,她开始公开谈论一个观点:AI 缺的不仅是"看",还有"理解空间"的能力

"我们教会了 AI 认出一只猫,但我们没有教会它理解猫为什么会在窗台上,窗台外面的世界是什么样的,如果猫跳下去会落在哪里。"

这就是她所说的"空间智能"——让 AI 理解三维世界、在空间中行动、预测物理世界的运作方式。

2023 年,她离开斯坦福,创办 World Labs,专注解决这个问题。

Marble,是 World Labs 的第一个商用产品。


Marble 是什么?

简单说:Marble 是一个能把 2D 信息"脑补"成完整 3D 世界的 AI 模型。

你给它一张图、一段文字,甚至一段粗糙的 3D 草图,它会生成一个可以自由探索的三维场景——有光照、有材质、有空间纵深,能在场景里走动、旋转视角、放大缩小,甚至能导出为工业标准格式供游戏引擎和影视软件使用。

它不是在"拼贴"素材,也不是在"查数据库"——它是在推理这个世界应该长什么样。向阳面应该更亮,背阳面应该有阴影;地板是硬的所以影子会落在地面,天空是远的所以云会退到远处变小。

这正是"世界模型"的含义:AI 不是在生成图片,而是在建立对这个世界的内部理解,并基于这种理解来"想象"它没看到过的角度和空间。


拿两张图试了一下

我拿了两张完全不同的图做了测试——

第一张,是一张游戏场景截图,输入 Marble 后生成的是一个可自由探索的 3D 世界。夕阳低角度打过来,向阳面的地面泛着暖橙色,背阳的角落自然沉入阴影。连云彩的受光面都比背光面更亮,体积感就这样出来了。

20260413175217.jpg

上传图片

panorama-2026-04-13T08_55_22.208Z.png

3D截图

第二张,是 Pixel Agent 界面截图——一个 AI 编程助手的使用界面。生成的 3D 场景则完全不同,是一个真实感的室内办公环境,码农工位的质感:显示器、键盘、水杯、光线透过百叶窗落进来。

20260413165631.jpg

上传图片

screenshot-2026-04-13T10_01_55.399Z.png

3D截图

两张截然不同的输入,生成了两个截然不同的世界——Marble 对输入内容的"理解",不只是识别"这是一张游戏图",而是识别了这张图背后的空间逻辑和物理规律。

当然也有不足:远景的边缘偶有棱角感,生成一次大约需要 5 分钟,加载显示又要 3 分钟左右,距离"秒级生成"还有距离。但以它能达到的效果来说,这些等待是值得的。


4月8日:Marble 1.1 来了

就在上周,World Labs 发布了 Marble 1.1 和 Marble 1.1-Plus 两款更新。

这次迭代的重点是质量和规模的全面提升

  • Marble 1.1(新默认版本):光照系统升级,对比度和视觉一致性更好,适合日常创作
  • Marble 1.1-Plus(超大场景专用):专为城堡、荒野、建筑群等复杂大规模场景设计,支持显示建筑内部细节

两个版本形成互补——1.1 负责"稳和好看",1.1-Plus 负责"大和复杂"。

有意思的是计费模式:1.1-Plus 采用了按场景规模浮动收费,1500 积分基础费加上 0~1500 的浮动费用,场景越大越复杂,价格越高。这是行业首次采用这种可变计费机制,也说明 World Labs 对大模型渲染成本的信心。


她的真正野心

Marble 的 3D 生成,只是李飞飞"空间智能"拼图里的第一块。

在 World Labs 的官方表述里,空间智能的终极目标是:让 AI 像人类一样整合视觉、声音、触觉和语言,构建对世界的完整理解,并能在其中行动。

这指向的方向,是机器人和具身智能

一个机器人要在真实世界里工作,它必须理解空间:哪里能走,哪里有障碍,物体之间的位置关系,光线从哪里来、影子落在哪里,玻璃是透明的还是反光的。这些对人类来说理所当然的事,对 AI 来说一直是短板。

Marble 在学习的,正是这些。李飞飞在给它投喂大量 2D 图像,让它学会"脑补"这些图像背后缺失的三维信息。一旦这个能力成熟,它就不只是一个 3D 生成工具,而是机器人在真实世界里行动的认知基础。

从这个角度看,Marble 现在的"好玩"——把游戏截图变成可探索的世界,把办公室界面截图变成真实的室内场景——只是这块地基上最先露出地面的那层楼。

下面的楼层,是机器人的空间感知,是具身智能对物理世界的理解,是 AI 从"看图说话"到"在世界中行动"的跨越。


结语

过去几年,我们见证了 AI 在二维世界里的一场又一场革命——文本、图像、视频。每一场都足够震撼。

但李飞飞在做的,是把 AI 往第三维推。

一张游戏截图进去,一个世界出来。光线、云彩、阴影、空间纵深——AI 不是在猜测,它是在推理这个世界应该是什么样子的。

这个方向如果成了,影响的不只是游戏和影视。

是每一个需要在真实空间里行动的人工智能系统。

值得认真盯着。


去试试? marble.worldlabs.ai 目前有免费额度,一张图片就能开始。


也欢迎关注公众号「神经漫谈」,比掘金更新更快,内容更丰富

image.png