AI教母造了个"平行世界"：李飞飞用 Marble 想做什么？AI 缺的不仅是"看"，还有"理解空间"的能力。我们教会了

2023年，李飞飞离开斯坦福创办了一家叫 World Labs 的公司，外界一头雾水。两年后，她拿出一个产品叫 Marble——一张图就能生成一个 3D 世界。外行人看热闹，内行人开始冒冷汗：这个方向如果成了，比大语言模型的影响还要深远。

为什么是李飞飞？

在 AI 圈，李飞飞是一个有点特殊的存在。

她是斯坦福大学教授、斯坦福 AI Lab 主任、Google Cloud 首席科学家——但让她真正家喻户晓的，是 ImageNet。

2010 年代初，她推动创建了 ImageNet，一个包含1400万张图片的数据库，直接奠定了深度学习革命的数据基础。没有 ImageNet，就没有后来 AlexNet 在图像识别上的突破，也就没有这十年 AI 视觉的飞速发展。

但到了 2020 年代中期，她开始公开谈论一个观点：AI 缺的不仅是"看"，还有"理解空间"的能力。

"我们教会了 AI 认出一只猫，但我们没有教会它理解猫为什么会在窗台上，窗台外面的世界是什么样的，如果猫跳下去会落在哪里。"

这就是她所说的"空间智能"——让 AI 理解三维世界、在空间中行动、预测物理世界的运作方式。

2023 年，她离开斯坦福，创办 World Labs，专注解决这个问题。

Marble，是 World Labs 的第一个商用产品。

Marble 是什么？

简单说：Marble 是一个能把 2D 信息"脑补"成完整 3D 世界的 AI 模型。

你给它一张图、一段文字，甚至一段粗糙的 3D 草图，它会生成一个可以自由探索的三维场景——有光照、有材质、有空间纵深，能在场景里走动、旋转视角、放大缩小，甚至能导出为工业标准格式供游戏引擎和影视软件使用。

它不是在"拼贴"素材，也不是在"查数据库"——它是在推理这个世界应该长什么样。向阳面应该更亮，背阳面应该有阴影；地板是硬的所以影子会落在地面，天空是远的所以云会退到远处变小。

这正是"世界模型"的含义：AI 不是在生成图片，而是在建立对这个世界的内部理解，并基于这种理解来"想象"它没看到过的角度和空间。

拿两张图试了一下

我拿了两张完全不同的图做了测试——

第一张，是一张游戏场景截图，输入 Marble 后生成的是一个可自由探索的 3D 世界。夕阳低角度打过来，向阳面的地面泛着暖橙色，背阳的角落自然沉入阴影。连云彩的受光面都比背光面更亮，体积感就这样出来了。

上传图片

panorama-2026-04-13T08_55_22.208Z.png

3D截图

第二张，是 Pixel Agent 界面截图——一个 AI 编程助手的使用界面。生成的 3D 场景则完全不同，是一个真实感的室内办公环境，码农工位的质感：显示器、键盘、水杯、光线透过百叶窗落进来。

上传图片

screenshot-2026-04-13T10_01_55.399Z.png

3D截图

两张截然不同的输入，生成了两个截然不同的世界——Marble 对输入内容的"理解"，不只是识别"这是一张游戏图"，而是识别了这张图背后的空间逻辑和物理规律。

当然也有不足：远景的边缘偶有棱角感，生成一次大约需要 5 分钟，加载显示又要 3 分钟左右，距离"秒级生成"还有距离。但以它能达到的效果来说，这些等待是值得的。

4月8日：Marble 1.1 来了

就在上周，World Labs 发布了 Marble 1.1 和 Marble 1.1-Plus 两款更新。

这次迭代的重点是质量和规模的全面提升：

Marble 1.1（新默认版本）：光照系统升级，对比度和视觉一致性更好，适合日常创作
Marble 1.1-Plus（超大场景专用）：专为城堡、荒野、建筑群等复杂大规模场景设计，支持显示建筑内部细节

两个版本形成互补——1.1 负责"稳和好看"，1.1-Plus 负责"大和复杂"。

有意思的是计费模式：1.1-Plus 采用了按场景规模浮动收费，1500 积分基础费加上 0~1500 的浮动费用，场景越大越复杂，价格越高。这是行业首次采用这种可变计费机制，也说明 World Labs 对大模型渲染成本的信心。

她的真正野心

Marble 的 3D 生成，只是李飞飞"空间智能"拼图里的第一块。

在 World Labs 的官方表述里，空间智能的终极目标是：让 AI 像人类一样整合视觉、声音、触觉和语言，构建对世界的完整理解，并能在其中行动。

这指向的方向，是机器人和具身智能。

一个机器人要在真实世界里工作，它必须理解空间：哪里能走，哪里有障碍，物体之间的位置关系，光线从哪里来、影子落在哪里，玻璃是透明的还是反光的。这些对人类来说理所当然的事，对 AI 来说一直是短板。

Marble 在学习的，正是这些。李飞飞在给它投喂大量 2D 图像，让它学会"脑补"这些图像背后缺失的三维信息。一旦这个能力成熟，它就不只是一个 3D 生成工具，而是机器人在真实世界里行动的认知基础。

从这个角度看，Marble 现在的"好玩"——把游戏截图变成可探索的世界，把办公室界面截图变成真实的室内场景——只是这块地基上最先露出地面的那层楼。

下面的楼层，是机器人的空间感知，是具身智能对物理世界的理解，是 AI 从"看图说话"到"在世界中行动"的跨越。

结语

过去几年，我们见证了 AI 在二维世界里的一场又一场革命——文本、图像、视频。每一场都足够震撼。

但李飞飞在做的，是把 AI 往第三维推。

一张游戏截图进去，一个世界出来。光线、云彩、阴影、空间纵深——AI 不是在猜测，它是在推理这个世界应该是什么样子的。

这个方向如果成了，影响的不只是游戏和影视。

是每一个需要在真实空间里行动的人工智能系统。

值得认真盯着。

去试试？ marble.worldlabs.ai 目前有免费额度，一张图片就能开始。

也欢迎关注公众号「神经漫谈」，比掘金更新更快，内容更丰富