李飞飞Marble 3D世界模型免费开放!实测体验Marble 的技术能做什么、还不能做什么

94 阅读9分钟

在生成式AI快速发展的今天,当我们已经习惯了文本生成图像、视频生成模型时,李飞飞团队带来的Marble给出了一个不同的方向——世界模型

这一由她创立的World Labs公司推出的首款商用产品,既不局限于二维图像生成,也不仅仅是视频序列的创建,而是旨在构建完整的三维空间

一、产品定位:从 “空间生成” 切入的世界模型实践

世界模型的核心定义是让 AI 构建环境内部表征,实现状态预测与行动规划,但不同技术路线对这一概念的落地方式存在显著差异。Marble 选择了一条务实的商业化路径:聚焦 “3D 空间资产生成”,而非追求全场景物理交互或抽象认知能力。

其核心定位可概括为 “专业级 3D 内容生产工具”—— 通过多模态输入快速生成可编辑、可导出的虚拟环境,帮助创作者缩短从创意到资产的转化周期。这与谷歌 Genie 侧重 “动态交互模拟”、LeCun 的 JEPA 聚焦 “抽象因果推理” 形成了鲜明的技术分野,也使其成为首个实现完整商用闭环的世界模型产品。

从技术演进来看,Marble 并非一蹴而就:2023 年 12 月的早期版本仅支持单图生成卡通化场景,且存在移动范围受限的问题;2025 年 Beta 版提升了视觉保真度,但边缘形变与意图还原度不稳定;直至正式版推出,才实现了多模态输入支持与核心编辑功能的完善。这种迭代节奏也反映了 3D 世界生成技术从实验室走向市场的典型路径。

二、核心技术架构与功能设计

1. 底层技术:高斯溅射驱动的 3D 生成方案

Marble 采用高斯溅射(Gaussian Splatting)技术作为核心渲染架构,通过数亿个半透明粒子模拟物体光学特性,实现细节与效率的平衡。与传统网格建模相比,该技术无需复杂拓扑结构设计,能快速将 2D 输入转化为可自由探索的 3D 场景,同时支持导出为高斯点云、网格等工业级格式,适配下游工具链。

其技术流程可简化为三步:首先通过输入内容(文本 / 图像 / 视频)解析空间几何关系,生成深度地图与边界轮廓;其次基于训练数据学习的特征映射,还原光照、材质等细节元素;最后通过粒子渲染算法输出完整 3D 环境,确保场景在不同视角下的一致性。

2. 核心功能:以 “创意控制权” 为核心的设计逻辑

Marble 的功能迭代始终围绕 “提升用户控制能力” 展开,关键特性包括:

  • 多模态输入兼容:支持文本、单图、多角度照片(最多 8 张)及短视频输入,其中多图 / 视频输入大幅提升了数字孪生场景的还原精度,减少了单图输入导致的 “脑补” 误差。
  • 结构 - 风格解耦编辑:通过实验性编辑器 Chisel,用户可先以基础几何体搭建空间框架(类似 HTML 结构定义),再通过文本提示定义视觉风格(类似 CSS 样式设置),支持直接拖拽 3D 物体调整位置。
  • 场景扩展与组合:支持单场景边缘扩展补充细节,及 “合成器模式” 下多个独立场景的无缝拼接,解决了早期版本空间规模受限的问题。
  • 全链路工具适配:生成结果可直接导出至 Unity、虚幻引擎等专业工具,同时兼容 Apple Vision Pro、Meta Quest 3 等 VR 头显,实现从生成到应用的闭环。

3. 商业化模式:分层订阅适配不同需求

产品采用四级订阅体系,覆盖从个人尝鲜到企业商用的全场景:

  • 免费版:4 次生成额度,支持基础文本 / 图像输入;

  • 标准版(20 美元 / 月):12 次生成,解锁多图 / 视频输入与高级编辑;

  • 专业版(35 美元 / 月):25 次生成,含场景扩展与商业使用权;

  • 旗舰版(95 美元 / 月):75 次生成,开放全部功能。

    在这里插入图片描述

这种定价策略既降低了普通用户的尝试门槛,也通过商业授权与高级功能满足了专业团队的生产需求,体现了其 “工具化” 的产品定位。

三、实测表现:优势与局限的客观呈现

1. 已验证的技术优势

  • 生成效率显著提升:相比传统 3D 建模数周的制作周期,Marble 生成基础场景仅需数分钟,好莱坞团队已通过其将电影预演周期从 3 个月压缩至 2 天。

  • 小范围场景质量可靠:在 “房间级” 静态环境生成中,几何结构完整性与风格一致性表现突出,纹理精度可达实用级别,尤其适合游戏背景、影视场景原型等需求。

    在官网展示的部分“世界模型”中有的场景效果还是比较惊艳的。

    在这里插入图片描述

  • 工具链兼容性成熟:导出格式覆盖高斯点云、网格、视频等类型,与主流开发工具的对接流畅度高于同类产品,可直接嵌入现有生产管线。

  • VR 适配体验流畅:据报道,在 Vision Pro 与 Quest 3 上的实测显示,场景加载流畅度较传统方法提升 40%,沉浸感表现优于 2D 转 3D 的同类方案。

2. 尚未解决的技术局限

  • 大范围场景质量衰减:实测发现,当场景规模超出 “房间级” 范围后,远离生成原点的区域会出现模糊、扭曲等失真现象,“原点精细、周边塌缩” 的问题仍未完全解决。

    下图是实测上传一张乡间小路的图片后在提示词中要求加上城堡等元素后生成的“世界”,可以看到生成的“世界模型”中的风车出现了明显重影,走到远处的高山看的话非常的模糊。

    在这里插入图片描述 在这里插入图片描述 在这里插入图片描述

  • 多图合成稳定性不足:多名用户反馈多图生成任务存在长时间加载卡顿的情况,复杂场景下的合成成功率有待提升。

  • 动态交互能力缺失:当前版本仅支持静态场景生成,无法处理人物、动物等动态主体,也不具备物理规律模拟能力,本质上仍是 “空间容器” 而非 “智能世界”。

  • 意图还原存在波动:TechCrunch 等媒体实测显示,同一提示词在 Beta 版与正式版中的生成结果存在视觉契合度差异,部分复杂指令的还原精度仍需优化。

    下图是实测上传一张办公室照片后要求加入机器人和咖啡机元素后生成的“世界”,期望的咖啡机变成了饮料售卖机了。 在这里插入图片描述 在这里插入图片描述

四、适合哪些场景,不适合哪些

现阶段最匹配

  • 概念美术快速白盒:给策划 5 分钟搭一个可走的房间。

  • 房产/电商展示:把现有照片升级成“能走进去”的 VR 链接。

  • 游戏地形初稿:导出高斯点云 → Blender 减面 → Unity 刷植被。

暂不适合

  • 机器人仿真:缺少刚体、摩擦、质量参数。

  • 影视级镜头:玻璃、水面瑕疵会被特写放大(做过高斯溅射技术的应该对这方面的挑战有所了解)。

  • 大尺度城市场景:一次性生成>100 m 范围会丢失细节。

五、行业定位与未来展望

1. 技术路线的行业价值

Marble 的出现填补了 “3D 内容快速生成工具” 的市场空白,其技术路线的意义在于:

  • 降低 3D 创作门槛:让非专业用户也能参与虚拟场景构建,为 VR / 元宇宙等领域补充优质内容供给;
  • 探索空间智能落地路径:通过 “可视化 + 工具化” 的方式,将世界模型的抽象概念转化为可感知的产品,为后续技术迭代积累了真实用户数据;
  • 提供差异化竞争样本:在世界模型的三大技术范式(界面生成、模拟器、认知框架)中,Marble 明确了 “前端资产生成器” 的定位,与谷歌 Genie、LeCun 的 JEPA 形成互补。

2. 短期应用与长期挑战

从当前技术成熟度来看,Marble 的高价值场景集中在:

  • 游戏开发:快速生成背景环境与氛围场景,作为引擎二次开发的基础资产;
  • 影视 VFX:解决 AI 视频生成的帧间不一致问题,提供帧级精度的布景与运镜控制;
  • VR 内容创作:快速填充 VR 设备的内容生态,降低沉浸式场景的开发成本;
  • 机器人仿真:为缺乏训练数据的机器人领域提供低成本仿真环境。

长期来看,其发展仍面临三大挑战:一是动态内容生成技术的突破,需解决人物、物体的交互逻辑模拟;二是大规模场景的一致性优化,突破当前 “房间级” 的规模限制;三是与物理规律的深度融合,从 “表面渲染” 向 “本质理解” 演进,真正贴近世界模型的核心定义。

六、总结

Marble 作为世界模型赛道的商用产品,既不是 “颠覆行业的终极解决方案”,也非 “过度营销的概念产品”,而是一款 “在现有技术边界内实现实用化” 的创新工具。它以高斯溅射技术为基础,通过人性化的编辑设计与清晰的商业化路径,验证了空间智能技术的商业价值,同时也坦诚地展现了该领域仍需跨越的技术鸿沟。

对于创作者而言,Marble 值得作为 3D 内容生产的 “效率工具” 纳入工作流,但需理性预期其能力边界;对于行业而言,它的意义在于提供了世界模型商用化的 “初代样本”,为后续技术迭代与标准制定奠定了基础。随着动态交互、大规模场景生成等技术的突破,这类产品有望真正推动 AI 从 “语言智能” 走向 “空间智能”,为游戏、影视、机器人等领域带来更深远的变革。