刚刚,李飞飞最新成果发布,手机也能跑亿级粒子的 3D 世界了|附体验地址

1 阅读10分钟

P.S. 无意间发现了一个巨牛的人工智能教程,忍不住分享一下给大家。很通俗易懂,重点是还非常风趣幽默,像看小说一样。网址是captainbed.cn/jj。希望更多人能加入到我们AI领域。

前言

卧槽!真的假的?!就在刚刚,我手机浏览器里跑起来了一个亿级粒子的3D世界... 不是啥App,就是普普通通的Chrome!这玩意儿要是放在一年前,我绝对会觉得你在逗我。

但李飞飞团队真的做到了。4月15号,World Labs甩出一记王炸——Spark 2.0正式开源。这玩意儿是个啥?简单说,它让咱们普通人的手机,都能流畅渲染超过1亿个3D高斯粒子。对,你没听错,1亿+!

先扔体验地址,手慢无:

  • 官方博客:worldlabs.ai/blog/spark-2.0
  • 游戏Demo Starspeed:starspeed.game(超1亿splat的太空射击)
  • 艺术展示Dormant Memories:smallfly.com/dormant_memories
  • 手机实测合集:works.lilea.net/spark(Quest/Vision Pro都能跑)

手机跑3D世界?以前的想都不敢想

说实话,搞AI这几年,我见过太多"革命性发布"了。但大部分时候,所谓的"惊艳Demo"都得配着4090显卡才能看。手机?想都别想,卡成PPT都是给你面子。

但李飞飞这次真的不一样。我在iPhone 15 Pro上试了下那个Coit Tower场景——4000万个splats,丝滑!不是勉强能动的那种,是真的能拖动视角、缩放、转场,帧率稳得一批。

这背后是个啥概念?得先科普一下这个"splat"是啥鬼东西。

3DGS:不是靠三角面,是靠"泼溅"

传统3D建模咋做的?三角形面片拼呗。一块一块贴图,堆出个人物或者建筑。这方法用了几十年,但有个死穴——要想细节够真,面片数量爆炸,算力需求直接上天。

2023年火起来的3D Gaussian Splatting(3D高斯泼溅,简称3DGS),完全是另一条路子。它不用三角面,用的是几百万个半透明椭球体,每个叫做一个"splat"(泼溅体)。

你想象一下,就像用无数个小水滴去"泼"出一个场景。每个水滴都有自己的位置、颜色、透明度,边缘是虚化的,跟真实世界的光晕一样。几百万个这样的小东西叠在一起,出来的效果比硬邦邦的三角面真实太多了。

但问题来了——这玩意儿太吃数据了!

算笔账你就懂了:

  • 一个中等质量的3DGS场景:500万~1000万个splat
  • 高质量扫描场景:轻松4000万+splat
  • 文件体积:1GB起步,2GB常态
  • 普通手机渲染上限:100万~500万个splat

看到差距了吗?差着一个数量级呢!所以之前的3DGS应用,基本都得下载专用App,还要最新款旗舰机。想在浏览器里跑?别闹了,WebGL那点性能,分分钟被榨干。

Spark 2.0的三板斧:砍的就是性能瓶颈

李飞飞团队搞Spark,最开始其实是给自己用的。他们的Marble平台生成3D世界,总得有东西渲染出来吧?结果市面上的渲染器各种拉胯——有的只能渲染单个对象,有的依赖WebGPU(很多设备不支持),还有的不支持动态动画。

得,求人不如求己,自己造一个!

Spark 1.0解决了多对象共存的问题,但4000万splat的场景还是搞不定。于是就有了这次开源的Spark 2.0。我研究了下技术博客,发现他们干了三件狠事:

第一斧:LoD细节层级,该糊的时候故意糊

游戏里常用的套路——远处的树糊一点,近处的树清晰点。Spark 2.0把这个逻辑搬到了splat上,但做得更绝。

它搞了个连续LoD树,能根据视角距离动态调整splat密度。你看向远处山脉时,可能就加载几百万个splat;一转头看向面前的花朵,瞬间切到高密度模式,细节拉满。

说白了就是,永远只渲染"刚好够用"的信息量。不搞暴力堆料,精准打击。

第二斧:.RAD格式,像刷抖音一样流式加载

1GB的3D场景,如果等全部下载完再渲染,黄花菜都凉了。Spark 2.0搞了个.RAD格式,支持渐进式流式传输。

啥意思?就像你看在线视频,先出个模糊画面,然后慢慢变清晰。.RAD格式的3D世界也是这样,先进来个低精度版本让你马上能玩,然后后台偷偷加载高精度数据,不知不觉中画质就拉满了。

这才是人干事!谁愿意盯着加载圈转半天啊。

第三斧:虚拟分页,让手机内存不再爆缸

这是我觉得最骚的操作。Spark 2.0借鉴了操作系统的虚拟内存机制!

它在GPU上固定分配一块内存池(上限1600万个splat),然后用页表管理哪些数剧当前在GPU里。需要渲染新区域时,把对应的.RAD数据块调进来;内存满了就把最久没用的踢出去。

理论上,只要网速够,无限大的世界都能无缝拼接。手机GPU那点显存,再也不怕被撑爆了。

技术底座选得也贼稳:

  • 基于Three.js——Web端最流行的3D框架
  • 跑在WebGL2上——兼容几乎所有现代设备
  • 纯浏览器实现——不用装App,一个链接直接进

实测体验:这玩意儿真能玩游戏了

技术吹得再好,不如看实际效果。我试了几个官方推荐的Demo,真的被惊到了。

Starspeed(星际射击游戏)——这游戏场景由超过1亿个splat构建,带10首合成波风格BGM。我在MacBook Pro上玩了会儿,帧率稳定60fps,画面是赛博朋克风的太空站,细结爆炸,金属反光、霓虹灯晕,全是splat泼出来的质感。

更离谱的是,这游戏支持多人联机!浏览器里跑1亿粒子的大型3D游戏,还联机?放在半年前说这话,我得被人当成骗子打出去。

Dormant Memories(艺术展示)——这是互动体验工作室Dpt.联合创始人Hugues Bruyère的作品。他把真实地点的3D扫描和想象空间并置,搞处种现实与虚构模糊边界的感觉。我在手机上滑了几下,转场 smooth 得一塌糊涂。

还有个叫藤原龍的开发者(Hololive空间信息技术部门的),用Spark渲染了好几个大型真实捕获场景,单场景最高4000万splat。iPhone、Quest、Vision Pro全都能流畅跑。

这意味着啥?Web端的元宇宙,真的开始落地了。不是那种需要下载几十G客户端的元宇宙,是点开链接就能进的元宇宙。

开源背后的大棋:从生成到交付的闭环

李飞飞在Twitter上发了句话,挺耐人寻味的。她说:"Spark 2.0现在可以在任何设备上流缠播放超过1亿个splat对象,非常荣幸能为基于Web的3DGS渲染开源生态系统做出贡献。"

注意关键词——"开源"、"生态系统"。

她没吹"我们技术多牛批",而是强调给社区做了贡献。这格局,明显是在布更大的局。

你看啊,World Labs的商业版图是这样的:

Marble平台——用一张图或一句话生成3D世界(前几天刚发了1.1和1.1-Plus版本,几分钟就能"搬"个真实房间进3D)。

Marble Studio——把多个3D世界拼合成更大的场景。

Spark 2.0——开源渲染引擎,解决"怎么把3D世接交付给每个人"的最后一公里。

这条链路现在已经跑通了:AI生成 → 工具编辑 → 网页交付。全是基于浏览器的,没有App Store审核卡脖子,没有高昂的下载门槛。

这商业模式,懂的都懂。Marble已经开始收费了,免费版给4次生成,标准版20美元/月,旗舰版95美元/月解锁全部功能。Spark开源了,用的人越多,Marble生成的内容传播就越顺畅,生态滚起来,钱自然就来了。

空间智能的临门一脚

说实话,看完Spark 2.0的发布,我最大的感触不是"技术多先进",而是"体验门槛被砍到脚踝了"。

以前的3D内容,你得装Unity、得学Unreal、得有高配电脑。现在呢?拍几张照片,扔给Marble,等几分钟,拿到一个链接,往微信群里一甩,所有人都能点进去逛。

这才是AI民主化的正确打开方式。不是只在实验室里跑分,是让普通人的手机浏览器,都能承载亿级粒子的虚拟世界。

李飞飞去年说,空间智能是AI的下一个前沿。当时我还觉得这话有点虚,现在看,这老太太(尊称尊称)是真的一步一个脚印往那儿走啊。从12月份的首个空间智能模型,到今年的Marble商用,再到现在的Spark 2.0开源,节奏卡得死死的。

而且你们发现没?最近空间智能这块卷起来了。谷歌DeepMind的Genie 2、杨立昆团队的LeWorldModel,都在搞3D世界生成。但World Labs的优势在于——他们不仅生成世界,还解决了交付世界的问题。

生成很重要,但能让每个人都体验到,更重要。Spark 2.0这步棋,走的就是这个"最后一公里"。

一些胡思乱想

  • 以后看房是不是不用实地跑了?中介扔个链接,手机里逛遍每个角落
  • 电商商品展示会不会变成3D的?买衣服前先"走进"那个场景看看搭配
  • 游戏开发门槛暴跌,独立开发者用AI生成场景+Spark渲染,能在浏览器里做出3A级画面
  • 最骚的是,这玩意儿跑在浏览器里,意味着微信小程序、H5页面,全部能接入...

结语:一行链接,交付世界

Spark 2.0的slogan特别简单——"一行链接,交付世界"。

我一开始觉得这话有点吹牛逼,但试完Demo后,真香。就是一个URL,点开,等几秒流式加载,然后你就能在一个亿级粒子的3D世界里随便逛了。不用装东西,不用配环境,手机电脑VR通吃。

这让我想起互联网早期,从FTP下载电影到在线流媒体看4K的转变。技术本质没大变,但体验门槛的降低,直接改变了整个行业。

3D内容现在就在这个拐点上。Spark 2.0不是技术突破(LoD、流式加载、虚拟内存都不是新东西),它是工程突破——把这些技术揉在一起,在浏览器里跑通了,还开源了。

接下来的故事,估计就是各路开发者基于Spark搞出各种神级应用了。我赌五毛钱,今年下半年肯定会出现爆火的3D版"羊了个羊",或者什么现象级Web 3D游戏。

毕竟,当技术门槛被踩到脚底,创意就该起飞了。

不说了,我去研究怎么用Marble生成我家小区的3D场景了,到时候往业主群里一发,吓死那帮还在用平面户型图的大爷大妈...

体验地址汇总(建议收藏)

🔹 Spark 2.0官方博客:worldlabs.ai/blog/spark-2.0 🔹 GitHub开源地址:搜"World Labs Spark"就能找到 🔹 游戏Demo Starspeed:starspeed.game(支持多人联机!) 🔹 艺术展示Dormant Memories:smallfly.com/dormant_memories 🔹 多设备实测:works.lilea.net/spark(手机/Quest/Vision Pro对比)

P.S. 想要系统学习AI的朋友可以去看看那个人工智能教程[captainbed.cn/jj](captainbed.cn/jj