本文主要分享 Let's Vision 中与空间主题相关的所见所闻,文中带有个人观点,非会议目的或观点。
背景
Let's Vision 是一场产品秀,主办方 SwiftGG 长期探索并推动以 Apple 生态为核心的技术社区发展。参会者既有自媒体博主,也有寻求合作与曝光的品牌方,还有来自大公司的技术布道者。此次会议分为 AI 与空间视觉两个主题:空间视觉分会场上座率约一半,而 AI 会场几乎座无虚席。本文只讨论与空间视觉相关的内容。
驶向哪里
当大多数人都在关注 AI 应用、思考如何不掉队时,还有一部分人在提前布局,争取拿到“下一班列车”的入场票。不同团队通过不同产品,展示了从二维交互走向三维交互的探索路径。
动力升级
2025 年可以说是多媒体模型大幅跃迁的一年。以 NanoBanana、Seedance 为代表的模型,让图像生成从“蜡像感”快速走向写实,具备更广泛认可的审美,甚至带动了短剧和漫剧创作热潮。
这类模型迭代之所以如此迅速,一方面是扩散路线相较自回归更容易落地,另一方面是大模型厂商已积累或可索引的大规模音视频数据,为训练与优化提供了充足基础。
而在 3D 空间里,内容载体通常是具备完整空间语义的模型文件。它不仅描述几何结构和材质贴图,还包含光照、骨骼、动画、碰撞体等与交互和物理反馈直接相关的信息,因此单个实体的信息密度远高于视频中的对应对象。
也正因如此,若要在 3D 设备上提供逼真的沉浸体验,前提仍是 3D 模型能力本身的持续进步。
目前 3D 相关模型大致分为三类:3D 素材生成模型、视频模型、世界模型。
- 素材生成模型:已有多家创业公司布局,如 Meshy、Tripo、hyper3d。这类产品可通过文字或图片生成 3D 模型并绑定骨骼动画。实测来看仍处于早期阶段:质量上限不高、细节可控性不足,瓶颈仍在素材生成能力本身。
- 世界模型:能够理解世界规律,并使行为或产物遵循这些规律,对具身智能意义重大。
- 视频模型:以视频为载体,内容贴近真实物理逻辑;若能实现实时生成,就有机会在“观看”基础上进一步带来与虚拟世界交互的近真实体验。
值得一提的是,3 月 30 日,国产世界模型 GigaWorld-1 在相关榜单上超越了英伟达 2024 年底发布的 Cosmos,感兴趣可以关注。
虽然模型能力在不断刷新上限,但 3D 产品竞争的核心,依然是质感与交互细节。 3D 产品对视觉效果高度敏感。精细画面和高质量建模通常成本很高,但 AI 的出现让开发者能把更多时间从“搭建和调试”转向“质量与细节打磨”,把精力更集中地投入产品本身。 在 3D 场景中,视觉反馈和交互体验直接影响用户是否愿意继续使用;一旦反馈粗糙或交互生硬,用户很容易产生无力感,难以沉浸,并迅速流失。
现阶段 AI 仍难以稳定产出高质量 3D 模型(如 Tripo、Meshy 的结果上限和稳定性都有限),因此高品质模型与交互仍需要长期人工打磨,而 AI 的价值主要体现在提升开发效率、释放打磨空间。
Caradise 的实践也印证了这一点:他们始终以热情与长期主义为核心,在 AI 提效的基础上,把精力持续投入到模型与交互细节的打磨中,稳定输出高质量的 3D 产品体验。 在上午的分享中,Caradise 带来了很强的冲击力:它不仅支持通过 AI 对话实时调整汽车的尺寸、颜色等属性,更令人印象深刻的是模型质感与交互流畅度。 演示里,一辆汽车从空中“落地”时的轻微震动反馈,清晰传达了接触地面的力学感;随后又实时切入车内视角并启动车辆,配合逼真的引擎声,显著增强了沉浸感。
虽然画面与现实仍有差距,但其光影与纹理表现已经达到很高完成度。
联合铺轨
一般来说,行业要加速发展,首先需要降低入场门槛。这样会吸引更多人加入,带来更多技术突破,进一步降低整体成本,最终形成“更多玩家参与—行业持续加速”的正循环。
字节 Pico 旗下技术团队正在面向开发者布局,推出了 WebSpatial 这样的产品,帮助开发者从 Web App 快速过渡到 Vision Pro 3D 应用。开发者或 AI 只需以非破坏方式为 HTML 增加属性,就能让元素在 Vision Pro 中呈现 3D 效果。
当更多类似技术基建出现后,会对开发者形成明显吸引力,推动更多人加入 3D 生态:一方面带来更多技术突破,另一方面也会倒逼设备厂商持续优化体验。
提速瓶颈
另一个让人印象深刻的体验来自 穹界影创。他们使用双目鱼眼镜头电影机拍摄空间视频,佩戴 Vision Pro 观看时,与平面设备观感差异明显:
- 团队先将广角素材校正为接近标准镜头(约 40mm-60mm)的画面,因此在设备中的观看感受更接近人眼自然视角。
- 当画面中的人物向前靠近时,临场感明显增强,容易产生“有人正走近自己”的真实感。
- 观看时无需刻意保持固定姿态来配合设备,视角与注意力可以自然联动,整体体验更接近现实观察。
但目前仍有一些不足:
- 16K 视频在观察细节时仍会出现模糊。一方面是相机传感器仍不及人眼,另一方面是全景观看会放大这种模糊感。
- 视频体量极大,对制作、存储、处理、传输、播放等环节都提出了很高的性能与成本要求,10 分钟 RAW 视频可能达到数十 TB。
- 视频录制成本较高,佳能双目相机约万元起步,对短视频创作者而言门槛明显。
可以看到,要克服以上限制,需要同时期待视频编解码技术和硬件技术进步。
- 例如新编解码标准 AV1(2025 年底获艾美奖电视工程技术类奖项),在减少画质损失的同时,带来了更高压缩率和更高编解码效率。
- 同时,也需要将大体量信息通过无线方式快速传输到 3D 设备,且不过载,这可能涉及芯片与网络传输等多方面的迭代。
总的来说,这场会议展现了 AI 时代下 3D 技术的现状、目标、困境与想象。这个行业的发展大概率仍是一个相对漫长的过程,不同团队会在各自的小方向持续推进;当关键要素逐步齐备后,行业才可能进入真正的加速期。