下一班列车背景 Let's Vision 是一场产品秀，主办方 SwiftGG 长期探索并推动以 Apple 生态为核心

本文主要分享 Let's Vision 中与空间主题相关的所见所闻，文中带有个人观点，非会议目的或观点。

背景

Let's Vision 是一场产品秀，主办方 SwiftGG 长期探索并推动以 Apple 生态为核心的技术社区发展。参会者既有自媒体博主，也有寻求合作与曝光的品牌方，还有来自大公司的技术布道者。此次会议分为 AI 与空间视觉两个主题：空间视觉分会场上座率约一半，而 AI 会场几乎座无虚席。本文只讨论与空间视觉相关的内容。

驶向哪里

当大多数人都在关注 AI 应用、思考如何不掉队时，还有一部分人在提前布局，争取拿到“下一班列车”的入场票。不同团队通过不同产品，展示了从二维交互走向三维交互的探索路径。

动力升级

2025 年可以说是多媒体模型大幅跃迁的一年。以 NanoBanana、Seedance 为代表的模型，让图像生成从“蜡像感”快速走向写实，具备更广泛认可的审美，甚至带动了短剧和漫剧创作热潮。
这类模型迭代之所以如此迅速，一方面是扩散路线相较自回归更容易落地，另一方面是大模型厂商已积累或可索引的大规模音视频数据，为训练与优化提供了充足基础。

而在 3D 空间里，内容载体通常是具备完整空间语义的模型文件。它不仅描述几何结构和材质贴图，还包含光照、骨骼、动画、碰撞体等与交互和物理反馈直接相关的信息，因此单个实体的信息密度远高于视频中的对应对象。
也正因如此，若要在 3D 设备上提供逼真的沉浸体验，前提仍是 3D 模型能力本身的持续进步。

目前 3D 相关模型大致分为三类：3D 素材生成模型、视频模型、世界模型。

素材生成模型：已有多家创业公司布局，如 Meshy、Tripo、hyper3d。这类产品可通过文字或图片生成 3D 模型并绑定骨骼动画。实测来看仍处于早期阶段：质量上限不高、细节可控性不足，瓶颈仍在素材生成能力本身。
世界模型：能够理解世界规律，并使行为或产物遵循这些规律，对具身智能意义重大。
视频模型：以视频为载体，内容贴近真实物理逻辑；若能实现实时生成，就有机会在“观看”基础上进一步带来与虚拟世界交互的近真实体验。

值得一提的是，3 月 30 日，国产世界模型 GigaWorld-1 在相关榜单上超越了英伟达 2024 年底发布的 Cosmos，感兴趣可以关注。

虽然模型能力在不断刷新上限，但 3D 产品竞争的核心，依然是质感与交互细节。 3D 产品对视觉效果高度敏感。精细画面和高质量建模通常成本很高，但 AI 的出现让开发者能把更多时间从“搭建和调试”转向“质量与细节打磨”，把精力更集中地投入产品本身。在 3D 场景中，视觉反馈和交互体验直接影响用户是否愿意继续使用；一旦反馈粗糙或交互生硬，用户很容易产生无力感，难以沉浸，并迅速流失。
现阶段 AI 仍难以稳定产出高质量 3D 模型（如 Tripo、Meshy 的结果上限和稳定性都有限），因此高品质模型与交互仍需要长期人工打磨，而 AI 的价值主要体现在提升开发效率、释放打磨空间。

Caradise 的实践也印证了这一点：他们始终以热情与长期主义为核心，在 AI 提效的基础上，把精力持续投入到模型与交互细节的打磨中，稳定输出高质量的 3D 产品体验。在上午的分享中，Caradise 带来了很强的冲击力：它不仅支持通过 AI 对话实时调整汽车的尺寸、颜色等属性，更令人印象深刻的是模型质感与交互流畅度。演示里，一辆汽车从空中“落地”时的轻微震动反馈，清晰传达了接触地面的力学感；随后又实时切入车内视角并启动车辆，配合逼真的引擎声，显著增强了沉浸感。
虽然画面与现实仍有差距，但其光影与纹理表现已经达到很高完成度。

caradise

联合铺轨

一般来说，行业要加速发展，首先需要降低入场门槛。这样会吸引更多人加入，带来更多技术突破，进一步降低整体成本，最终形成“更多玩家参与—行业持续加速”的正循环。

字节 Pico 旗下技术团队正在面向开发者布局，推出了 WebSpatial 这样的产品，帮助开发者从 Web App 快速过渡到 Vision Pro 3D 应用。开发者或 AI 只需以非破坏方式为 HTML 增加属性，就能让元素在 Vision Pro 中呈现 3D 效果。

当更多类似技术基建出现后，会对开发者形成明显吸引力，推动更多人加入 3D 生态：一方面带来更多技术突破，另一方面也会倒逼设备厂商持续优化体验。

提速瓶颈

另一个让人印象深刻的体验来自穹界影创。他们使用双目鱼眼镜头电影机拍摄空间视频，佩戴 Vision Pro 观看时，与平面设备观感差异明显：

团队先将广角素材校正为接近标准镜头（约 40mm-60mm）的画面，因此在设备中的观看感受更接近人眼自然视角。
当画面中的人物向前靠近时，临场感明显增强，容易产生“有人正走近自己”的真实感。
观看时无需刻意保持固定姿态来配合设备，视角与注意力可以自然联动，整体体验更接近现实观察。

但目前仍有一些不足：

16K 视频在观察细节时仍会出现模糊。一方面是相机传感器仍不及人眼，另一方面是全景观看会放大这种模糊感。
视频体量极大，对制作、存储、处理、传输、播放等环节都提出了很高的性能与成本要求，10 分钟 RAW 视频可能达到数十 TB。
视频录制成本较高，佳能双目相机约万元起步，对短视频创作者而言门槛明显。

可以看到，要克服以上限制，需要同时期待视频编解码技术和硬件技术进步。

例如新编解码标准 AV1（2025 年底获艾美奖电视工程技术类奖项），在减少画质损失的同时，带来了更高压缩率和更高编解码效率。
同时，也需要将大体量信息通过无线方式快速传输到 3D 设备，且不过载，这可能涉及芯片与网络传输等多方面的迭代。

总的来说，这场会议展现了 AI 时代下 3D 技术的现状、目标、困境与想象。这个行业的发展大概率仍是一个相对漫长的过程，不同团队会在各自的小方向持续推进；当关键要素逐步齐备后，行业才可能进入真正的加速期。