iPhone 15 Pro / Apple Vision Pro 上的空间视频,到底是什么?

270 阅读12分钟

XR 基地是一个专注于凝聚 XR 的创作者社区,我们的目标是 让 XR 开发变得更简单!

本文 首发于 XR 基地官网XR 基地公众号

对于大部分消费者来说,Apple 秋季新品发布会中提及到的“空间视频”,可能只是众多特性中不太起眼的一个。之所以不太起眼,大概是因为除了发布会上的这一段展示,我们很难以更深入的视角去获悉空间视频看起来会是什么感觉:

尽管现在还看不到“空间视频”,但其实,从 Xcode 15 beta 8 开始,开发者们就可以通过 visionOS 中内置的相册 App 的启动屏,对“空间照片”的具体观看体验有一个大概的了解了:

那么在接下来的文章中,我们将会一起聊聊和“空间”相关的三件事:

  1. 如何在模拟器中体验空间照片
  2. 空间视频/照片到底是什么
  3. Apple 到底做了什么

如何在模拟器中体验空间照片

首先, 你需要下载一个叫做 Xcodes 的 App,下载好之后,登录自己的 Apple ID,就可以在列表中选择 beta 版本的 Xcode 下载了。这里我们选择下载 beta8 版本(目前,只有 beta 版本 Xcode 才能够安装和使用 visionOS 模拟器)

安装好 Xcode beta8 之后,你可以通过 Settings -> Platforms 来安装对应的 visionOS SDK 以及模拟器:

打开模拟器之后,直接点击相册,在相册 App 启动后,你就可以看到本文一开始的空间视频的例子了

Tip

如果你不小心关闭了这个启动屏,你可以在模拟器的菜单栏中选择将模拟器重置以能够再次看到这个启动屏。

不过,由于模拟器只能输出平面的内容,因此在模拟器中我们并不能感知到特别强烈的 3D 效果。要解释清楚这个事情的来龙去脉,我们就得在下一个话题中继续展开。

空间视频/照片到底是什么?

如果你去电影院看过 3D 视频,你应该就体验过空间视频。2009 年上映的阿凡达,让普罗大众了解到了 3D 电影这一全新的观影体验。

对于 3D 电影,在这十多年的时光中,大家已经或多或少的了解到了这其中的原理,利用人眼的视差效果,在电影拍摄时用两个摄像机拍摄,放映时用两个放映机投像,知乎网友 BOOK 思议的回答 也非常简单明了地解释了其中的原理:

在有了理论后,3D 电影也需要具体的视频形式去存储。在现在的实践中,我们一般会看到两种类型的 3D 影片存储形式:

  • Anaglyphs 3D(浮雕 3D)
  • Split Screen 3D(分屏 3D)

先来说说 Anaglyphs 3D,这种形式的 3D 是通过使用不同(一般色彩相反)的颜色(通常是红色和青色)的滤镜对每只眼睛的图像进行色彩混合来实现立体 3D 效果的。由于最终裸眼展示效果非常类似浮雕,因此就被称作是浮雕 3D,如果你在电影院拿到的 3D 眼镜是那种红蓝镜片,摘下眼镜后你就会看到类似这样的画面:

转存失败,建议直接上传图片文件

这种形式的 3D 视频一般多见于影院场景。

另外一种形式的 3D 视频形式,就是 Split Screen 3D,这种形式的 3D 视频一般是将左右眼的画面同时放在视频的一帧中,在实操中我们会看到两种摆放形式,即左右摆放(Side By Side)以及上下摆放(Top and Bottom):

这种形式的 3D 视频一般多见于各种 PC/Mobile/VR 头显 的播放器。例如 iOS 上老牌的播放器 nPlayer 的 3D 模式 和 VR 头显上有口皆碑的 MoonVR,都对这种 Split Screen 3D 模式进行了支持:

此次 Apple 发布会所提及的“空间视频”并不是什么特别新颖的技术,和我们此前看到过的 3D 电影一样,它也只是利用左右眼的视差来让人感觉“立体”。在 WWDC 的 Session 10071 中也对 3D 视频进行了如下的解释:

空间照片的原理也是一样的,通过两张不同角度拍摄的照片,就可以利用人眼的视差来表现 3D 效果。通过一些 3D 相机,我们也能够得到类似 3D 视频的 “3D 照片”(下面照片来自 QooCam EGO 的 样片合集) :

通过一些技术手段,我们就可以发现我们在前面的模拟器启动屏中看到的空间照片,其实就是一个简单的 HEIC 格式的图片,只不过它是在一个 HEIC 中同时保存两张照片,这两张照片整体都非常相似,只是因为拍摄时的位置不同,因此他们会有非常微小的视角差异:

那么现在,你已经了解了什么是“空间视频”和“空间照片”,你可能会疑惑,Apple 并没有创造出来什么新的技术,看起来甚至都是非常“普通”的技术,似乎,我们又“上当了”?

Tip

之所以说“普通”,是因为相比于另外一种“3D 视频”——体积视频(Volumetric Video)相较而言可能会更具有 " 科技感 ",例如我们在 XR 世界导览 002 期 中介绍的 Wist 这个应用,就是体积视频的一个代表。

由于体积视频是对整个现实世界的深度进行了建模,因此即便是在 2D 平面上观看,只要上下左右切换视角,也一样能够感知到很强的立体感。

诚然,利用左右两张不同视角的照片其实也是能够获取到深度信息的,甚至直接通过其他的一些 AI 模型用单张图片就可以估计出来深度信息。例如 Yasuhito Nagatomo 这位开发者就在他的 这篇推文 中介绍了他的一次尝试,但这暂时还不在本文的讨论范围内,我们只要先简单知道一下就好。

Apple 做了什么?

实际上,让我们沉下心来想一想,很多时候,技术的高深与否,与技术带来的价值并不直接挂钩,技术的普及度可能才会更影响技术带来的价值。

在能够拍照的智能手机出现之前,拍照和录像其实也是一项非常“普通”的技术,只是它们更多的还被局限在专业人士的圈子里。但直到能够拍照的智能手机的出现,“拍照”和“录像”才成为普通人唾手可得的技术,这也才迎来了对应 C 端市场的大爆发。

而此次 Apple 在空间视频和空间照片上所做的事情,就非常类似当年智能手机所做的事情——让技术更为大众。让技术更为大众这件事情,Apple 分别在生产端硬件、消费端硬件,以及软件端都花了不少力气。

生产端硬件上,iPhone 15 Pro 出现之前,如果你想拍摄空间视频或者照片,你需要用两个相机来同时拍摄或者购买类似 酷看 EGO 这样的专业 3D 相机,而现在,你只需要有一个 iPhone 15 Pro / Pro Max,你就可以开始拍摄了。(尽管手机行业整体销量下滑,但 2023 年 H1 iPhone 14 Pro/Pro Max 依然在全球售出了 4000 多万台,可以想想这个量级的设备对普及空间视频和空间照片带来的加成会有多大)

在消费端硬件上,Apple Vision Pro,当前最强的头戴一体机,一定能够为空间视频和空间照片的观看提供最好的硬件基础。鉴于大家对 Apple Vision Pro 硬件参数可能已经倒背如流了😛,这里就不花大力气解释了。

而在软件上,通过 HEVC **这种视频编码格式,**和 HEIF 这种图片格式标准,Apple 成功地让空间视频和空间照片在兼容性上又往前进了一步。

Tip

你是不是疑惑了,前面我们明明看到的是一张 HEIC 的空间照片,这里的 HEIF 又是个什么鬼?嘿嘿,别急,我们慢慢把这些东西讲清楚。

我们先来说说 HEVC,这是一种视频编码格式。之所以这里要强调这是视频编码格式,是因为我们平常看到的各种视频文件的后缀名(mov/mp4/webm 等),其实代表的是视频文件的**容器格式。**对于视频而言,容器格式解决如何将多种不同类型的多媒体内容打包在一起,而编码格式则需要解决如何高效地将多媒体内容压缩以便传输。

一个视频文件(这里以 mov 为例),在播放的时候需要经过如下的流程才能正常地在我们的设备上展示出来:

Tip

当然,多媒体容器格式和编码格式也不是能够完全随意组合的,一般一个容器格式都会支持特定的一些编码。如果感兴趣,可以 在这里 了解一下常见的一些容器格式所支持的编码格式。

而此次承载空间视频的,是 MV-HEVC (Multiview HEVC)这种编码格式,可以理解他是 HEVC 的一种扩展,这种格式的主要目的,就是能够高效的将两个仅视角不同的视频帧以一种高效的压缩方式进行编码。现有的 3D 视频并没有在编码上做了任何优化,因此例如 下面这个 QooCam EGO 拍摄的样片,每一帧其实都是以 Side by Side 的形式分别存储左右眼的画面的,可想而知左右眼之间的冗余信息会非常多(理论上这样的冗余,会让文件体积直接是仅有单画面视频文件的 2 倍)

同时,由于 MV-HEVC 本身完全被 HEVC 解码器所兼容,因此在不支持以 3D 形式查看的设备上,它也完全可以被当做是一个普通的 HEVC 视频被播放。

转存失败,建议直接上传图片文件

简单总结一下,有了 MV-HEVC 之后,空间视频这种全新的视频格式,在大小和兼容性上可以做到和现在所有的 HEVC 视频文件齐平,在大小不剧增的前提下还能够被 Apple 全系设备很好的支持并播放(仅有 Apple Vision Pro 这样的空间设备能够播放,这种感觉,像不像当年的 LivePhoto ?),这无疑对空间视频的传播起了非常大的助推作用。

Tip

从 iOS 11 时代起的 Apple 设备,对 HEIC 和 HEVC 这两种格式都拥有非常好的兼容性。想一想,iOS 11,那可已经是 6 年前了!

而空间照片所对应的 HEIF(High Efficiency Image File Format)的原理也基本类似,这是一种可以承载单个图片或者多个图片(即图片序列)的图片标准。这个标准在实际场景中会有很多种不同的文件后缀,例如 .heif, .heic.heics.avci.avcs.avif 等,在 Apple 平台上,我们一般看到的这种标准的文件会以 .heic 作为文件后缀,因此在 Apple 平台的语境下,HEIF 和 HEIC 其实指代的是同一件事情(当你在 iPhone/iPad 的设置 -> 相机 -> 格式 中将相机拍摄的格式选为高效,那么相机拍摄的所有照片都会以 HEIC 格式保存)

而同样,一张 HEIC 格式的空间照片,在不支持以 3D 形式查看的设备上,其完全可以被当做一张普通的照片查看,而之前的一些 3D 照片,则没有这样的效果:

总结一下,通过上面这些格式的详细解读,我们可以看到,为了使空间视频/空间照片这两种全新的多媒体格式能够“飞入寻常百姓家”,Apple 在背后还是默默下了很大力气,让它们能够和现在的所有文件格式“无缝衔接”(写到这里,我们想到了一句话:最好的科技,是让你感受不到科技的存在)。

所以,尽管很多人说 iPhone 15 系列挤牙膏,尽管 iPhone 15 Pro 系列上的空间视频还不确定什么时候推出,但在我们看来,Apple 为了推广空间视频/空间照片在背后所下的功夫,才更是我们这些创作者更应该关注的。

毕竟,先别说空间视频,仅仅是更加稀松常见的全景视频,在 Apple Vision Pro 上都能够为我们带来非常震撼的效果了:

非常期待,当空间视频、空间照片成为通用多媒体形式后,Apple 生态下会有多少好玩的新 App 出现。

写在最后

关于空间视频和空间照片,未来的更多想象力一定会集中在音视频编码领域。能力所限,本文并没有针对这方面的内容进行特别深入的讲解。如果你对空间视频和空间照片的应用、音视频编码有兴趣或者有了解,欢迎你加入我们的读者群,一起来讨论这里存在的更多可能性~