动态场景神经辐射场(NeRF)适配技术
计算机视觉中最引人入胜的挑战之一,是如何通过单个移动相机的快照来理解动态场景。想象一下,从视频或不同角度拍摄的一系列快照中,数字重建一个生动的街道场景或舞者流畅微妙动作的三维场景。这将使模型能够从未见过的相机角度生成视图、进行视图缩放,并在不同时间点创建三维模型的快照,从而在三维空间中解锁对我们周围世界的更深入理解。
神经辐射场(NeRF)利用机器学习将三维场景映射到三维颜色和密度场,已成为从二维图像生成三维模型的核心技术。然而,即使是NeRF,在建模动态场景时也面临困难,因为这个问题高度欠约束:对于给定的一组快照,可能有多个动态场景在数学上是合理的,尽管其中一些可能并不现实。
在人工智能促进协会(AAAI)年会上发表的一项最新突破中,我们介绍了一种新颖方法,显著提升了我们捕捉和建模具有复杂动态场景的能力。我们的工作不仅解决了先前的局限性,还为从虚拟现实到数字保护的广泛应用开启了新的大门。
我们的方法展现了分解动态场景中时间和空间的显著能力,使我们能够更有效地建模具有变化光照和纹理条件的三维场景。本质上,我们将动态三维场景视为高维时变信号,并对其施加数学约束以产生现实的解。在测试中,相对于现有技术,我们在运动定位以及光场和密度场分离方面看到了改进,提升了我们能生成的三维模型的整体质量和保真度。
带限辐射场
一个三维场景的辐射场可以分解为两种低维场:光场和密度场。光场描述了视场中每一点光线的方向、强度和能量。密度场描述了在相关点反射或发射光的任何物质的体积密度。这类似于为场景的每个三维位置分配一个颜色值和一个物体放置的概率。然后,可以使用经典的渲染技术轻松地从此表示创建三维模型。
本质上,我们的方法将三维场景的光场和密度场建模为带限的高维信号,其中“带限”意味着特定带宽之外的信号能量被过滤掉。带限信号可以表示为基函数的加权和,基函数描述了标准波形;傅里叶分解的频带是最熟悉的基函数。
假设三维场景的状态由于其内部物体的动态而随时间变化。每个状态都可以重建为一组特定基函数的唯一加权和。通过将权重视为时间的函数,我们可以得到一个时变加权和,并用它来重建三维场景的状态。
在我们的案例中,我们端到端地学习权重和基函数。我们方法的另一个关键方面是,我们不是像NeRF通常那样整体建模辐射场,而是分别建模光场和密度场。这使我们能够独立建模物体形状或运动的变化以及光线或纹理的变化。
我们的方法将动态三维场景的光场和密度场表示为基函数的加权和,其权重随时间变化。
在论文中,我们还展示了传统的NeRF技术虽然为静态场景提供了出色的结果,但在处理动态时常常表现不佳,混淆了信号的各个方面,如光照和运动。我们的解决方案从非刚性运动结构(NRSFM)这一成熟领域汲取灵感,该领域几十年来一直在完善我们对运动场景的理解。
具体来说,我们整合了来自NRSFM的稳健数学先验,例如运动的时序聚类,以将其限制在低维子空间。本质上,这确保了三维场景的状态随时间平滑变化,沿着非常低维的流形,而不是发生不太可能在现实世界场景中出现的随机变化。
在我们的实验中,在各种具有复杂、长程运动、光线变化和纹理变化的动态场景中,我们的框架始终如一地提供了不仅视觉上令人惊叹,而且细节丰富、忠实于来源的模型。我们观察到伪影减少、运动捕捉更准确,以及整体真实感提升,纹理和光照表示的改进显著提高了模型的质量。我们在合成场景和真实世界场景中都严格测试了我们的模型,如下例所示。
(此处原为视频播放器及视频描述文字,按准则直接翻译,但略去具体播放器控制描述) 合成场景 在合成动态场景上,BLIRF(我们的方法)、地面实况(GT)以及几种NeRF实现的比较。
真实世界场景 在真实世界猫咪运动图像上,BLIRF(我们的方法)与几种NeRF实现的比较。
在合成三维场景新视图的任务上,BLIRF(我们的方法)、地面实况(GT)以及四种NeRF实现的比较。值得注意的是,BLIRF在顶部场景中处理猫咪运动方面优于其前代方法。
在涉及基本几何形状运动的合成场景上,BLIRF(我们的方法)、地面实况(GT)以及几种NeRF实现的比较。
随着我们继续完善我们的方法并探索其应用,我们对其变革我们与数字世界互动方式的潜力感到兴奋,使其更具沉浸感、更逼真、更易于访问。