将神经辐射场(NeRF)应用于动态场景
通过将光和密度场表示为基函数的加权和(其权重随时间变化),改进了运动捕捉、纹理和光照效果。
在计算机视觉领域,最引人入胜的挑战之一是通过单个移动相机的快照来理解动态场景。想象一下,试图从视频或从不同角度拍摄的一系列快照中,数字化重建一个热闹的街景或一位舞者流畅的细微动作。这将使模型能够从未见过的相机角度生成视图,实现视图的缩放,并在不同时间点创建3D模型的快照,从而更深入地理解我们周围的三维世界。
神经辐射场(NeRF)利用机器学习将3D场景映射到3D颜色和密度场,已成为从2D图像生成3D模型的核心技术。然而,即使是NeRF,在建模动态场景时也面临挑战,因为这个问题高度欠约束:对于一组给定的快照,可能存在多个数学上可行的动态场景,尽管其中一些可能并不真实。
在最近发表于人工智能促进协会(AAAI)年会上的一项突破性研究中,我们介绍了一种新颖的方法,该方法显著提升了我们捕捉和建模具有复杂动态场景的能力。我们的工作不仅解决了先前的局限性,还为从虚拟现实到数字保存等新应用领域打开了大门。
我们的方法展示了一种对动态场景中时间和空间进行分解的卓越能力,使我们能够更有效地建模具有变化光照和纹理条件的3D场景。本质上,我们将动态3D场景视为高维时变信号,并对其施加数学约束以产生真实的解。在测试中,我们观察到在运动定位以及光场和密度场的分离方面有所改进,从而相对于现有技术,提升了我们所能生成的3D模型的整体质量和保真度。
带限辐射场
三维场景的辐射场可以分解为两种低维场:光场和密度场。光场描述了视觉场中每个点的光的方向、强度和能量。密度场描述了在相关点反射或发射光的物体的体积密度。这类似于为场景中的每个3D位置分配一个颜色值和一个物体放置的概率。然后,经典的渲染技术可以很容易地使用这种表示来创建3D模型。
本质上,我们的方法将3D场景的光场和密度场建模为带限的高维信号,其中“带限”意味着特定带宽之外的信号能量被滤除。一个带限信号可以表示为基函数的加权和,基函数描述了规范波形;傅里叶分解的频带是最常见的基函数。
想象一下,由于其中物体的动态变化,3D场景的状态随时间而改变。每个状态都可以重建为一组特定基函数的唯一加权和。通过将权重视为时间的函数,我们可以获得一个时变加权和,并用它来重建3D场景的状态。
在我们的案例中,我们端到端地学习权重和基函数。我们方法的另一个关键方面是,我们没有像NeRF通常所做的那样将辐射场作为一个整体来建模,而是将光场和密度场分开建模。这使得我们能够独立地建模物体形状或运动的变化以及光线或纹理的变化。
在我们的论文中,我们还表明,传统的NeRF技术在静态场景中提供卓越的结果,但在处理动态场景时常常失败,会将信号的某些方面(如光照和运动)混淆。我们的解决方案从已建立的非刚性运动结构(NRSFM)领域中汲取灵感,该领域几十年来一直在不断完善我们对运动场景的理解。
具体来说,我们整合了来自NRSFM的稳健数学先验,例如运动的时间聚类,以将其限制在一个低维子空间内。从根本上讲,这确保了3D场景的状态随时间沿着非常低维的流形平滑变化,而不是经历在现实世界中不太可能发生的剧烈变化。
在我们的实验中,针对具有复杂、长程运动、光照变化和纹理变化的各种动态场景,我们的框架始终如一地生成了不仅在视觉上令人惊叹,而且细节丰富且忠实于原始场景的模型。我们观察到了伪影的减少、运动捕捉的准确性提高以及整体真实感的提升,其中纹理和光照表现的改进显著提高了模型的质量。我们在合成场景和真实场景中严格测试了我们的模型,如下面的示例所示。
(此处为视频对比演示,展示了BLIRF(我们的方法)与基准真实情况(GT)以及几种NeRF实现在合成动态场景和真实世界场景中的比较。)
随着我们不断完善我们的方法并探索其应用,我们对彻底改变我们与数字世界互动方式的潜力感到兴奋,使其更具沉浸感、更逼真、更易于访问。FINISHED