CVPR 2023 | 基于内部离散化的单目深度估计

590 阅读11分钟

本文首发于微信公众号 CVHub,严禁私自转载或售卖到其他平台,违者必究。

Title: iDisc: Internal Discretization for Monocular Depth Estimation
Paper: arxiv.org/pdf/2304.06…

导读

单目深度估计是3D场景理解和下游应用的基础。然而,即使在监督设置下,由于缺乏完整的几何约束,这仍然具有挑战性和不适定性。尽管一个场景可以包含数百万个像素,但高级模式却较少。研究者提出了iDisc来学习这些模式,并使用内部离散化表示。该方法将场景隐式划分为一组高级模式。特别是,研究者的新模块Internal Discretization (ID)实现了一个连续-离散-连续的bottleneck,以在无监督的情况下学习这些概念。与现有方法相比,所提出的模型不对深度输出施加任何显式约束或先验知识。由于基于注意力的bottleneck模块,整个网络与ID模块可以端到端地进行训练。研究者的方法在NYU-Depth v2和KITTI上取得了显著的改进,优于所有已发表的方法,在KITTI基准测试中表现出色。iDisc在表面法线估计上也可以达到最先进的结果。此外,研究者通过zero-shot测试探索了模型的泛化能力。研究者观察到在户外场景中提升多样性的迫切需求。因此,研究者引入了两个自动驾驶数据集DDAD和Argoverse的数据集划分。

背景

单目深度估计主要创新点就是尺度不确定性相同的二维输入图像可以对应无限数量的三维场景),大多数方法要么对图像施加几何约束,即平面性先验,要么明确地离散化连续深度范围。后者可以视为学习前向平行平面。这些施加的先验在本质上限制了各自模型的表达能力,因为它们无法建模真实场景中普遍存在的任意深度模式

贡献

论文的主要贡献如下:

  1. 引入了Internal Discretization模块,这是一种新颖的架构组件,通过组合底层模式来灵活地表示场景;
  2. 证明了它是涉及深度序数回归的SOTA方法的一种泛化;
  3. 提出了两个具有高质量LiDAR测量数据的原始室外数据集的拆分。论文在六个不同的数据集上对iDisc进行了广泛的测试,并且由于ID设计,论文的模型始终优于SOTA方法,并呈现出更好的可迁移性。此外,论文将iDisc应用于表面法线估计,证明了所提出的模块具有足够的通用性,可以处理通用的实值密集预测任务。

方法

论文提出了一种内部离散化(Internal Discretization,ID)模块,用于离散化编码器-解码器网络架构的内部特征表示。假设该模块可以将场景分解为一致的概念,而无需语义监督。

Internal Discretization Module

图2:模型架构

iDisc的整体架构,特别是ID模块,如图2所示。Internal Discretization Module通过两个连续的阶段实施信息bottleneck:连续到离散(C2D)和离散到连续(D2C)。该模块独立地并行处理多个分辨率,即l1,2,3l ∈ {1, 2, 3}。该bottleneck体现了论文的假设,即一个场景可以表示为一组模式。C2D阶段根据可学习的先验(HpriorlH^l_{prior})从第l个分辨率特征图(FlF^l)聚合信息到一组有限的IDRs(HlH^l)。特别地,它学习如何通过转置交叉注意力(如(1)中所示)定义依赖于输入FlF^l的划分函数。第二阶段(D2C)使用交叉注意力的层将IDRs转移到原始的连续空间,如(2)所示。为简单起见,论文只显示了一个通用的第i层。交叉注意力是由解码的像素嵌入(PlP^l)和HlH^l之间的相似性引导的。最终的预测(D^\hat D)是中间表示{D^l}l=13\left\{\hat{\mathbf{D}}^{l}\right\}_{l=1}^{3}的融合,即平均值。

Adaptive Feature Partitioning

ID模块的第一阶段是自适应特征划分(AFP),它在每个分辨率ll上生成适当的离散表示(H:={Hl}l=13)\left(\mathcal{H}:=\left\{\mathbf{H}^{l}\right\}_{l=1}^{3}\right),对特征空间(F:={Fl}l=13)\left(\mathcal{F}:=\left\{\mathbf{F}^{l}\right\}_{l=1}^{3}\right)进行量化。iDisc不仅仅学习固定的聚类中心,而是学习如何以输入相关的方式定义划分函数。具体而言,使用了迭代的转置交叉注意力模块。给定特定的输入特征图(FF),迭代过程会通过RR次迭代来改进(可学习的)IDR(internal discrete representations)先验(HpriorH_{prior})的定义,RR的第t次迭代可以表述如下:

AFP模块通过softmax实现量化效果,将特征空间软聚类为互斥的IDR。与其他迭代路由方法不同,论文的AFP利用可学习的先验控制IDR,并在解码器级别进行特征空间划分。这减少了信息冗余,提高了训练收敛性。与传统的图像到集合方法相比,论文的方法避免了特征的冗余聚合,减少了表示的数量,同时提高了IDR的可解释性和训练效果。

Internal Scene Discretization

在ID模块的第二阶段(ISD),模块从解码器获取像素嵌入(P)和第一阶段的IDRs HH,它们位于不同的分辨率。每个离散表示携带着模式的标识和相关内容。通过计算IDRs和像素嵌入之间的相似度,可以在连续输出空间中定位传递每个IDR信息的位置。我们利用点积相似度函数。与其他方法不同,论文没有限制要传递到最终预测的信息类型,也没有明确处理深度值,而是让IDRs自由地携带通用的高级概念(such as object-ness, relative positioning, and geometric structures))。**通过将来自AFP的互斥概念信息传递到由P定义的连续空间中,实现了场景的有效离散化。我们的方法不仅适用于深度估计,还可用于其他连续密集任务,如表面法线估计。**因此,论文认为任务的训练信号决定了场景的内部离散化方式,使得论文的ID模块具有通用性。

从实际角度来看,整个第二阶段包括应用于IDRs和像素嵌入的交叉注意力层。如第上一小节所述,论文省略了分辨率上标ll。然后,将最终的深度图投影到输出空间,并将多分辨率深度预测进行合并。第i层定义如下:

论文的方法构成了深度估计方法的一般化,其中涉及(混合)序数回归。如第2节所述,序数回归方法的常见范式是将深度明确地离散化为一组具有与之关联的标量深度值的掩码。然后,它们预测每个像素属于这些掩码的可能性。论文的范式变化源于对上述序数回归流程的重新解释,将其转化为以下数学表达式:

Network Architecture

论文在图2中描述的网络首先由一个编码器主干组成,可以是卷积或基于注意力的形式,产生不同尺度的特征。不同分辨率的编码特征经过细化处理,并通过四个多尺度可变注意力(MSDA)块共享分辨率间的信息。来自不同尺度的MSDA的特征图被馈送到AFP模块中提取IDR(H\mathcal{H}),并馈送到解码器中提取连续空间中的像素嵌入(P\mathcal{P})。不同分辨率的像素嵌入与ID模块的ISD阶段中的相应IDR结合以提取深度图。最终的深度预测对应于插值中间表示的平均值。优化过程仅通过SIlog损失进行引导,没有使用其他正则化方法。SIlog定义如下:

实验

Argoverse1.1 and DDAD

论文提出了两个自动驾驶数据集的分割,Argoverse1.1(Argoverse)和DDAD,用于深度估计。这些数据集提供了360度高清图像和对应的激光雷达扫描。论文对数据集进行了预处理,提取深度图并去除冗余。训练集和测试集分别包含了大量样本,并进行了图像裁剪和深度范围限制的处理。

Comparison with the State of the Art

Indoor Datasets

表 1. Comparison on NYU official test set.

如表1所示,在NYU数据集上论文方法在该baseline测试上取得了新的SOTA,相对于先前的SOTA,RMS提升了6%以上,A.Rel提升了9%以上。此外,结果还突显了与其他基于Transformer的架构相比,iDisc在样本利用效率上更高。另外,结果显示iDisc基于完全卷积backbone的模型在性能上明显优于其他基于完全卷积的模型。

表 2. Zero-shot testing of models trained on NYU

表2展示了在SUN-RGBD和Diode上对NYU模型进行的零样本(zero-shot)测试。在这两种情况下,iDisc展现出令人信服的泛化性能,论文认为这是由于通过ID模块隐式学习了室内场景结构的基本模式,即IDR。

图 3. Qualitative results on NYU

iDisc的定性结果(图3)突出显示了其在捕捉场景复杂性方面的优势,尤其是在处理色彩边缘和前景背景深度平面之间的透视关系时表现出色。此外,与更高分辨率的模型相比,iDisc在边缘周围的误差较小。iDisc实际上是在模式级别进行推理,因此更好地捕捉了场景的结构。这在室内场景中尤为明显,因为这些场景通常有许多物体。

图 4. Attention maps on NYU for three different IDRs

图4中的注意力图显示了这种行为。低分辨率的IDR捕捉到特定组件(如背景和前景对象的相对位置),而高分辨率的IDR则充当深度细化器,通常关注高频特征,如对象的上边界或下边界。值得注意的是,当图像中不存在IDR正在寻找的特定概念时,IDR会关注图像边界。也就是说,边界是IDR试图寻找其对应模式的最后选择(例如,第2行,第1列)。

Outdoor Datasets

表 3. Comparison on KITTI Eigen-split test set

iDisc在KITTI数据集上的结果显示在表格3中,证明其在该主要室外数据集上取得了新的SOTA,相比先前的方法,RMS提高了3%,δ0.5提高了0.9%。此外,iDisc在竞争激烈的KITTI官方基准测试中表现出色,在所有方法中排名第3,在所有已发表的MDE方法中排名第1。

表 4. Comparison on Argoverse and DDAD proposed splits

图 5. Qualitative results on KITTI.

表格4显示了在本文提出的Argoverse和DDAD数据集上进行训练和评估的方法的结果。与KITTI相比,所提出数据集中GT的稀疏程度对于等窗口方法产生了深远影响。图5中的定性结果表明,场景级别的离散化有助于保留小物体和前景物体与背景之间的清晰过渡,如第1行的背景和第2行的箱子。这些结果显示了iDisc在捕捉近距离和相似物体上细微深度变化方面的能力更强,包括第3行的人群。

Surface Normals Estimation

表 5. Comparison of surface normals estimation methods
on NYU official test set

论文的方法在表面法线估计方面取得了新的SOTA,与其他专门设计用于该任务的方法相比,论文仅仅保持了相同的架构和框架。

总结

论文引入了一种新的模块,称为内部离散化(Internal Discretization)模块,用于单目深度估计。该模块假设场景可以表示为一组有限的模式(patterns)。因此,iDisc利用内部离散化的场景表示,通过连续-离散-连续的bottleneck(即ID模块)来实现。论文在主要的室内和室外深度估计基准上验证了所提出的方法,并在监督学习方法中取得了新的技术水平。结果表明,学习底层模式而不对输出施加任何显式约束或正则化对性能和泛化能力有益。iDisc还可以直接用于法线估计,在击败所有专门的最新技术方法。此外,论文提出了两个新的具有挑战性的室外数据集分割,旨在为社区提供更具广泛和多样化的基准。


CVHub是一家专注于计算机视觉领域的高质量知识分享平台,全站技术文章原创率达99%,每日为您呈献全方位、多领域、有深度的前沿AI论文解决及配套的行业级应用解决方案,提供科研 | 技术 | 就业一站式服务,涵盖有监督/半监督/无监督/自监督的各类2D/3D的检测/分类/分割/跟踪/姿态/超分/重建等全栈领域以及最新的AIGC等生成式模型。关注微信公众号,欢迎参与实时的学术&技术互动交流,领取CV学习大礼包,及时订阅最新的国内外大厂校招&社招资讯!