SAFNet 基于相似性感知的三维语义分割融合网络全文：https://arxiv.org/pdf/2107.01579

SAFNet 基于相似性感知的三维语义分割融合网络

论文 Similarity-Aware Fusion Network for 3D Semantic Segmentation IROS 2021

摘要

论文中，提出了一种相似性感知融合网络 similarity-aware fusion
network（SAFNet），通过自适应融合2D图像和3D点云，进行3D语义分割。现有的基于融合的方法通过融合多个传感器的数据来进行分割。然而，它们严重依赖于2D像素和3D点之间基于投影的对应关系，并且只能以固定的方式执行信息融合，因此它们无法轻松迁移到更现实的场景中，其中收集的数据通常缺乏严格的成对预测特征。为了解决这个问题，我们采用了后期融合策略，首先学习输入和反向投影（从2D像素）点云之间的几何和上下文相似性，并利用它们指导两种模式的融合，以进一步利用互补信息。具体来说，我们使用几何相似模块（GSM）直接比较成对3D邻域的空间坐标分布，使用上下文相似模块（CSM）聚合和比较相应中心点的空间上下文信息。提出的两个模块可以有效地测量图像特征对预测的帮助程度，使网络能够自适应地调整两种模式对每个点的最终预测的贡献。ScanNetV2[1]基准测试的实验结果表明，SAFNet在各种数据完整性方面优于现有的基于融合的最先进方法。

介绍

三维语义分割旨在预测给定点云的不同语义类别的点级标注。它是视觉感知系统的基本和关键组成部分，在视觉感知系统中，自主机器人在由运动物体组成的复杂现实环境中工作。现在迫切的需要多模态融合的方法来进行语义分割，来弥补各个传感器的不足。

为了充分利用两种传感器的数据优势，现有方法（如3DMV[13]、UPB[14]、MVPNet[15]和FusionAwareConv[16]）探索了挖掘点云和多视图图像之间连接的不同方法，但它们都是分别提取点云和多视点图像的特征，并在三维空间而不是图像平面中以固定方式融合特征。然而，两个未解决的问题（即，局部失配和密度变化local
mismatching & varying density）限制了这些方法在真实场景中的有效性，如图1的上半部分所示。局部不匹配是由多个传感器的不协调和可能的遮挡造成的，这使得不匹配的点很难与合适的2D数据相结合。同时，多视点图像的重叠导致后投影点云的密度在不同的空间位置上有很大的差异为了解决这些问题，在本文中，我们提出了一个支持相似性的后期融合框架，用于自适应地融合图像和点云，如图1的下半部分所示。首先，我们使用CNN提取图像特征进行图像分割，并通过基于点的网络提取点特征，这分别是二维外观和三维几何的高维信息表示。其次，我们建议在输入点云和反向投影点云（从多视图图像反向投影）之间执行比较过程，以计算相似性度量，作为后续融合过程的指导，而不是直接连接两种模式的特征。我们通过使用两个模块从几何和上下文角度测量两点云的每点相似性来获得该相似性度量。此外，我们在融合前为每个模态使用了一个通道注意层来重新加权模态内通道，以进一步提高性能。最后，在上述相似性度量的指导下，我们自适应地结合了这两类特征。
本文的贡献可以总结为：

•提出了一个联合的端到端的后期融合网络，旨在从三维点云和二维图像推断三维语义分割。据我们所知，这是第一个2D-3D融合网络，能够通过处理局部不匹配和密度变化来处理各种数据完整性。
•提出了两个有效的相似度模块来度量两个点集的几何和上下文相似度，作为融合图像特征和点云特征的指导。请注意，这种想法可以嵌入任何2D-3D融合方法中。
•SAFNet在使用相同主干网的各种数据完整性方面，在ScanNetV2基准测试上比以前发布的基于融合的方法至少高出1.3%的mIoU。同时，我们对一些烧蚀研究进行了深入分析，以证明我们精心设计的有效性。

图1。上半部分显示了（a）输入点云、（b）反向投影点云和（c）相同空间范围内重叠版本的比较。我们强调了绿色（局部失配）和灰色（密度变化）椭圆中两种未解决的挑战。我们以相同的采样率均匀地对点云进行降采样，以获得清晰的视图。下半部分是我们方法的高级概述，其中我们使用比较过程从不同角度计算输入点云和反向投影点云之间的相似性，并进一步采用融合策略自适应调整两种模式对分类结果的影响。

方法

与早期融合[31]相比，由于特征提取的独立性和交互的便利性，更多的融合网络在许多任务[32]、[33]、[34]中采用晚期融合结构。然而，目前性能最好的融合方法MVPNet[15]是基于早期融合的，我们相信具有适当多模态交互的晚期融合结构可以实现更好的性能和鲁棒性。
假设
H 2 D ( θ 2 D ) , H 3 D ( θ 3 D ) H^{2D}(θ^{2D}), H^{3D}(θ^{3D}) H2D(θ2D),H3D(θ3D)

是具有相应参数 θ 2 D 和 θ 3 D 的二维和三维网络。对于输入二维图像是具有相应参数θ^{2D}和θ^{3D}的二维和三维网络。对于输入二维图像是具有相应参数θ2D和θ3D的二维和三维网络。对于输入二维图像

样本X2D和3D点样本X3D与地面真值Y，我们从两种模式中提取的特征记为
F 2 D = H 2 D （ θ 2 D ； X 2 D ）和 F 3 D = H 3 D （ θ 3 D ； X 3 D ） F^{2D}=H^{2D}（θ^{2D}；X^{2D}）和F^{3D}=H^{3D}（θ^{3D}；X^{3D}） F2D=H2D（θ2D；X2D）和F3D=H3D（θ3D；X3D）
。对于传统的后期融合方法（如3DMV[13]），目标函数可以写成：

其中Lcls是分割任务中广泛使用的交叉熵损失。H{FC}表示一个完全连接的网络，它将F{2D}和F^{3D}的连接映射到最终的预测逻辑。
在本文中，我们提出了一种相似性感知融合网络，其结构如图2所示，其中，通过调整两种模式对最终预测的贡献，提出了逐点相似性以实现多模式交互。目标函数可以写成：

其中，Γ是使用相似性S2D重新加权2D特征的变换操作−3D，从输入点和未投影点（从图像像素反向投影）之间的几何和上下文差异中学习。
请注意，出于两个原因，我们在这里仅重新加权二维特征。
一方面，这相当于调整两种模式的权重。另一方面，与二维特征相比，三维特征对于三维分割更为可靠和关键，因此可以固定三维权重以加速收敛。在以下各节中，将详细说明网络的组件。

A 图像特征提取与反投影

近年来，卷积神经网络（CNN）在理解RGB图像方面取得了很大进展。为了引入信息丰富的2D纹理，选择了一个深度CNN作为2D主干。因为我们不能用一个正向精确地处理整个场景的所有点，所以我们遵循PointNet++[19]中使用的滑动窗口策略。
因此，我们需要选择多个RGB-D帧以覆盖每个窗口中尽可能多的点，其中深度通道仅用于反投影。在选择视图之后，我们将图像馈送到预训练的2D编码器-解码器网络中，以获得高级特征映射F2D。随后，利用深度值和相机矩阵，将具有特征的像素反向投影到3D空间，见图1。因此，后投影点与输入点共享相同的坐标系。它确保了可以收集后投影点的像素特征，并在将来与来自相应输入点的三维几何特征相结合。提出了两种有效的相似性度量方法，分别从几何和上下文的角度度量两个点集的相似性。在本节中，我们将详细介绍这两个相似性模块。
1）几何相似性模块：为了清晰和简单，我们让P={p1,p2,pn}表示原始点云，Q={q1,q2,…qm}表示由反投影形成的点云，其中n和m分别是两个点集中的点数量。请注意，M通常比N大得多，但是Q中的绝大多数点实际上是冗余的，因为它们绝大多数都距离点集P中的点很远.所以我们只考虑邻域NQ,k（i），由点pi∈P及其在Q中半径r内的k-nearest点组成。
通常，无论设定点属于哪一个，同一空间区域上的点都应该描述相同的几何形状。因此，对于同一个点pi，他的相邻点集合

NP，k（i）和反投影点的相邻点集合NQ，k（i）应该比较相似。然而，来自两个点集的点的密度、匹配关系在不同的邻域中可能会有很大的差异，这限制了形状比较的有效性。

如图3所示，本文提出了成对邻域之间的双向最近邻距离映射（BNNDM），以直接定量测量几何结构上的差异。BNNDM的概念包括三个部分：前向搜索、后向搜索和距离映射。对于正向搜索，我们强制NP中的每个点；k以找到其在Q中的最近点，并将dF表示为它们之间的距离。注意，在局部不匹配的情况下，找到的最近点不一定在邻域中。对于反向搜索，NQ中的每个点；k被迫在NP中找到最近点；k，表示dB为距离。同样，我们通过选择Q中最近的点作为起始点来专门处理失配的情况。对于距离映射，我们将dF和dB映射为几何相似性分数SG。考虑到距离与相似度的负相关，我们考虑了与负相关的关系。