CNN都惊叹!第一个时空表示学习的事件到点云配准的方法:E2PNet

75 阅读5分钟

作者:罗峰 | 来源:3DCV

在公众号「3DCV」,回复「原论文」可获取论文pdf

原文:CNN都惊叹!第一个时空表示学习的事件到点云配准的方法:E2PNet

1、导读

近年来,事件相机因其无与伦比的时间分辨率和动态范围而成为一种有前途的视觉传感器。虽然将2DRGB图像配准到3D点云是计算机视觉中长期存在的问题,但之前没有研究事件相机的2D-3D配准。为此,我们提出了E2PNet,这是第一个基于学习的事件到点云准配方法。E2PNet 的核心是一种称为事件点到张量(EP2T)的新型特征表示网络,它将事件数据编码为二维网格状特征张量。这种网格状特征使成熟的基于RGB的框架能够轻松用于事件到点云注册,而无需更改超参数和训练程序。EP2T将事件输入视为时空点云。与平等对待点云所有维度的标准 3D 学习架构不同,EP2T中新颖的采样和信息聚合模块旨在处理空间和时间维度的不均匀性。MVSEC和VECtor数据集上的实验证明了E2PNet 相对于手工方法和其他基于学习的方法的优越性。与基于RGB的配准相比,由于使用事件数据,E2PNet对极端照明或快速运动更加鲁棒。除了2D-3 配准之外,我们还展示了EP2T在其他视觉任务中的潜力,例如流量估计、事件到图像重建和对象识别。

2、贡献

  • 我们提出了E2PNet,它是第一个允许直接将2D事件相机和3D点云注册的方法。
  • 为了方便后续研究,我们还提出了一种框架,该框架使用现有的SLAM数据集来构建E2P数据集。
  • 我们进行了大量的实验和分析,以证明E2PNet在E2P方面的有效性,以及EP2T模块在其他多样化任务中的潜力。

3、方法

E2PNet,即一种基于学习的事件相机到点云的注册方法。该方法通过引入事件数据到2D网格形状的特征张量中来实现事件相机到点云的直接注册。E2PNet采用了一种新颖的特征表示网络Event-Points-to-Tensor (EP2T),该网络能够根据下游任务自适应地提取关键时空信息。

E2PNet

3.1、EP2T

EP2T指的是使用事件相机数据进行时空表示学习的方法。这种方法将事件相机数据引入到2D网格形状的特征张量中,并利用一种新颖的特征表示网络Event-Points-to-Tensor(EP2T)来自适应地提取关键的时空信息。这种表示学习方法可以用于直接注册事件相机和点云,从而实现它们之间的对应关系。

3.2、LA

LA是一种用于生成聚合特征的模块,在Local Aggregation(LA)中,首先会生成一组聚合中心,然后通过计算相邻点的聚合特征来为每个聚合中心生成聚合特征。为了处理空间和时间上的不均匀性问题,Local Aggregation将空间和时间信息分离在不同的步骤中进行处理。此外,Local Aggregation还使用了一个特定的机制来将空间和时间域分离,并提供不同的α和β值以创建多个聚合特征,从而使其关注不同的域。

3.3、STA

STA通常是一种注意力机制,用于在处理时空数据时分别关注空间和时间维度上的信息。然而,具体实现和细节可能因应用和场景而异。

图中:(a)分别使用空间和时间残差核分别编码空间和时间域的特征。(b)将两个残差合并到时空域。(c)将时空残差应用到时空特征上。

3.3、FP and Tensorization

Feature Propagation (FP) and Tensorization是E2PNet中的一个模块,用于将聚合后的特征传播到相邻的事件点,并将这些点基于距离进行加权平均以获取每个输入点的特征。具体而言,给定全局特征FSTA={fSTA(cj)}F_{\mathrm{STA}}=\left\{f_{\mathrm{STA}}(\mathbf{c}_{j})\right\} 和归一化的事件点E^={ej}\hat{E} =\left\{\mathbf{e}_{j}\right\} ,我们通过计算传播的特征来获得传播的特征。其中,权重wi,jw_{i,j} 计算如下:

其中,10510^{-5} 用于防止除以零的情况。此外,为了将基于点的特征转换为网格形状的特征,E2PNet 使用三种不同的互补事件张量化方法将传播的特征转换为三种不同类型的2D网格稀疏特征张量,并将它们串联起来以产生最终的稀疏特征映射。这三种方法是用于处理点云数据的创新方法,它们可以处理空间、时间和时空领域的异质性,从而使E2PNet在处理极端光照或快速运动等情况时比基于RGB方法更稳健。

4、实验结果

E2PNet在极端光照或快速运动的情况下比RGB-based方法更稳健。此外,E2PNet还展示了其在其他视觉任务中的潜力,如流估计、事件到图像重建和目标识别。

5、结论

E2PNet在极端光照或快速运动情况下比基于RGB的方法更稳健,并展示了在流估计、事件到图像重建和目标识别等其他视觉任务中的潜力。然而,E2PNet的局限性可能包括对大规模场景的处理能力、对硬件设备的依赖以及对实时性能的挑战等。