持续创作,加速成长!这是我参与「掘金日新计划 · 10 月更文挑战」的第2天,点击查看活动详情
本文是多模态融合进行 3D 目标检测的文章TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers的学习笔记。
1. LiDAR-Camera 融合方法(目标检测)
1.1 Result-level
Result-level利用串行的融合策略,对Camera图像进行初步处理后再融合点云图像的深度信息得到最终的目标检测结果。
C. Qi等人提出的FPointNet[1]先在Camera图像上做目标检测,以得到的二维预测框为基准,结合点云的深度信息进行锥形投影,从而得到三维预测框。Shin等人提出的RoarNet[2]是对FPointNet的提升,它由RoarNet_2D和RoarNet_3D组成,RoarNet_2D通过单目相机的图片估计物体的3D位姿,并由其中衍生出多个候选区域,作为RoarNet_3D的输入。RoarNet_3D负责确定目标在哪个候选区域中并给出预测的三维边框界。
1.2 Proposal-level
Proposal-level方法一般从Camera图像和点云投影中提取proposals,即候选框,随后进行融合操作得到最终的预测结果。
Chen等人的工作MV3D[3]从图片、点云的俯视图和前视图三个视角提取proposals,得到的RoI经过RoI Pooling形成等长的特征表示,随后进行特征融合。Ku等人的工作AVOD[4]建立在MV3D的基础之上,改进了3D RPN的网络架构和不同视角特征的聚合方法,并且舍去了点云的前视图,只需对图片和点云俯视图进行数据处理。
1.3 Point-level
Point-level是精确到图像单个像素和点云单个点级别的融合,被称为hard association。尽管这种方式取得了比上述两类融合方式更好的效果,但其深受图像质量和传感器是否对齐影响。
2. TransFusion 方法
2.1 DETR
DETR(object Detection with TRansformers)[5]采用骨干网络从输入的图像中提取特征后连同位置信息(Transformer位置无关)一起送入Transformer的编码层,编码层的输出结果和通过随机生成或学习得到Object Queries一起作为解码层的输入,解码层的输出经过FFN得到位置和类别预测结果。
2.2 TransFusion
本文提出的TransFusion模型以DETR模型为基础,改进了Object Queries的生成方式,利用cross-attention机制构建点云和Camera图像之间的soft association,从而更好地利用输入信息的特征。
2.2.1 Query Initialization
在2D目标检测任务[6]中我们观察到:如果对Object Queries进行不错的初始化操作,一层结构的编码器可以达到六层的效果。因此从这个角度出发,本文充分利用输入的图像特征进行Object Queries的初始化工作。首先,受[7]启发,利用点云的俯视特征图生成K个heatmap(K表示物体类别总数),选取局部最大的N个候选对象作为Object Queries,因此每个Object Query都包含了潜在的物体位置、特征和类别信息,帮助编码层生成预测结果。此外,仅仅利用点云信息还达不到最好的理论结果,本文在进行Query Initialization时还将Camera图像特征压缩后融入点云信息作为参考,最终得到综合了两类输入的Object Queries。
2.2.2 SMCA
受[8]启发,本文设计了一个SMCA (spatially modulated cross attention) 模块,该模块通过2D圆形高斯掩码围绕每个Object Query的2D投影中心对cross attention进行加权,这样网络就可以更好更快地根据输入的 LiDAR 特征学习在哪里选择图像特征,即建立了点云和Camera图像之间的soft association。
参考文献
[7] Xingyi Zhou, Dequan Wang, and Philipp Krähenbühl. Objects as points. arXiv, 2019.