Collaboration Helps Camera Overtake LiDAR in 3D Detection [CVPR 2023]

69 阅读1分钟

介绍

本文的卖点是:只靠相机的协同感知 3D 目标检测性能优于单车雷达,如下图所示。

主要创新点是:协同深度估计image.png

相关工作

Camera-only 3D 目标检测

最近,相较于基于 3D 体素特征的方式,基于 BEV 的方式被广泛应用于基于相机的 3D 目标检测。

获取 BEV 特征有两类方法:

  • 基于深度的方法,做深度估计,将 2D 特征进行 3D 投影,本文采用这种方式
  • 基于查询的方法,transformer,用注意力做

基于 LiDAR 的 3D 目标检测

获取 LiDAR 特征主要有两类方法:

  • 基于体素的
  • 基于点的

方法

本文工作建立在单体纯相机 3D 目标检测架构之上,即下图最下方的模块,提出了协同深度估计、协同检测两个模块,作者在论文分享会中提出协同深度估计是其工作中比较 novel 的部分,即这是第一个做协同深度估计的工作。 image.png

  • 协同深度估计

    目的是通过多视角消除单目深度估计的歧义性,因为在多视角中每个 pixel 的深度是一致的。

    DUA 负责打包车辆自身确定性高的深度估计信息,接收车辆通过信息融合优化自身的深度估计结果,得到更精准的 3D 表征。

  • 协同检测

    这个模块是为了解决协同感知的基本问题:遮挡和扩大视距。

    DCA 负责打包置信度高的、可能有用的前景区域,融合模块即一个特征级融合