Calibration-free BEV Representation for Infrastructure Perception

456 阅读2分钟

今天是6月更文的最后一天!本文是 Calibration-free BEV Representation for Infrastructure Perception 的学习笔记

核心

提出了一个 Calibration-free BEV Representation (CBR) 网络,可以在没有相机参数和额外深度信息的前提下实现基于 BEV 的 3D 目标检测

介绍

作者认为路侧的检测面临两大挑战:

  • 计算资源受限
  • 相机位姿各异,如下图 a 所示,统计的是 DAIR-V2X 数据集中相机 pitch 的差异性;受风雪影响大,难以动态标注

image.png

方法

透视图送入 Resnet18 得到特征图 fpvf_{pv}fpvf_{pv} 进入 FVD (feature view decoupling) 模块解耦成 ffvf_{fv}fbevf_{bev} 两个正交的视图,再使用 SCF (similarity-based cross-view fusion) 匹配不同视角的特征,从而生成 BEV 特征 fef_{e},连接 4 个检测头得到最终的输出结果。

image.png

FVD

前视图的特征和 BEV 特征是由透视图特征经过 MLP 再 Decode 得到的

如何更好的生成这两个视图呢?本文将 3D GT 投影到对应的两个平面,做两种 2D 的监督训练

SCF

如何融合前视和 BEV 两个特征图得到最终的 BEV 特征呢?

作者采用的是基于相似度的融合,但是全局的相似度匹配计算复杂度很高,因此,本文将前视图的特征在 z 轴方向拍扁,然后只对相同 x 轴做相似度匹配,匹配分数作为融合权重

实验

在 DAIR-V2X-I 上做的实验,对比了基于相机参数的模型 ImVoxelNet 和 calibration-free 的PYVA-det,在给 ImVoxelNet 相机加入噪声之后,它的性能显著下降,而 calibration-free 的模型不受相机状态影响

基础知识

  • 为什么管相机拍的图像叫透视图?

    三维物体映射到二维平面上,就是透视投影。所以相机拍的照片就叫透视图