今天是6月更文的最后一天!本文是 Calibration-free BEV Representation for Infrastructure Perception 的学习笔记
核心
提出了一个 Calibration-free BEV Representation (CBR) 网络,可以在没有相机参数和额外深度信息的前提下实现基于 BEV 的 3D 目标检测
介绍
作者认为路侧的检测面临两大挑战:
- 计算资源受限
- 相机位姿各异,如下图 a 所示,统计的是 DAIR-V2X 数据集中相机 pitch 的差异性;受风雪影响大,难以动态标注
方法
透视图送入 Resnet18 得到特征图 , 进入 FVD (feature view decoupling) 模块解耦成 和 两个正交的视图,再使用 SCF (similarity-based cross-view fusion) 匹配不同视角的特征,从而生成 BEV 特征 ,连接 4 个检测头得到最终的输出结果。
FVD
前视图的特征和 BEV 特征是由透视图特征经过 MLP 再 Decode 得到的
如何更好的生成这两个视图呢?本文将 3D GT 投影到对应的两个平面,做两种 2D 的监督训练
SCF
如何融合前视和 BEV 两个特征图得到最终的 BEV 特征呢?
作者采用的是基于相似度的融合,但是全局的相似度匹配计算复杂度很高,因此,本文将前视图的特征在 z 轴方向拍扁,然后只对相同 x 轴做相似度匹配,匹配分数作为融合权重
实验
在 DAIR-V2X-I 上做的实验,对比了基于相机参数的模型 ImVoxelNet 和 calibration-free 的PYVA-det,在给 ImVoxelNet 相机加入噪声之后,它的性能显著下降,而 calibration-free 的模型不受相机状态影响
基础知识
-
为什么管相机拍的图像叫透视图?
三维物体映射到二维平面上,就是透视投影。所以相机拍的照片就叫透视图