今天是6月更文的最后一天！本文是 Calibration-free BEV Representation for Infrastructure Perception 的学习笔记

核心

提出了一个 Calibration-free BEV Representation (CBR) 网络，可以在没有相机参数和额外深度信息的前提下实现基于 BEV 的 3D 目标检测

介绍

作者认为路侧的检测面临两大挑战：

计算资源受限
相机位姿各异，如下图 a 所示，统计的是 DAIR-V2X 数据集中相机 pitch 的差异性；受风雪影响大，难以动态标注

方法

透视图送入 Resnet18 得到特征图 $f_{pv}$ ， $f_{pv}$ 进入 FVD (feature view decoupling) 模块解耦成 $f_{fv}$ 和 $f_{bev}$ 两个正交的视图，再使用 SCF (similarity-based cross-view fusion) 匹配不同视角的特征，从而生成 BEV 特征 $f_{e}$ ，连接 4 个检测头得到最终的输出结果。

FVD

前视图的特征和 BEV 特征是由透视图特征经过 MLP 再 Decode 得到的

如何更好的生成这两个视图呢？本文将 3D GT 投影到对应的两个平面，做两种 2D 的监督训练

SCF

如何融合前视和 BEV 两个特征图得到最终的 BEV 特征呢？

作者采用的是基于相似度的融合，但是全局的相似度匹配计算复杂度很高，因此，本文将前视图的特征在 z 轴方向拍扁，然后只对相同 x 轴做相似度匹配，匹配分数作为融合权重

实验

在 DAIR-V2X-I 上做的实验，对比了基于相机参数的模型 ImVoxelNet 和 calibration-free 的PYVA-det，在给 ImVoxelNet 相机加入噪声之后，它的性能显著下降，而 calibration-free 的模型不受相机状态影响

基础知识

为什么管相机拍的图像叫透视图？

三维物体映射到二维平面上，就是透视投影。所以相机拍的照片就叫透视图