目前,大部分 BEV 的工作都使用图像 + 相机内外参作为输入。
这里需要注意的是先生成 BEV 再做检测这类下游任务容易产生复合错误,但 BEV 能融合时序信息、多模态信息,还能适用于多种下游任务,所以有必要生成 BEV 特征
然而,对于路侧场景,监控摄像头的内外参容易受环境影响发生变化,那么能否不做相机标定实现 BEV 表征呢?做一个模型,只需要图像就可以得到 BEV?
调研
在 Paperswithcode 3D Object Detection on DAIR-V2X-I benchmark 里搜到了一篇名为 CBR 的工作。
这个 benchmark 里涉及了 DAIR-V2X 路端数据集上 3D 目标检测的一些方法,纯相机的方法有早就关注过的今年 CVPR 的 BEVHeight,以及这篇文章的 baseline:BEVDepth 和 BEVFormer,有一篇 21 年的 ImVoxelNet,还有一篇 Calibration-free 的工作 CBR: Calibration-free BEV Representation for Infrastructure Perception (23.3)
在 CBR 中,作者说他们的工作建立在 CVPR 2019 Projecting your view attentively: Monocular road scene layout estimation via cross-view transformation 之上
深入调研
BEV 视图转换方案可分为 IPM、Lift-splat、MLP 和 Transformer 四类,其中 MLP 类的方案就是 Calibration-free 的
其它 Calibration-free 的工作
BEVSegFormer: Bird's Eye View Semantic Segmentation From Arbitrary Camera Rigs WACV 2023
Multi-Camera Calibration Free BEV Representation for 3D Object Detection (22.10),但是没有开源