Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

271 阅读2分钟

回顾

前几天过了 7 篇协同感知的工作,其中 4 篇关注感知,3 篇关注通信,大部分都是单模态的工作。

想通过这篇文章了解一下多模态的融合,看看对协同感知有没有什么启发。

任务、数据集

任务

多模态融合主要关注检测和分割这两种任务,每种任务又分为 2d 和 3d

数据集

主要是 KITTI、Waymo、nuScenes

点云格式

对于视觉上下游任务,相机的二维 rgb 格式很统一,而点云可以被分为基于点的、基于体素的和基于二维映射的三种表示法。(上游任务一般指预训练模型,供下游任务落地使用)

多模态融合分类

区别于大家所熟知的数据级、特征级和目标级三类融合方式,本文对多模态融合重新进行了类别划分,分为强融合和弱融合两大类,而强融合又分为下图所示的四小类。

image.png

Early-Fusion

除了做数据级融合外,点云原始数据和图像特征的融合也被归为了 Early-Fusion

Deep-Fusion

图像原始数据也被利用

Late-fusion

结果做聚合

Asymmetry-fusion

和其他分支间平等的强融合类别相比,这种方法是非对称的,因为会以相机和雷达其中一个分支为主,另一个分支为辅。如利用图像的数据级和特征级辅助雷达的目标级表示。

Weak-fusion

该类方法令一种模态作为监督信号指导另一种模态

机遇

错位和信息丢失、更合理的融合操作、采用更多的潜在信息、自监督表征学习、数据域偏差、不同模态间的分辨率冲突