回顾
前几天过了 7 篇协同感知的工作,其中 4 篇关注感知,3 篇关注通信,大部分都是单模态的工作。
想通过这篇文章了解一下多模态的融合,看看对协同感知有没有什么启发。
任务、数据集
任务
多模态融合主要关注检测和分割这两种任务,每种任务又分为 2d 和 3d
数据集
主要是 KITTI、Waymo、nuScenes
点云格式
对于视觉上下游任务,相机的二维 rgb 格式很统一,而点云可以被分为基于点的、基于体素的和基于二维映射的三种表示法。(上游任务一般指预训练模型,供下游任务落地使用)
多模态融合分类
区别于大家所熟知的数据级、特征级和目标级三类融合方式,本文对多模态融合重新进行了类别划分,分为强融合和弱融合两大类,而强融合又分为下图所示的四小类。
Early-Fusion
除了做数据级融合外,点云原始数据和图像特征的融合也被归为了 Early-Fusion
Deep-Fusion
图像原始数据也被利用
Late-fusion
结果做聚合
Asymmetry-fusion
和其他分支间平等的强融合类别相比,这种方法是非对称的,因为会以相机和雷达其中一个分支为主,另一个分支为辅。如利用图像的数据级和特征级辅助雷达的目标级表示。
Weak-fusion
该类方法令一种模态作为监督信号指导另一种模态
机遇
错位和信息丢失、更合理的融合操作、采用更多的潜在信息、自监督表征学习、数据域偏差、不同模态间的分辨率冲突