回顾

前几天过了 7 篇协同感知的工作，其中 4 篇关注感知，3 篇关注通信，大部分都是单模态的工作。

想通过这篇文章了解一下多模态的融合，看看对协同感知有没有什么启发。

任务、数据集

多模态融合主要关注检测和分割这两种任务，每种任务又分为 2d 和 3d

主要是 KITTI、Waymo、nuScenes

对于视觉上下游任务，相机的二维 rgb 格式很统一，而点云可以被分为基于点的、基于体素的和基于二维映射的三种表示法。（上游任务一般指预训练模型，供下游任务落地使用）

区别于大家所熟知的数据级、特征级和目标级三类融合方式，本文对多模态融合重新进行了类别划分，分为强融合和弱融合两大类，而强融合又分为下图所示的四小类。

除了做数据级融合外，点云原始数据和图像特征的融合也被归为了 Early-Fusion

图像原始数据也被利用

结果做聚合

和其他分支间平等的强融合类别相比，这种方法是非对称的，因为会以相机和雷达其中一个分支为主，另一个分支为辅。如利用图像的数据级和特征级辅助雷达的目标级表示。

该类方法令一种模态作为监督信号指导另一种模态

错位和信息丢失、更合理的融合操作、采用更多的潜在信息、自监督表征学习、数据域偏差、不同模态间的分辨率冲突