EagerMOT: 3D Multi-Object Tracking via Sensor Fusion 发表于 ICRA 2021。
介绍
这篇文章的出发点是:相机感知范围广,对部分遮挡不敏感,但无法获取精确的定位;激光雷达感知范围有限,对遮挡敏感,但可以获取准确的三维信息。本文就是研究如何将二者的优点融为一体,打造一个好的追踪器(主要是利用相机来提高激光雷达的检测能力)。
方法
流程:
- 两种模态数据采用各自的检测器得到相应的目标检测结果
- 将激光雷达的检测结果投影到图像上,比较
IOU,从而融合相同目标的检测结果 - 三维数据关联
- 二维数据关联,负责处理三维数据关联未关联上的轨迹,并且处理被相机检测到但没有被激光雷达检测到的目标
- 状态更新、轨迹管理
Fusion (多模态检测结果之间的关联)
对于由 相机 得到的一组二维检测框和由 激光雷达 得到的一组三维检测框,我们需要将同一目标的两种类型框关联到一起,本文采用的方法是将三维框投影到图像平面,计算 2D IOU,对超过阈值的做匹配。由此,匹配上的作为共同观测到的目标,未匹配上的表示部分观测的目标(单个传感器观测到了)。
Matching (检测结果与历史轨迹的关联)
同时维护 2D 和 3D 的轨迹状态,进行两阶段的匹配,再分别更新轨迹状态。
- 第一阶段:对所有
3D检测结果和3D轨迹做匹配,未匹配上的3D框也不再参加下一轮匹配,未匹配的轨迹传入下一阶段。 - 第二阶段:利用
2D检测结果与2D轨迹和第一阶段未匹配的3D轨迹做匹配。注意这里的2D轨迹主要指那些被相机检测到但没有被激光雷达检测到的物体的轨迹,它们不可能出现在第一阶段的匹配中。
总结
本文利用两种模态数据,首先对检测到的相同目标赋予相同 ID,然后分别在 3D 和 2D 下做数据关联。融合相机和雷达可以对远处、部分遮挡、检测失效等问题更加有鲁棒性,如下图所示。