V2X-Seq: A Large-Scale Sequential Dataset for Vehicle-Infrastructure Cooperative Perception and Forecasting
是发表在 CVPR 2023
的一篇数据集论文,该数据集可用于做车路协同 追踪/轨迹预测,本人在研究多传感器融合追踪,今天在此解读一下该论文的追踪部分。
摘要
- 时序感知数据集由
95
个场景中采集的15000
多帧数据组成。 - 提出了一个新的
VIC3D Tracking
任务。
介绍
时序感知数据集包括了路侧及车载的图像和点云数据、3D
检测和追踪标注和向量地图。
VIC3D Tracking
任务目标是通过路侧和车载 多传感器、多端 的时序输入,定位、识别和追踪 3D
目标。为了解决该任务,尤其是处理车路之间的通信延迟,文中提出了一个特征级的融合方法 FF-Tracking
。
相关工作
V2X-Seq
填补了车路协同时序感知真实数据集的空白
数据集:Sequential Perception Dataset (SPD)
值得注意的是在构建 SPD
时需要基于时空匹配进行车路的协同轨迹标定,文中具体的协同标定方法是:对于车载感知的某帧,对路侧感知插值估计出同一时刻的路侧感知帧,随后把路侧感知结果投影到车载坐标系,根据距离和匈牙利算法做匹配。由于标定和插值的误差可能引起错误的空间匹配,文中还提到通过计算车路匹配上的两组点构成的轨迹的相似度,来过滤掉低置信度的匹配。
任务:VIC3D Tracking
任务描述
- 输入: 时刻之前的车载感知序列和相对位姿,以及 时刻之前的路侧感知序列和相对位姿,由于通信延迟, 早于 。
- 输出:在车路感知覆盖范围内,
ego
感兴趣区域中目标的追踪结果,包括目标的id
、位置、类别、朝向。
评估指标
为了以更小的通信代价实现更高的追踪准确度,一方面需要利用 MOTA MOTP IDS
来衡量追踪的精度,另一方面需要用 BPS(Byte Per Second)
衡量传输内容的大小和频率。
FF-Tracking
FF-Tracking
是一个特征级融合架构,为了缓解由延迟导致的融合误差,作者使用历史帧和当前帧得到特征流,从而预测未来时刻的特征。(目标就是车接收到的消息与当前时刻的状态是基本一致的)
该框架点云检测器用的是 3DSSD
,追踪用的是我上一篇文章介绍的 AB3DMOT
。
实验
文中对三种融合方式在有无通信延迟的条件下做了对比试验,实验结果如上图所示。
对于后融合,文中用 PointPillars
处理点云,使用 ImvoxelNet
处理图像。
后融合由于其丢失原始信息较多,在没有通信延迟的情况下精度表现最差,但是由于其传输内容少,对通信延迟比较鲁棒。后融合也可以加入一些状态预测信息作为传输内容,牺牲一些传输空间来换取感知精度。