论文解读 | V2X-Seq 车路协同追踪部分

117 阅读3分钟

image.png V2X-Seq: A Large-Scale Sequential Dataset for Vehicle-Infrastructure Cooperative Perception and Forecasting 是发表在 CVPR 2023 的一篇数据集论文,该数据集可用于做车路协同 追踪/轨迹预测,本人在研究多传感器融合追踪,今天在此解读一下该论文的追踪部分。

摘要

  • 时序感知数据集由 95 个场景中采集的 15000 多帧数据组成。
  • 提出了一个新的 VIC3D Tracking 任务。

介绍

时序感知数据集包括了路侧及车载的图像和点云数据、3D 检测和追踪标注和向量地图。

VIC3D Tracking 任务目标是通过路侧和车载 多传感器多端 的时序输入,定位、识别和追踪 3D 目标。为了解决该任务,尤其是处理车路之间的通信延迟,文中提出了一个特征级的融合方法 FF-Tracking

相关工作

V2X-Seq 填补了车路协同时序感知真实数据集的空白

数据集:Sequential Perception Dataset (SPD)

值得注意的是在构建 SPD 时需要基于时空匹配进行车路的协同轨迹标定,文中具体的协同标定方法是:对于车载感知的某帧,对路侧感知插值估计出同一时刻的路侧感知帧,随后把路侧感知结果投影到车载坐标系,根据距离和匈牙利算法做匹配。由于标定和插值的误差可能引起错误的空间匹配,文中还提到通过计算车路匹配上的两组点构成的轨迹的相似度,来过滤掉低置信度的匹配。

任务:VIC3D Tracking

任务描述

  • 输入:tvt_v 时刻之前的车载感知序列和相对位姿,以及 tit_i 时刻之前的路侧感知序列和相对位姿,由于通信延迟,tit_i 早于 tvt_v
  • 输出:在车路感知覆盖范围内,ego 感兴趣区域中目标的追踪结果,包括目标的 id、位置、类别、朝向。

评估指标

为了以更小的通信代价实现更高的追踪准确度,一方面需要利用 MOTA MOTP IDS 来衡量追踪的精度,另一方面需要用 BPS(Byte Per Second) 衡量传输内容的大小和频率。

FF-Tracking

image.png

FF-Tracking 是一个特征级融合架构,为了缓解由延迟导致的融合误差,作者使用历史帧和当前帧得到特征流,从而预测未来时刻的特征。(目标就是车接收到的消息与当前时刻的状态是基本一致的)

该框架点云检测器用的是 3DSSD,追踪用的是我上一篇文章介绍的 AB3DMOT

实验

image.png

文中对三种融合方式在有无通信延迟的条件下做了对比试验,实验结果如上图所示。

对于后融合,文中用 PointPillars 处理点云,使用 ImvoxelNet 处理图像。

image.png

后融合由于其丢失原始信息较多,在没有通信延迟的情况下精度表现最差,但是由于其传输内容少,对通信延迟比较鲁棒。后融合也可以加入一些状态预测信息作为传输内容,牺牲一些传输空间来换取感知精度。