背景
这两天在看轨迹预测的东西,纯轨迹预测的话,输入是感知的结果,包括历史轨迹、大小、速度等信息,输出是几秒的轨迹预测。但是这样的话,就和视觉没什么关系嘞,那么有没有端到端的感知-轨迹预测呢?
ViP3D
今天来学习一篇 2023 CVPR 的文章:ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries,作者是 VectorNet 作者之一的赵行。
赵行 VCAD 的系列工作包括:
- 静态:HDMapNet、VectorMapNet
- 动态:DETR3D、FUTR3D、MUTR3D、ViP3D
介绍
在以感知结果作为输入的轨迹预测中,汽车转向灯、刹车灯,行人体态(手势、头部、是否在玩手机等)等视觉信息是轨迹预测所感知不到的,但这些视觉信息包含众多的轨迹预测信息。
相关工作
CVPR 2018 Fast and Furious、CVPR 2020 PnPNet,都是基于 LiDAR 的端到端的轨迹预测,一方面是无法从视觉上观测到目标意图,另一方面是 NMS、re-id 不可微
ICCV 2021 FIERY ,利用视觉直接输出 heatmap,对工程不友好
方法
该方法通过 Query 将检测、追踪和预测联系起来,使以往分开的 pipeline 变得可微。
DETR3D 做检测,VectorNet 做预测,MUTR3D 做追踪
实验在 nuScenes 数据集上做的,训练一次要 8 卡 3 天,哭了
未来工作
赵行在 TechBeat 的演讲里提到未来会相机+点云一起做端到端的轨迹预测以提升精度
实验室项目现有场景
路侧少量雷达辅助多个相机,没有车载设备的感知信息
那我拿路侧数据做轨迹预测,雷达数据较少,感知结果不靠谱,最好是做端到端的轨迹预测了
那我通过路侧设备预测了车辆轨迹,怎么用在车上呢?需要一些车路协同的东西