CVPR 2023 ViP3D

530 阅读2分钟

背景

这两天在看轨迹预测的东西,纯轨迹预测的话,输入是感知的结果,包括历史轨迹、大小、速度等信息,输出是几秒的轨迹预测。但是这样的话,就和视觉没什么关系嘞,那么有没有端到端的感知-轨迹预测呢?

ViP3D

今天来学习一篇 2023 CVPR 的文章:ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries,作者是 VectorNet 作者之一的赵行。

赵行 VCAD 的系列工作包括:

  • 静态:HDMapNet、VectorMapNet
  • 动态:DETR3D、FUTR3D、MUTR3D、ViP3D

介绍

在以感知结果作为输入的轨迹预测中,汽车转向灯、刹车灯,行人体态(手势、头部、是否在玩手机等)等视觉信息是轨迹预测所感知不到的,但这些视觉信息包含众多的轨迹预测信息。

相关工作

CVPR 2018 Fast and Furious、CVPR 2020 PnPNet,都是基于 LiDAR 的端到端的轨迹预测,一方面是无法从视觉上观测到目标意图,另一方面是 NMS、re-id 不可微

ICCV 2021 FIERY ,利用视觉直接输出 heatmap,对工程不友好

方法

该方法通过 Query 将检测、追踪和预测联系起来,使以往分开的 pipeline 变得可微。

DETR3D 做检测,VectorNet 做预测,MUTR3D 做追踪 image.png

实验在 nuScenes 数据集上做的,训练一次要 8 卡 3 天,哭了

未来工作

赵行在 TechBeat 的演讲里提到未来会相机+点云一起做端到端的轨迹预测以提升精度

实验室项目现有场景

路侧少量雷达辅助多个相机,没有车载设备的感知信息

那我拿路侧数据做轨迹预测,雷达数据较少,感知结果不靠谱,最好是做端到端的轨迹预测了

那我通过路侧设备预测了车辆轨迹,怎么用在车上呢?需要一些车路协同的东西