CVPR 2023 ViP3D

2023-06-14 530 阅读2分钟

背景

这两天在看轨迹预测的东西，纯轨迹预测的话，输入是感知的结果，包括历史轨迹、大小、速度等信息，输出是几秒的轨迹预测。但是这样的话，就和视觉没什么关系嘞，那么有没有端到端的感知-轨迹预测呢？

ViP3D

今天来学习一篇 2023 CVPR 的文章：ViP3D: End-to-end Visual Trajectory Prediction via 3D Agent Queries，作者是 VectorNet 作者之一的赵行。

赵行 VCAD 的系列工作包括：

静态：HDMapNet、VectorMapNet
动态：DETR3D、FUTR3D、MUTR3D、ViP3D

介绍

在以感知结果作为输入的轨迹预测中，汽车转向灯、刹车灯，行人体态(手势、头部、是否在玩手机等)等视觉信息是轨迹预测所感知不到的，但这些视觉信息包含众多的轨迹预测信息。

相关工作

CVPR 2018 Fast and Furious、CVPR 2020 PnPNet，都是基于 LiDAR 的端到端的轨迹预测，一方面是无法从视觉上观测到目标意图，另一方面是 NMS、re-id 不可微

ICCV 2021 FIERY ，利用视觉直接输出 heatmap，对工程不友好

方法

该方法通过 Query 将检测、追踪和预测联系起来，使以往分开的 pipeline 变得可微。

DETR3D 做检测，VectorNet 做预测，MUTR3D 做追踪

实验在 nuScenes 数据集上做的，训练一次要 8 卡 3 天，哭了

未来工作

赵行在 TechBeat 的演讲里提到未来会相机+点云一起做端到端的轨迹预测以提升精度

实验室项目现有场景

路侧少量雷达辅助多个相机，没有车载设备的感知信息

那我拿路侧数据做轨迹预测，雷达数据较少，感知结果不靠谱，最好是做端到端的轨迹预测了

那我通过路侧设备预测了车辆轨迹，怎么用在车上呢？需要一些车路协同的东西