CVPR 2023 UniAD

548 阅读2分钟

今天继续看端到端的模型,UniAD 是 CVPR 2023 最佳论文候选

介绍

image.png

尽管现在大多数产业解决方案分模块来做降低了研发的难度,如上图 a 所示,但是在模块间存在着信息丢失、误差累积和特征错位的问题。

相较于上面提到的独立的模型处理独立的模块,多任务的框架似乎是更优雅的设计,如上图 b 所示。同一个 backbone + 多个 Head 联合训练解决多任务。but 这种范式存在 negative transfer 的问题。

image.png

上表列举了一些工作,以及每篇工作涉及到的感知、预测和规划任务。

在此按时间顺序整理一下表中工作:

  • b

(CVPR 2019)End-to-end interpretable neural motion planner

(ICCV 2021)Neural attention fields for end-to-end autonomous driving

(arXiv 2022)BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

  • c.1

(CORL 2019)Learning by cheating

(CVPR 2021)Multi-modal fusion transformer for end-to-end autonomous driving

(ICCV 2021)Learning to drive from a world on rails

(NeurIPS 2022) Trajectory-guided control prediction for end-to-end autonomous driving: A simple yet strong baseline

  • c.2

(CVPR 2020) Pnpnet: End-to-end perception and prediction with tracking in the loop

(ECCV 2020) Perceive, predict, and plan: Safe motion planning through interpretable semantic representations

(CVPR 2021) Mp3: A unified model to map, perceive, predict and plan

(CVPR 2022) Learning from all vehicles

(ECCV 2022) ST-P3: End-to-end vision-based autonomous driving via spatial-temporal feature learning

(CVPR 2023) ViP3D: End-to-end visual trajectory prediction via 3d agent queries

本文贡献:

  • 提出了围绕 planning 做自动驾驶的理念,证明了相较于分模块或多任务学习,任务协作的有效性
  • 提出了 UniAD ,将 query 作为接口的端到端的自动驾驶系统
  • SOTA 实验结果

方法

pipeline 如下图所示,包括 4 个 Transformer decoder 模块做感知和预测,以及一个 Planner 模块

image.png

看论文很吃力,之后需要多看看基础理论和代码实现了