今天继续看端到端的模型,UniAD 是 CVPR 2023 最佳论文候选
介绍
尽管现在大多数产业解决方案分模块来做降低了研发的难度,如上图 a 所示,但是在模块间存在着信息丢失、误差累积和特征错位的问题。
相较于上面提到的独立的模型处理独立的模块,多任务的框架似乎是更优雅的设计,如上图 b 所示。同一个 backbone + 多个 Head 联合训练解决多任务。but 这种范式存在 negative transfer 的问题。
上表列举了一些工作,以及每篇工作涉及到的感知、预测和规划任务。
在此按时间顺序整理一下表中工作:
- b
(CVPR 2019)End-to-end interpretable neural motion planner
(ICCV 2021)Neural attention fields for end-to-end autonomous driving
(arXiv 2022)BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving
- c.1
(CORL 2019)Learning by cheating
(CVPR 2021)Multi-modal fusion transformer for end-to-end autonomous driving
(ICCV 2021)Learning to drive from a world on rails
(NeurIPS 2022) Trajectory-guided control prediction for end-to-end autonomous driving: A simple yet strong baseline
- c.2
(CVPR 2020) Pnpnet: End-to-end perception and prediction with tracking in the loop
(ECCV 2020) Perceive, predict, and plan: Safe motion planning through interpretable semantic representations
(CVPR 2021) Mp3: A unified model to map, perceive, predict and plan
(CVPR 2022) Learning from all vehicles
(ECCV 2022) ST-P3: End-to-end vision-based autonomous driving via spatial-temporal feature learning
(CVPR 2023) ViP3D: End-to-end visual trajectory prediction via 3d agent queries
本文贡献:
- 提出了围绕 planning 做自动驾驶的理念,证明了相较于分模块或多任务学习,任务协作的有效性
- 提出了 UniAD ,将 query 作为接口的端到端的自动驾驶系统
- SOTA 实验结果
方法
pipeline 如下图所示,包括 4 个 Transformer decoder 模块做感知和预测,以及一个 Planner 模块
看论文很吃力,之后需要多看看基础理论和代码实现了