模型分类
按照是否保留感知、预测、规划这些模块,可以简单的把端到端划分为显式和隐式。
- 显式
类似 UniAD 这种保留了传统分工,但中间可导的模型。
优势是有中间可视化,容易 debug,易于在规控过程中加入规则限制。
缺点是多任务训练不稳定,相较于单任务模型仍有性能损失。
- 隐式
略过大多数模块直接输出最终结果。
优势是可以端到端优化最终任务。
缺点是难以 debug。
Think Twice before Driving: Towards Scalable Decoders for End-to-End Autonomous Driving, CVPR 2023
本文的模型分类以及下节的综述内容都是学习自本节题目作者的讲述内容。
这篇文章主要有两个创新点:
一个是作者发现现有模型 encoder 的复杂度都大于 decoder 的复杂度,通过丰富 decoder 可以达到更好的端到端规控效果
二是引入两个先验信息:驾驶员会提前检查目标区域附近的车况;驾驶员在做决策前会预测其他智能体的行为意图以避免碰撞
综述
End to End Learning for Self-Driving Cars, NVIDIA, 2016
多视角相机输入,CNN 处理图像
Exploring the Limitations of Behavior Cloning for Autonomous Driving, ICCV, 2019
基于行为克隆的规控算法存在因果倒置的问题,例如通过速度为 0,就一直决策刹车。
本文通过图像对速度做预测,避免只通过上一时刻的速度做决策
Learning by Cheating, CoRL, 2019
End-to-End Urban Driving by Imitating a Reinforcement Learning Coach, ICCV, 2021
单前视相机作输入,知识蒸馏
Learning from All Vehicles, CVPR 2022
TransFuser: Imitation with Transformer-Based Sensor Fusion for Autonomous Driving, CVPR 2021 & TPAMI 2022
多相机 + LiDAR + 目标检测 + 其他辅助任务
Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline, NeurIPS 2022
探索端到端的输出模式:输出控制信号,擅长转弯,但容易碰撞;输出轨迹,碰撞少,但拐大弯会失败