Waymo发布视觉E2E驾驶基准数据集!面向端到端驾驶的开放数据集,专攻0.03%概率的长尾场景!

111 阅读4分钟

传统自动驾驶系统常采用模块化设计方法,将驾驶任务分解为不同的子任务,如感知、预测和规划。目前主流的智驾系统大多已转向端到端架构,可利用多模态大语言模型(MLLMs)及其世界知识进行 E2E 驾驶。

当前的真实世界 E2E 驾驶数据集,如 NAVSIM、WOMD 和 CoVLA ,主要包含常规驾驶场景,未能使系统充分暴露于现实世界中可能存在的长尾情况。

而自动驾驶能否真正落地的关键考验,不是那99.97%的常规路况,而是剩下的0.03%的极端瞬间。比如:高速上前方车辆突然掉落轮胎,夜间道路上一群飞鸟低空掠过...

今天给大家推荐来自 Waymo 最新发布的数据集:面向端到端驾驶的开放数据集(WOD-E2E),该数据集明确关注长尾情况。

# 论文
WOD-E2E: Waymo Open Dataset for End-to-End Driving in Challenging Long-tail Scenarios
# 链接
https://arxiv.org/pdf/2510.26125

一、为什么需要WOD-E2E?

利用多模态大语言模型(MLLMs)为 E2E 驾驶系统注入增强的推理能力和世界知识已经成为目前的趋势。

DriveGPT4 利用 LLMs 以迭代问答的形式解释车辆动作并预测控制信号。DriveVLM 将思维链应用于端到端驾驶,而 VLP 将 MLLMs 的推理直接应用于 BEV 空间。EMMA 利用 Gemini 在统一的语言空间内处理多个驾驶任务,包括规划、3D 检测和道路理解。

但主流数据集(如 nuScenes、WOMD)主要采集普通城市驾驶片段,缺少真正具有挑战性的边缘案例。传统评估指标一般只衡量预测轨迹与真实轨迹的距离,这些指标无法捕捉安全性、合法性、反应时机、舒适性等关键维度。

为解决这些问题,Waymo 推出 WOD-E2E,直面三大核心挑战:

  • 构建一个高度稀有的长尾场景数据集

  • 设计一种与人类偏好对齐的评估体系

  • 推动真正鲁棒、可泛化、安全的E2E驾驶代理发展

二、WOD-E2E 到底有多“难”?

WOD-E2E 包含 4,021 个 20 秒长的真实驾驶片段,总计约 12小时的高质量数据,每个片段包含 8 个覆盖 360 度视野的环绕摄像头、高层级路由信息、自车历史位置及其未来 5 秒的轨迹,全部来自 Waymo 自动驾驶车队的实际路测。

这些片段可不是随便选的——它们是从 640万英里的驾驶数据中精心挖掘出来的,发生频率低于0.03%,堪称“百万分之一”的极端事件。

数据集特点如下:

**

  • 覆盖11类长尾场景,包含施工区,多车博弈,特种车辆交互,异物散落等。
  • 传感器输入8个环绕摄像头,360°视野,10Hz采样
  • 分布多样,来自多个城市,涵盖城市街道、高速公路、匝道、复杂交叉口
  • 自车状态,历史轨迹、速度、加速度等完整车辆动力学信息

**

三、用人类评分定义什么是“好驾驶”

Waymo 提出评估者反馈得分,一种与人类对齐的开放式评估指标。RFS 的核心思想是预测轨迹越符合专家偏好越好。

首先生成候选轨迹:使用模型生成多达 64 条未来轨迹,聚类后保留约 12 条代表性路径。

然后由人工标注与评分由专业评估员选出 **3 条关键轨迹,**每条轨迹在安全、合法、反应时间、刹车必要性以及效率五个维度上打分。

最后模型预测轨迹若落在某条参考轨迹的“信任区域”内,则获得其评分;超出则按指数衰减扣分,最低4分。

真正的智能驾驶,不在于避开100次小颠簸,而在于躲开那1次致命碰撞。WOD-E2E 的出现旨在推动最先进的研究,以开发能够处理复杂现实世界情况的、可泛化、鲁棒且安全的端到端自动驾驶智能体。

最后,关注视觉大模型与多模态大模型的小伙伴们可留言区回复‘加群’进入大模型交流群、视觉应用落地交流群!