DrivingDojo：中科院联合美团推出的自动驾驶数据集，包含视频片段、驾驶操作和驾驶知识

2024-12-11 275 阅读4分钟

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦

🚀 快速阅读

数据集概述：DrivingDojo包含18,000个视频片段，涵盖驾驶操作、多智能体交互及开放世界驾驶知识。
主要功能：提供交互式世界模型训练、动作指令跟随（AIF）、多样化驾驶操作等功能。
技术原理：基于Stable Video Diffusion等技术，开发从初始帧和动作指令生成视频的模型，并使用FID和FVD等指标评估生成视频的质量。

正文（附运行示例）

DrivingDojo 是什么

公众号: 蚝油菜花 - Drivingdojo

DrivingDojo是中国科学院自动化研究所与美团无人车团队合作推出的数据集，旨在训练和研究复杂的自动驾驶交互式世界模型。该数据集包含18,000个视频片段，覆盖了完整的驾驶操作、多智能体交互以及丰富的开放世界驾驶知识，为开发下一代自动驾驶模型提供了坚实的基础。

DrivingDojo定义了动作指令跟随（AIF）基准，用于评估世界模型在执行动作控制的未来预测方面的能力。通过这一基准，研究人员可以更好地理解和优化自动驾驶模型的预测能力。

DrivingDojo 的主要功能

交互式世界模型训练：提供一个平台，用于训练理解和模拟复杂驾驶动态的交互式世界模型。
动作指令跟随（AIF）：定义AIF基准，评估世界模型在遵循动作指令生成未来预测的能力。
多样化驾驶操作：基于DrivingDojo-Action子集，模型学习加速、减速、紧急制动和车道变换等多样化的驾驶操作。
多智能体交互：使用DrivingDojo-Interplay子集，模型能理解和预测车辆与其他道路使用者之间的复杂交互。
开放世界知识：使用DrivingDojo-Open子集，模型学习处理开放世界中的罕见事件和长尾场景。
视频生成与预测：模型基于初始帧和动作指令生成未来的视频，模拟和预测驾驶场景。

DrivingDojo 的技术原理

数据收集：使用美团无人车团队的自动驾驶车辆平台收集视频数据。
数据策划：从大量收集的数据中精选出包含丰富驾驶操作、多智能体交互和开放世界知识的视频片段。
动作编码：将驾驶动作（如加速、制动、转向）编码为模型能理解的格式，方便在视频生成中使用。
视频生成模型：基于如Stable Video Diffusion等技术，开发从初始帧和动作指令生成视频的模型。
动作指令跟随（AIF）：比较生成视频与输入动作指令的一致性，评估模型的预测准确性。
评估指标：使用FID（Frechet Inception Distance）和FVD（Frechet Video Distance）等指标评估生成视频的视觉质量，使用AIF错误评估动作指令的跟随能力。

如何运行 DrivingDojo

示例代码

以下是一个简单的示例代码，展示了如何使用DrivingDojo进行视频生成：

from diffusers import StableVideoDiffusionPipeline

# 加载模型
model = StableVideoDiffusionPipeline.from_pretrained("Yuqi1997/DrivingDojo")

# 生成视频
video = model.generate_video(initial_frame, action_sequence)

# 保存生成的视频
video.save("generated_video.mp4")

代码解释

加载模型：使用StableVideoDiffusionPipeline从HuggingFace加载预训练的DrivingDojo模型。
生成视频：通过generate_video方法，基于初始帧和动作序列生成未来的驾驶场景视频。
保存视频：将生成的视频保存为generated_video.mp4文件。

资源

项目官网：drivingdojo.github.io
GitHub 仓库：github.com/Robertwyq/D…
HuggingFace 模型库：huggingface.co/datasets/Yu…
arXiv 技术论文：arxiv.org/pdf/2410.10…

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发非常感兴趣，我会每日跟你分享最新的 AI 资讯和开源应用，也会不定期分享自己的想法和开源实例，欢迎关注我哦！

🥦 微信公众号｜搜一搜：蚝油菜花 🥦