场景扩散技术助力Zoox车辆应对安全关键场景
生成式AI能够按需创建复杂、逼真的驾驶场景,并可定向至特定地点和环境,支持大规模场景生成。
自动驾驶汽车(AV)代表着人类出行方式的新时代,但其部署面临诸多挑战。必须通过仿真进行 extensive 的安全测试,这需要大规模创建合成驾驶场景。尤其重要的是生成逼真的、安全关键的道路场景,以测试自动驾驶汽车如何应对各种驾驶情况,包括那些相对罕见且具有潜在危险的情况。
传统方法生成的场景复杂度有限,且难以复现许多真实世界的情况。近来,机器学习模型已利用深度学习,能根据指定的地图区域生成复杂的交通场景,但在塑造最终场景中车辆的位置、速度和轨迹方面,提供的手段有限。这使得按需创建特定的安全关键场景变得困难。同时,手动设计海量此类场景也不切实际。
在某机构旗下Zoox,我们于2023年神经信息处理系统大会(NeurIPS)上发表的一篇论文中,提出了一种名为“场景扩散”的方法来应对这些挑战。该系统包含一个基于潜在扩散技术的新型机器学习架构,该技术常用于图像生成,模型学习将随机噪声转换为详细图像。场景扩散能够按需输出高度可控且逼真的交通场景。其可控性在于,场景扩散模型的输出不仅基于目标区域的地图,还基于一系列易于生成的描述符,这些描述符可以指定场景中部分或所有车辆的位置和特征。我们将这些描述符称为智能体标记,它们以特征向量的形式存在。同样,我们还可以指定全局场景标记,用以指示给定场景中道路的繁忙程度。
将扩散架构与基于标记的控制相结合,使我们能够按需生成安全关键的驾驶场景,从而增强验证专用机器人出租车安全性的能力。我们很高兴能将生成式AI应用于自动驾驶汽车安全验证这一实际挑战中,并期待其产生重大影响。
场景扩散模型内部解析
自动驾驶汽车的控制软件通常分为感知、预测和运动规划模块。在路上,自动驾驶汽车的摄像头和其他传感器感知道路状况,为了运动规划的目的,这些信息可以简化为鸟瞰图来表示。
在这张多通道图像中,包括自动驾驶汽车本身在内的每一辆车(“智能体”)都被表示为一个“边界框”,反映车辆在地图上的宽度、长度和位置。图像还包含车辆的其他特征信息,如朝向和轨迹。这些特征以及地图本身,是仿真中验证运动规划所需的合成驾驶场景的两个关键要素。
场景扩散模型包含两个组件。第一个是自编码器,它将复杂的驾驶场景投影到一个更易于管理的表示空间。第二个组件,即扩散模型,在该表示空间内运行。
与所有扩散模型一样,本模型的训练过程是通过向真实场景添加噪声,然后让模型去除这些噪声。模型训练完成后,我们可以采样随机噪声,并利用模型逐步将其“去噪”成一个逼真的驾驶场景。有关训练、推理过程和模型架构的详细探讨,请参阅我们的论文。
我们在公开和专有的真实世界驾驶日志数据集上训练了模型,这些数据集包含来自不同地理区域和环境的数百万个驾驶场景。
以往的驾驶场景生成机器学习方法通常是将智能体的边界框放置在地图上——本质上是一个静态快照,不包含运动信息。然后,它们使用对象识别来识别这些框,再应用启发式方法或学习方法为每个智能体决定合适的轨迹。这种混合解决方案难以捕捉真实世界驾驶的细微差别。
这项工作的一个关键贡献在于,它实现了智能体放置和行为的同时推断。当训练好的模型为给定地图生成交通场景时,它在场景中放置的每一个智能体都附带一个特征向量,用以描述其属性,例如车辆的尺寸、朝向和轨迹。驾驶场景就这样完整地呈现出来。
这种特征向量方法不仅能生成更逼真的场景,还使得向模型添加信息变得非常容易,从而使其具有高度的适应性。在论文中,我们仅处理标准车辆,但可以很直接地生成更复杂的场景,包括自行车、行人、滑板车、动物——任何Zoox机器人在真实世界中曾经遇到过的物体。
按需创建安全关键的“边缘案例”
如果我们只是想创建成千上万个逼真的驾驶场景,而不针对特定情况,可以让场景扩散模型在特定地图上自由生成交通流。这种方法在先前的研究中已有探索。但随机生成的场景并非验证自动驾驶软件如何处理罕见的安全关键事件的有效方式。
想象一下,我们想验证自动驾驶汽车在给定地图上遇到安全关键情况(例如一辆公交车在其前方右转)时的行为。对于场景扩散模型而言,创建此类场景非常简单,这得益于其使用的智能体标记和全局场景标记。智能体标记可以很容易地从真实驾驶日志中的数据计算出来,或由人工创建。然后,这些标记可用于引导模型在特定位置放置具有所需特征的车辆。模型会将这些车辆包含在其生成的场景中,同时创建额外的智能体以逼真的方式填充场景的其余部分。
仅需一块GPU,生成一个新场景大约需要一秒钟。
跨区域的成功泛化能力
为了评估模型跨地理区域的泛化能力,我们使用Zoox数据集中每个区域的数据分别训练了模型。仅在旧金山驾驶日志上训练的模型,在生成旧金山的逼真驾驶场景方面,比在西雅图数据上训练的模型表现更好。然而,在包含四个区域的完整Zoox数据集上训练的模型,其性能非常接近区域专用模型。这些发现表明,尽管每个区域都有其独特之处,但经过完整训练的模型具备足够的能力来捕捉这种多样性。
随着Zoox扩展到新的都市区,这种跨城市泛化的能力对自动驾驶汽车验证的未来来说是个好消息。在新的地点,始终需要使用配备完整传感器架构并由安全驾驶员监控的自动驾驶汽车来收集真实世界的驾驶日志。然而,生成补充性合成数据的能力将缩短在新区域验证自动驾驶汽车控制系统所需的时间。
我们计划在此研究基础上,使模型的输出日益丰富和细致,包含更多样的车辆和物体类型,以更好地匹配真实街道的复杂性。例如,最终可以设计一个模型来生成高度复杂的安全场景,如放学时间经过学校附近,有成群的孩子和家长靠近或涌入道路。
正是这种灵活性、可控性与日益增强的逼真度的强大结合,我们相信将使场景扩散方法成为自动驾驶汽车安全验证未来的基石。
致谢: Meghana Reddy Ganesina, Noureldin Hendy, Zeyu Wang, Andres Morales, Nicholas Roy.FINISHED