50,000倍实时速度训练自动驾驶AI文章探讨了某机构如何利用大规模仿真、强化学习和视觉语言模型解决自动驾驶的“长尾难题

以50,000倍实时速度训练自动驾驶AI

自动驾驶是物理人工智能领域中最具挑战性的问题之一。自动化系统必须实时解读一个混乱、不断变化的世界——在不确定性中导航、预测人类行为，并在广泛的环境和边缘场景中安全运行。

某机构从一个简单的 premise 出发解决这个问题：虽然道路上的大多数时刻是可预测的，但那些罕见、模糊和意外的事件——即“长尾”——最终决定了自动驾驶系统是否安全、可靠，并具备大规模部署的条件。

随着某机构向“视线脱离”高速公路驾驶以及最终的完全自动驾驶迈进，解决“长尾”问题成为了核心的工程挑战。这需要开发出能够在最意想不到的条件下可靠地做出合理行为的系统。

某机构正在构建可扩展的驾驶人工智能来应对这一挑战——结合大规模仿真、强化学习和基于基础模型的推理，以在现实世界中不可能达到的规模和速度训练自动驾驶系统。

针对“长尾”进行压力测试

自动驾驶的“长尾”场景有几种类型。有些因其罕见性而引人注目：路上有床垫、消防栓爆裂、大规模停电导致交通信号灯失效。但“长尾”挑战不仅以千载难逢的罕见事件形式出现，它们也表现为需要人类特有的礼貌或常识的日常场景：如何在拥挤的停车场排队等候车位而不阻塞交通？如何在施工区根据工人手势和临时标志导航？这些对人类驾驶员来说是简单的挑战，但对机器来说需要巧妙的工程才能完美处理。

部署视觉语言模型

某机构正在开发的一种工具是使用视觉语言动作模型。从标准的视觉语言模型开始，利用互联网规模的知识来理解图像，工程师使用专门的解码头针对不同的驾驶相关任务进行微调。由此产生的视觉语言动作模型能够在通用图像识别能力的基础上，理解车辆轨迹并检测3D物体。这些调优后的模型使车辆能够识别警察的手势凌驾于红灯之上，或者识别繁忙机场航站楼的“装卸区”是什么样子。这些模型还可以生成推理轨迹，帮助工程师和安全操作员理解某个操作发生的原因——这是调试、验证和建立信任的重要工具。

在高保真仿真中测试危险场景

问题在于：驾驶需要瞬间反应时间，任何额外的延迟都会带来严重问题。为了解决这个问题，某机构正在开发一种“双频视觉语言动作模型”。这个大规模模型以较低频率运行，做出高层语义决策，而一个较小、高效的模型则处理即时的、高频率的空间控制。这种混合方法使车辆能够受益于深层的语义推理，而不会牺牲安全驾驶所需的瞬间反应时间。

安全处理边缘情况不仅需要模型理解它正在看什么，还需要理解如何合理地应对它已识别的挑战。为此，没有比经验更好的替代品。因此，每天运行数百万次高保真闭环仿真，相当于数万小时的人类驾驶天数，被压缩在几小时的仿真时间内。

针对最难案例的合成数据

这些模拟场景来自哪里？工程师采用大量人工智能技术来生成新颖的训练数据，这些数据可以模拟极端情况，同时保持与现实相符。例如，“种子到种子翻译”研究利用扩散模型转换现有的真实世界数据，允许研究人员将晴朗天气的录像转变为雨夜或雾夜，同时完美保留场景的几何结构。此外，基于扩散的仿真器允许使用自然语言和空间边界框合成全新的交通场景。

高保真仿真并非对所有学习任务都是最佳工具。当目标是教授决策和战术规划时，计算昂贵的细节不如空间关系和交通动态重要。人工智能系统可能需要数十亿甚至数万亿的轻量级示例来支持强化学习。为此，某机构开发了一个专有的多智能体强化学习仿真器“某机构健身房”，作为一个闭环仿真环境，既可以模拟高保真传感器数据，也可以在称为“方块世界”的抽象环境中每秒模拟数千名驾驶员。

通过专注于空间定位、速度和交通规则等要素，同时忽略水坑和坑洼等细节，“方块世界”为强化学习模型创造了一个高速训练环境，其运行速度比实时快50,000倍，每GPU秒可模拟1,000公里的驾驶。这种方法不仅允许模仿人类，还可以开发具有可验证客观结果（如安全性和进展）的驾驶模型。

从抽象策略到真实驾驶

当然，从家到办公室的路线并非穿过“方块世界”。为了将这种概念性专业知识带入现实世界，某机构是首批采用“策略内蒸馏”技术的机构之一。工程师同时以两种模式运行仿真器：抽象的、高速的“方块世界”和高保真传感器模式。在这里，已经练习了无数抽象里程以形成完美“策略”或驾驶策略的强化学习模型充当教师，指导最终将安装在汽车中的“学生”模型。仅30分钟的蒸馏就能捕获相当于12小时原始强化学习的内容，使现实世界模型能够快速继承其“表亲”在仿真中辛苦磨练的安全本能。

在故障发生前设计故障

仿真不仅用于训练模型良好驾驶，还用于试图使其失败。为了严格地对系统进行压力测试，某机构利用了一个名为“某机构3D”的可微分流程。该流程不是简单地重建世界，而是主动修改它，以创建旨在欺骗感知系统的“对抗性”物体。优化这些故障模式使工程师能够预先发现安全风险，在它们出现在道路上之前。在这些生成的“困难”物体上迭代重新训练模型，已被证明可以减少超过30%的险些碰撞事故，缩小了可能被忽略的边缘情况的安全差距。

即使拥有先进的仿真和对抗性测试，一个真正稳健的系统也必须了解自身的局限性。为了在未知面前确保安全，研究人员在其模型中添加了一个专门的“认知不确定性头”。这种架构上的补充使人智能能够区分标准噪声和真正的困惑。当模型遇到它不理解的情景——一个真正的“长尾”事件——它会发出高认知不确定性信号。这自动标记出最令人困惑和最有价值的例子，供工程师分析并添加到训练集中。

这种严格的、多方面的方法——从“方块世界”策略到对抗性压力测试——是某机构为解决最后1%的自动驾驶问题而提出的框架。

规模化解决“长尾”问题

致力于解决自动驾驶的“长尾”问题并非关乎单一模型或技术。它需要一个生态系统——一个将高保真仿真与抽象学习环境、强化学习与模仿、语义推理与瞬间控制相结合的生态系统。

这种方法不仅仅是提高普通情况下的性能。它旨在揭示那些罕见的、模糊的和困难的场景，这些场景决定了自动驾驶是否真正准备好无需人类监督即可运行。

仍有开放的研究问题：通过奖励函数优化时，驾驶策略能有多像人类？如何最好地将无限的模拟经验与现实人类驾驶中嵌入的更丰富的先验知识相结合？生成式世界模型能在多大程度上帮助我们创造有意义的、关乎安全的关键边缘情况？

回答这些问题是自动驾驶未来的核心。在某机构，正在构建解决这些问题所需的工具、基础设施和研究文化——不是在小规模上，而是在真实车辆、真实客户和真实道路所需的规模上。FINISHED