自动驾驶安全评估的形式化验证

1 阅读10分钟

Formal verification for safety evaluation of autonomous vehicles: an interview with Abdelrahman Sayed Sayed - ΑΙhub

在本次访谈系列中,我们将与一些AAAI/SIGAI博士联盟的参与者交流,深入了解他们的研究。我们采访了Abdelrahman Sayed Sayed,与他聊了聊关于形式化验证应用于自动驾驶车辆的工作。

能否介绍一下你在哪里学习以及你研究的广泛主题?

我是法国古斯塔夫·埃菲尔大学的一名玛丽·居里博士研究员。我的博士课题是用于自动驾驶车辆安全评估的神经ODE(常微分方程)形式化验证。这个题目有点长!这是一个跨学科的博士项目,涉及连续AI模型、形式化方法和自主系统的交叉领域。

在法国,我主要进行理论工作,目前也在挪威特隆赫姆的海洋技术系进行访问研究,在那里我反思博士前两年的理论成果,并将其应用于海洋和海事领域的自主车辆。

能否谈谈什么是形式化验证,为什么它是一个如此重要的课题?

实际上,我进行博士研究以及神经ODE形式化验证的主要动机,是我个人不信任AI感知模型或AI控制的应用。然而,如果我们有一个形式化保证,确保我们的模型会以特定方式或在特定控制值范围内运行,那么我们就能建立一些信任。根据我与工业伙伴以及操作安全关键型机器人的人员的交流,没有人愿意实现哪怕很小的AI功能,因为他们的应用涉及与人类或关键基础设施的交互。因此,对这类基于AI的组件引入形式化验证可以提供一些保障。它还可以帮助他们遵守欧盟或其他有关此类模型如何与人类交互等的法规。

据我所知,你的博士研究至今包含三个不同的研究项目或方向。能谈谈第一个吗?

正如我所提到的,我的博士研究是跨学科的,涉及多个领域——从AI到控制理论、形式化方法再到自动驾驶车辆中的应用。第一个研究方向是关于在离散和连续神经模型之间建立形式化关系。我研究了神经ODE(一种连续的AI模型或函数)与残差网络(一种离散模型)之间的紧密关系。

神经ODE实际上是2018年提出的一个较新模型,在控制领域和AI社区都引起了相当多的关注,因为它可以处理时间序列数据。这为现实世界的应用打开了大门。但神经ODE与其他离散模型之间的联系仍然比较模糊。因此,在我们的工作中,主要思想是通过限定两者之间的近似误差来建立这两种模型之间的形式化关系。我们做的第二件事是构建一个验证代理,意思是如果我们验证了一个模型并对其有保证,我们可以将其反映到其他模型上,而无需也去验证另一个模型。这个想法主要源于缺乏针对神经ODE的基于验证的分析工具。因此,如果我们设法验证了一个神经网络模型(我们有一些工具可以做到这一点),我们就可以将其反映到神经ODE模型上。

所提出框架的示意图,用于基于模型2的验证结果和模型间最大误差的界限ε来验证模型1。转存失败,建议直接上传图片文件

有意思!那么你第二个研究方向调查了什么?

目前能处理神经ODE模型的现有工具计算成本很高,因为它们依赖于三到五维(甚至更多)的集合表示。因此,在这项研究中,我们提出了基于将混合单调性方法扩展到连续时间动态系统的神经ODE区间可达性分析方法。这类方法最初是由我的主要博士导师Pierre-Jean Meyer针对连续时间动态系统提出的。于是,我将这项工作扩展到了神经ODE和连续时间神经网络。我们的方法被证明是轻量级的方法,这为现实世界应用或现实世界验证打开了大门。我们距离那个目标还很远,因为我们仍处于在系统或车辆运行前提供离线保证的阶段。但希望在未来的几年里,我们能够在线完成这项工作。

使用不同工具、方法和混合单调性方法对神经ODE进行可达性分析的步骤示意图。转存失败,建议直接上传图片文件

那么第三个、也是最近的研究方向是什么呢?

第三个方向是关于创建一个完整的神经ODE验证器或验证工具箱。在此,我将之前方向中我们方法的结果扩展到一个完整的神经ODE验证器中,以检查神经ODE模型上的特定安全属性。其总体架构是:首先,我们对输入集进行反例检查,看是否能找到反例。如果找到反例,我们得出结论,这将违反我们的安全属性或系统规范。然而,如果没有找到任何反例,我们就进入验证和细化循环。我们尝试将输入集拆分成更小的子集,分别验证每个部分,然后取它们的并集。如果在特定时间范围内未能找到系统的安全可达集,我们得出结论:超时了。系统对于这些特定区域可能是安全的,也可能不安全。操作员随后就能知道哪些区域是安全的,哪些区域可能不安全(由于不确定性)。这些不安全的区域可以被避开。

神经ODE验证器架构图转存失败,建议直接上传图片文件

能多谈谈这些应用吗?

我的实验室位于法国北部,专门研究导轨车辆和自动地铁线路。一个有趣的事实是,里尔拥有世界上第一条自动地铁线路。因此,与地铁和火车相关的应用包括沿铁路走廊的实时监控、危险检测与分类,这依赖于AI模型来分类特定的感兴趣区域。我们认为使用神经ODE验证这些分类模型可能会很有趣。我设法找到了一些铁路走廊数据集,其中包含来自图像和传感器收集数据的感兴趣对象的标签。

另一类应用与海洋环境有关。我参与了挪威海洋技术系的一个名为SFI Harvest的项目,该项目使用自主水下航行器和颗粒成像仪监测水下浮游动物和一些微生物。他们多年来在现场活动中收集的图像中发现了一些问题。他们主要对监测桡足类动物的迁徙模式感兴趣,这些动物实际上是在挪威捕捞的。他们注意到收集到的图像中存在一个问题,即出现了气泡和其他他们不感兴趣的微小海洋生物。他们目前使用离散CNN分类器进行特征提取和生物类别分配。所以在这里,我的验证器将发挥作用,以验证他们分类器的鲁棒性或检测的鲁棒性。

对收集的原位图像中感兴趣区域的鲁棒性验证示意图转存失败,建议直接上传图片文件

你觉得博士联盟和AAAI会议的整体体验如何?

博士联盟是一次很好的经历,其他参与者有着不同的背景,这很有趣。我个人很喜欢他们为每组参与者分配一位导师的方式。我很幸运,因为我的导师也是做AI验证的。能得到对我博士工作的一些反思是很好的。

就更广泛的会议而言,我个人更喜欢小型社区聚会——AI验证社区确实很小。去年我参加了在萨格勒布举行的CAV会议,在AI验证专题讨论会上展示了我第一个研究方向的工作。CAV是形式化方法/形式化理论领域的顶级会议。当我去参加AAAI时,我遇到了很多参加过CAV会议的人,所以再次见面很高兴。我们这些AI验证研究人员面临的一个共同问题是,AI社区的人认为我们做的是非常理论化或数学化的东西,所以我们觉得自己不太适合那里。而形式化方法领域的人通常验证软件程序之类的东西。所以我们的研究触及了两个社区。实际上,在AAAI上有一个关于神经网络验证竞赛的教程和实验室论坛。这是为在两个领域工作的人举办的聚会,非常棒。

Abdelrahman Sayed在AAAI/SIGAI博士联盟海报环节转存失败,建议直接上传图片文件

在不做博士研究的时候,你喜欢做什么?

我非常喜欢骑自行车。然而,在法国北部,总是下雨,而当我来到挪威时,又经常下雪。天气好的时候,或者夏天,我经常骑自行车,我喜欢骑自行车在城市间旅行或探索不同的城市。2021年夏天,我和一个朋友骑自行车游览了意大利北部的大部分小城市。我也喜欢徒步旅行,尤其是在山区。

参考文献

Sayed, A.S., Formal verification of neural ode for safety evaluation in autonomous vehicles, AAAI-26 Doctoral Consortium (2026).

Sayed, A.S., Meyer, P.J., Ghazel, M., Mixed monotonicity reachability analysis of neural ode: A trade-off between tightness and efficiency, NeurIPS 2025 Workshop on Symmetry and Geometry in Neural Representations (2025).

Sayed, A.S., Meyer, P.J., Ghazel, M., Bridging neural ode and resnet: A formal error bound for safety verification, International Symposium on AI Verification. pp. 97–114. Springer (2025).

关于Abdelrahman

Abdelrahman Sayed Sayed 是法国古斯塔夫·埃菲尔大学的一名三年级博士研究员,由Pierre-Jean Meyer、Mohamed Ghazel、Asgeir J. Sørensen指导。他的博士研究侧重于开发用于神经ODE形式化验证的工具/方法。他获得了著名的玛丽·居里博士奖学金(通过CLEAR-Doc项目)以及海洋与海事智能机器人领域的伊拉斯谟世界联合硕士学位奖学金。Abdelrahman的工作为他赢得了许多奖项和认可,包括2023年水下技术会议的最佳学生演讲奖,以及因其硕士论文在2023年挪威科技大学工程学院创新竞赛中获得第二名。FINISHED