深度网络上的进化对抗性攻击

133 阅读7分钟

尽管深层神经网络(DNN)取得了无可争议的成功,但最近的研究表明,深层神经网络(DNN)很容易受到对抗性攻击。一张图片中几乎察觉不到的变化就会导致训练有素的DNN出现错误分类。有针对性的对抗性例子甚至可以唤起对某一特定类别的错误分类,例如,将一辆汽车错误地分类为一只猫。研究人员已经证明,对抗性攻击在现实世界中是成功的,并可能产生于成像以外的数据模式,如自然语言和语音识别。DNN对对抗性攻击的脆弱性引起了人们对将这些技术应用于安全关键应用的担忧。

考虑一下我们自己工作中的这些例子:三张原始图像,旁边显示的是一个成功的攻击和一个不成功的攻击(我们稍后会讨论我们如何产生攻击)。原始图像取自三个著名的数据集(从上到下):ImageNet、CIFAR10和MNIST。请注意各行看起来都是一样的,尤其是高分辨率的图片(MNIST的分辨率较低)。

image.png

为了发现有效的对抗性实例,并防御攻击,大多数作品都采用了基于梯度的优化。梯度计算只有在攻击者完全了解模型结构和权重的情况下才能执行。因此,这种方法只在白盒情况下有用,即攻击者可以完全访问和控制目标DNN。

然而,攻击现实世界中的人工智能系统可能要艰巨得多。攻击者必须考虑在黑箱环境下实施对抗性实例的困难,在这种情况下,没有提供关于网络设计、参数或训练数据的信息。在这种情况下,攻击者只能访问分类器的输入-输出对。

我们最近采用了 进化算法在对抗性深度学习领域的一些工作中。进化算法是一个搜索算法系列,其灵感来源于自然界的进化过程。进化算法通过应用受自然遗传学和自然选择启发的运算符,使最初的随机候选方案群不断进化,从而解决一个问题,这样就会出现更适合(即更好)的解决方案。

在我们的论文中,我们首次开始像素 空间中使用进化算法--也就是说,该算法在图像空间中寻求解决方案:"An Evolutionary, Gradient-free, Query-Efficient, Black-Box Algorithm for Generating Adversarial Instances in Deep Convolutional Neural Networks"。

我们的算法QuEry AttackQuery-Efficient Evolutionary****Attack)是一种进化算法,它探索由给定输入图像和给定输入模型定义的图像空间,以寻找对抗性实例。它最终为给定的输入图像生成一个攻击性图像。与白盒方法不同,我们对目标模型、其架构、数据集或训练程序不做任何 假设。

上面显示的对抗性例子是由QuEry Attack生成的。下面是我们的算法生成的另一批对抗性例子--针对CIFAR10图像。再一次,见证了这些图像对我们来说是多么的相同。但是--对模型来说却不一样!

image.png

接下来,我们"挫败深度神经网络的解释 "研究了XAI。为了使深度网络更容易解释,人们设想了各种可解释的算法。Van Lent等人创造了*可解释人工智能(XAI)*这一术语,它指的是 "在执行过程中或事后都能解释其行为 "的人工智能系统。对于安全关键型应用,可解释性是至关重要的,有时甚至是法律要求的。

通过解释图可以观察到分配给每个输入特征对整体分类结果的重要性,这可以用来提供解释。这样的地图可以用来创建对抗性攻击的防御和检测器。

我们表明,这些解释图可以转化为任何目标图,只使用图和网络的输出概率向量。这是通过向输入图像添加一个人眼几乎无法察觉(如果有的话)的扰动而实现的。这种扰动对神经网络的输出影响很小,因此,除了分类结果外,所有类别的概率向量几乎保持一致。

我们的黑盒算法AttaXAI通过几乎不引人注目的扰动实现对图像的操作,而不使用任何模型的内部结构,这样的解释符合任何给定的目标解释。AttaXAI通过演化探索图像空间,最终产生一个对抗性的图像;它通过不断地更新高斯概率分布来实现,用于对扰动空间进行采样。通过不断地改进这个分布,搜索得到了改善。

下面是AttaXAI的工作原理图:

image.png

AttaXAI的示意图。单个图像从群体的分布N(μ, σ*)中取样,并输入模型(特征1和特征2是图像特征,例如,两个像素值;在现实中,维度要高得多)。然后,使用输出概率向量和解释图计算健身函数,即损失,以近似梯度并更新分布参数μ和*σ。

下面是一个示例结果。裙子的解释图被攻击转化为豹子(或猎豹)的解释图。

image.png

由AttaXAI生成的攻击。数据集:ImageNet。DL模型:VGG16。XAI模型:Deep Lift。
主要目标已经实现:在生成了与原始图像*(x)几乎相同的对抗性图像(x_adv)之后,对抗性图像(x_adv*)的解释图*(g*)现在错误地成为目标图像*(x_target*)的解释图;基本上,最右边的两列是相同的。

然后,我们转向物理攻击,它产生的补丁 不仅在数字上起作用,而且在物理世界中也起作用,也就是说,在打印--和使用时:"隐身补丁:对物体检测器的自然黑匣子对抗性攻击"。

给定一个预训练的GAN(生成对抗网络)生成器,我们寻找一个输入潜伏向量,对应于一个生成的图像,导致物体检测器出错。我们利用潜伏空间的(相对)小维度,使用进化算法接近梯度,通过查询目标物体检测器反复更新输入潜伏向量,直到发现一个合适的对抗补丁。

下面是我们方法的一般示意图:

image.png

进化的黑匣子对抗性攻击。该系统通过在真实世界的图像上使用预训练的GAN(G)的学习图像流形来为物体检测器创建补丁(通常情况下,我们使用GAN的生成器,但不需要鉴别器)。我们使用预训练的分类器*(C*)来迫使优化器找到类似于特定类别的补丁,使用电视组件以使图像尽可能平滑,使用检测器(D)进行实际检测损失。通过迭代进化策略对GAN图像进行有效采样,最终产生了最终的补丁。

我们生成的补丁可以打印出来并在现实世界中使用。我们比较了不同的深度模型,得出的结论是有可能生成欺骗物体检测器的补丁。对打印补丁的现实世界测试表明,它们在 "隐蔽 "人员方面的功效,证明了对安全系统的基本威胁。

下面见证了我的天才研究生拉兹-拉皮德站在他的另一半身边,展示了进化后的补丁(印刷的,也就是物理的)如何将他从深度学习模型(没有边界的盒子)中隐藏起来。

image.png

鉴于深度模型的普遍性,对抗性攻击在各种情况下都是一种真正的威胁。进化技术可以帮助解决许多问题,如果你对它们的兴趣已经被激起,我邀请你阅读我的文章《进化算法、遗传编程和学习》。