打开神经网络「黑匣子」!使用自然语言揭开机器学习系统的神秘面纱

83 阅读8分钟

编辑/凯霞

神经网络有时被称为黑匣子,因为尽管它们可以在某些任务上胜过人类,但即使是设计它们的研究人员也常常不明白它们如何或为什么工作得这么好。

但如果在实验室外使用神经网络,也许可以对有助于诊断心脏病的医学图像进行分类,了解该模型的工作原理有助于研究人员预测它在实践中的表现。

麻省理工学院的研究人员现在已经开发了一种称为 MILAN(用于神经元的互信息引导语言注释)的系统,可以揭示黑盒神经网络的内部工作原理。以人脑为模型,神经网络被排列成处理数据的互连节点或「神经元」层。新系统可以用英语或其他自然语言自动生成这些单个神经元的描述。

该团队表明,这种方法可用于审核神经网络,以确定它学到了什么,甚至可以通过识别然后关闭无用或不正确的神经元来编辑网络。

该研究以「Natural Language Descriptions of Deep Visual Features」为题,于 2022 年 1 月 26 日发表在预印平台 arXiv 上。

例如,在经过训练以识别图像中动物的神经网络中,他们的方法可能将某个神经元描述为检测狐狸的耳朵。与其他方法相比,他们的可扩展技术能够为单个神经元生成更准确、更具体的描述。

「我们想创建一种方法,让机器学习从业者可以为这个系统提供他们的模型,它会从模型的神经元的角度,用语言告诉他们它所知道的关于该模型的一切。这可以帮助你回答一个基本的问题,我的模型是否知道一些我没想到它会知道的事情?」麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的研究生、该论文的一作 Evan Hernandez 说。

自动生成的描述

大多数帮助机器学习从业者了解模型如何工作的现有技术,要么描述整个神经网络,要么要求研究人员识别他们认为单个神经元可能关注的概念。

Hernandez 和他的合作者开发的系统被称为 MILAN,改进了这些方法,因为它不需要预先列出概念,并且可以自动生成网络中所有神经元的自然语言描述。这一点尤其重要,因为一个神经网络可以包含数十万个单独的神经元。

图示:MILAN。(来源:论文)

MILAN 生成针对计算机视觉任务(如对象识别和图像合成)训练的神经网络中神经元的描述。为了描述给定的神经元,系统首先检查该神经元在数千张图像上的行为,以找到该神经元最活跃的一组图像区域。接下来,它为每个神经元选择一个自然语言描述,使图像区域与描述之间的逐点互信息量最大化。这鼓励了描述每个神经元在更大网络中的独特作用的描述。

「在经过训练以对图像进行分类的神经网络中,将有大量不同的神经元来检测狗。但狗有很多种不同的类型,也有很多不同的部位。因此,即使 [狗] 可能是 对许多这些神经元的准确描述,但信息量不是很大。我们想要对神经元所做的非常具体的描述。这不仅仅是狗;这是德国牧羊犬的耳朵左侧。」Hernandez 说。

该团队将 MILAN 与其他模型进行了比较,发现它生成了更丰富、更准确的描述,但研究人员更感兴趣的是了解它如何帮助回答有关计算机视觉模型的特定问题。

分析、审计和编辑神经网络

研究人员重点介绍自然语言神经元描述的三种应用:分析、审核和编辑。

分析功能重要性

首先,他们使用 MILAN 来分析哪些神经元在神经网络中最重要。他们为每个神经元生成描述,并根据描述中的单词对它们进行排序。他们慢慢地从网络中移除神经元,看看它的准确性如何变化。

图示:将 ImageNet 验证集的准确度绘制为消融神经元数量的函数。(来源:论文)

研究得出:神经元描述的语言特征突出了神经元之间的几个重要差异:(1)带有许多形容词或介词的神经元对于建模行为相对重要。与消融随机神经元或名词相比,消融这些神经元会导致性能迅速下降。(2)检测不同概念的神经元似乎不太重要。当标题包含高度不同的单词(最大单词差异)时,消融对性能的影响远小于消融随机神经元。(3)满足每个标准的神经元并不是均匀分布在各层之间。

审计匿名模型

其次,他们还使用 MILAN 来审核模型,看看他们是否学到了一些意想不到的东西。研究人员采用在人脸模糊的数据集上训练的图像分类模型,运行 MILAN,并计算有多少神经元仍然对人脸敏感。

在普通 ImageNet 上训练的模型中,MILAN 确定了 213 个对人脸具有选择性的神经元。在模糊 ImageNet 上训练的模型中,MILAN 确定了 142 个对人脸具有选择性的神经元。MILAN 可以区分在模糊数据和非模糊数据上训练的模型。然而,它也揭示了在模糊数据上训练的模型获得了对未模糊面部有选择性的神经元。

图示:MILAN 发现的面部神经元数量的变化。(来源:论文)

「以这种方式模糊面部确实减少了对面部敏感的神经元的数量,但远未消除它们。事实上,我们假设其中一些面部神经元对特定的人口群体非常敏感,这相当令人惊讶。这些模型以前从未见过人脸,但它们内部却发生了各种面部处理。」Hernandez 说。

编辑虚假特征

在第三个实验中,该团队使用 MILAN 进行编辑,通过删除对与类标签虚假相关的文本特征敏感的神经元来提高图像分类器的稳健性。

图示:该程序在对抗性测试准确度上的结果。(来源:论文)

对虚假数据的训练大大降低了 ResNet18 在对抗性测试集上的性能:该模型达到 58.8% 的准确度,而在非虚假数据上训练时为 80.8%数据。MILAN 在模型中识别出 300 个与文本相关的卷积单元(共检查了 1024 个),证实该模型确实投入了大量容量来识别图像中的文本标签。

下图显示了一个专门针对航空公司和卡车文本选择性的示例神经元。通过仅删除 13 个这样的神经元,测试准确度提高了 4.9%(错误率降低了 12%)。

图示:经过训练的模型模型中近三分之一的神经元检测到文本,从而损害了其在测试集上的性能。(来源:论文)

未来还有很长的路要走

虽然研究人员对 MILAN 在这三个应用程序中的表现印象深刻,但该模型有时给出的描述仍然过于模糊,或者当它不知道它应该识别的概念时,会做出错误的猜测。

研究人员计划在未来的工作中解决这些限制。他们还希望继续增强 MILAN 能够产生的丰富的描述。他们希望将 MILAN 应用于其他类型的神经网络,并用它来描述神经元组的行为,因为神经元协同工作以产生输出。

「这是一种自下而上的可解释性方法。目标是使用自然语言生成开放式、组合式的功能描述。我们希望利用人类语言的表达能力来生成对神经元所做的更自然和丰富的描述。能够将这种方法推广到不同类型的模型是我最兴奋的事情。」Schwettmann 说。

「对任何可解释人工智能技术的最终测试是,它是否可以帮助研究人员和用户就何时以及如何部署人工智能系统做出更好的决策,」Andreas 说。「要实现这一目标,我们还有很长的路要走。但我乐观地认为,MILAN——以及更广泛地使用语言作为解释工具——将成为工具箱中有用的一部分。」

论文链接:arxiv.org/abs/2201.11…

参考内容:techxplore.com/news/2022-0…