编辑/绿萝
人脑包含多个区域,这些区域具有不同的、通常高度专门化的功能,从识别人脸到理解语言,再到思考别人在想什么。然而,目前尚不清楚为什么大脑皮层首先表现出这种高度的功能专业化。
近日,来自 MIT 和哥伦比亚大学的研究人员使用人工神经网络研究了面部感知,以检验大脑中面部识别的功能分离反映了视觉面部识别更广泛应用的计算优化这一假设。该团队展示了功能性视觉分离如何揭示一种普遍的优化趋势,以在机器中创建功能专业化,并进一步研究了这种现象相对于大脑的复杂性。
该研究以「Brain-like functional specialization emerges spontaneously in deep neural networks」为题,于 2022 年 3 月 16 日发布在《Science Advances》。
为什么大脑会表现出如此高度的功能专门化,这仍然是未知的。其中一种可能性是,大脑中的功能专业化是由于计算原因而产生的,不同的大脑区域仅针对无法用更通用的机器解决的任务而产生。
在这里,研究人员对该假设进行了测试,以验证大脑中功能专业化的最成熟案例之一:面孔的视觉识别。
深度卷积神经网络(CNN)的最新进展现在在某些视觉识别任务上达到了人类水平,这使我们能够检验对我们假设的预测:如果人脸识别在大脑中是功能分离的,那么对于任何计算系统(包括 CNN)都应该如此。实际并非如此。在任何计算系统中,无论是大脑还是机器,人脸识别任务是否都需要它自己的专门机器仍然是未知的,也不是先验的。
在这里,研究人员通过测量 CNN 中的人脸和对象识别性能来解决这个问题,这些 CNN 训练用于对人脸、对象或两者进行分类,测试这两个任务的高性能是否只有在将网络的不同子集分配给每个任务时才会发生。
研究结果
仅在对象上训练的网络在人脸识别方面表现不佳
为了测试对象训练的 CNN 是否足以用于人脸识别,反之亦然,研究人员训练了两个随机初始化的 VGG16 网络,一个用于人脸识别(Face CNN;图 1A 红色),一个用于对象分类(Object CNN;图 1A 橙色)。
图 1:单独训练的 CNN 中不同的人脸和对象表示,而双任务 CNN 表现良好。(来源:论文)
正如预期的那样,不熟悉的(即未经训练的)人脸身份可以从人脸训练的网络中准确解码(平均解码准确率为 82.2%),不熟悉的对象可以从对象训练的网络中解码(74.1%)。然而,对象训练的网络在人脸识别方面的表现明显差于人脸训练网络,反之亦然。因此,为一项任务学习的表示不会轻易转移到另一项:每项任务似乎都受益于专门的任务特定表示。
双训练网络中的人脸和对象的自发分离
训练一个网络同时执行这两项任务,会不会发现人脸和物体的共同高性能特征空间呢?为了解决这个问题,研究人员训练了一个新的人脸识别和对象分类网络(图 1A 灰色)。出乎意料的是,这个双任务网络在每个任务上的表现几乎与仅在该任务上训练的网络一样好(图 1C)。
对此结果的一种解释是,网络找到了一个共同的特征空间来解决这两个任务,这与高任务性能需要功能专业化的假设相反。然而,另一种可能性是网络学会了将自己隔离成两个独立的系统,一个用于人脸识别,另一个用于物体识别,尽管网络架构或训练机制中没有内置任何东西来强制它这样做。
为了测试这种可能性,对模型的最后一个卷积层(即特征提取的最后一层)进行了一系列损伤实验(图 2A)。
图 2:最后一个卷积层的损伤实验揭示了自发的任务分离。(来源:论文)
该分析表明,损伤 20% 排名最高的人脸过滤器会严重影响人脸任务的性能,但对对象任务的性能影响很小,反之亦然,对于排名最高的对象过滤器(图 2B)。这些发现证明了网络中的双重分离:人脸和对象任务依赖于最后一个卷积层中的不同特征(如图 3B 所示)。也就是说,网络自发地将自己分离为不同的人脸和物体识别子系统。
为了测试双重训练的 CNN 是否会表现出类似灵长类动物的大脑的组织?研究人员分别在每个卷积层中进行了相同的损伤分析(图 3A)。
图 3:中级处理阶段人脸和对象任务的自发分离。(来源:论文)
研究结果表明,人脸和物体的处理在网络处理的中间阶段逐渐发散,并在后期变得高度分离,就像在灵长类动物的大脑中看到的那样。
其他视觉类别的不同功能分离
但是人脸是特殊的,还是我们也可以看到网络自发分离以识别其他类别(例如,食物和汽车)?
为了测试是否在网络中发现任务分离,即使对于尚未发现在大脑中显示分离的自然任务,研究人员对受过视觉食物和对象分类训练的双任务网络进行了相同的损伤分析(图 4A)。
图 4:食品或汽车识别的不同程度的自发分离。(来源:论文)
虽然食物和物体在中间层 Conv7 到 Conv9 中表现出比人脸和物体更弱的分离,但两个网络在最后一个卷积层中表现出相似程度的分离。因此,网络中的自发任务分离预测了大脑中尚未发现的一些专业化。
另一项也需要细粒度区分的任务,例如面部识别,但更多地依赖于形状特征,是否也会显示出功能隔离?为了验证这个想法,训练了一个关于对象识别和汽车模型/制造识别的双任务网络。
汽车任务显示出比面部和食物任务更晚的分离,在层 Conv9 中首次超过 1/3 的组合分离指数。此外,虽然最后一个卷积层中物体和汽车的隔离度仍然相对较高,但明显低于 Conv3 层以后的人脸或食物。
因此,CNN 显示出一种普遍的趋势,即在不同程度上自发地分离自然任务,至少当它们的一半训练是在该任务上时,尽管它们与大脑的精确匹配需要进一步探索。事实证明,在大脑中发现的所有功能分离也会在 CNN 中发现,但情况可能并非如此。进一步研究人工网络中自发任务分离的必要条件可能会揭示哪些因素决定了在大脑中观察到的特定功能特异性。
该工作的几个局限性
- 首先,当我们说一个系统已经优化时,这并不意味着它是最优的。
- 其次,目前的工作不知道大脑的专业化是通过优化而非发展还是进化或两者兼而有之。
- 第三,这项工作没有解决大脑中功能专门系统的空间组织,因为这里训练的网络中的单元和过滤器没有类似于皮质表上的位置。
这些更广泛的问题可以在未来的工作中使用明确建模空间地形,并以更像人类发展的方式进行训练的网络来解决。