具有随机突触的神经采样机,允许类脑学习和推理

118 阅读7分钟

编辑 | 萝卜皮

许多现实世界的关键任务应用程序需要从嘈杂的数据中持续在线学习,并以定义的置信度进行实时决策。受大脑启发的神经网络概率模型可以明确处理数据中的不确定性,并允许动态自适应学习。然而,它们在紧凑、低功耗的硬件中的实现仍然是一个挑战。

诺特丹大学(University of Notre Dame)的研究人员介绍了一种新的硬件结构,它可以通过利用突触连接中的随机性进行近似贝叶斯推理,来实现一种称为神经采样机 (NSM) 的新型随机神经网络。

研究人员将基于铁电场效应晶体管 (FeFET) 的模拟重量单元与两端随机选择器元件配对,通过实验证明了计算机混合随机突触的有效性。

研究表明,选择器在绝缘体和金属状态之间的随机切换特性类似于 NSM 的乘性突触噪声。研究人员执行网络级模拟以突出随机 NSM 提供的显着特征,例如为持续在线学习和贝叶斯推理执行自主权重归一化。

随机 NSM 不仅可以在标准 MNIST 数据集上以 98.25% 的准确率执行高度准确的图像分类,而且还可以在旋转 MNIST 数据集的数字时,估计预测的不确定性(以预测的熵来衡量)。构建这样一个可以支持受神经科学启发的模型的概率硬件平台,可以增强当前人工智能 (AI) 的学习和推理能力。

该研究以「Neural sampling machine with stochastic synapse allows brain-like learning and inference」为题,于 2022 年 5 月 11 日发布在《Nature Communications》。

利用新兴材料和设备在微观层面上的复杂动力学,为类脑计算开辟了新的可能性,例如构建模拟多位突触和仿生神经元电路。这些新兴材料和设备在原子水平上也表现出固有的随机性,这通常被归类为信息处理的麻烦。相比之下,可变性是生物神经网络在分子水平上表现出的一个突出特征,被认为有助于大脑的计算策略。

在生物神经元的记录中或作为与突触连接相关的不可靠性已经报道了这种可变性。通常,突触前神经元尖峰导致神经递质在突触释放部位释放。Borst 团队曾报告说,大脑中的突触小泡释放可能极其不可靠。在给定的突触处,在体内测量的传输率可再 50% 和 10% 之间。突触噪声具有可乘性的显着特征,这在学习和概率推理动力学中起着关键作用。

这项研究中提出的一种新的随机突触,它利用新兴设备中存在的固有可变性并模仿嘈杂的生物突触的动力学。这是一种新的神经形态硬件结构,它可以支持最近提出的一类称为 NSM 的随机神经网络。

图示:随机突触概述。(来源:论文)

虽然这种乘法随机性在大脑中的功能作用仍在争论中,但可以在某些机器学习算法中利用受生物学启发的随机性。

特别是,NSM 建立在在神经网络的各个层次上引入随机性的想法之上,以允许:(1) 在学习和推理过程中逃避局部最小值,(2) 神经网络中的正则化,(3) 使用蒙特卡洛采样的近似贝叶斯推理, (4) 节能通信和计算。

NSM 从诸如 Dropout 或 DropConnect 等正则化技术中汲取灵感,这些技术在训练的前向传递过程中随机丢弃神经网络中的神经激活或权重的子集。与在推理过程中关闭随机性的 DropConnect 不同,突触随机性始终存在于 NSM 中。这种「永远在线」的随机性赋予网络概率推理能力,并且与持续学习和终身学习机器同时提高能源效率的理念相一致。

配备「永远在线」随机性的神经网络已被证明可以匹配或超过当代机器学习算法的性能。与随机突触中包含的乘性噪声一起,这种新型 NSM 为实现概率推理和主动学习提供了重要途径。

图示:基于 FeFET 的模拟突触。(来源:论文)

该研究中提出的新突触由嵌入式非易失性存储器(eNVM)与两端随机选择器元件串联组成。研究人员通过将掺杂的基于 HfO2 FeFET 的模拟重量单元与两端的 Ag/HfO2 随机选择器配对,在 silico 中通过实验证明了这种混合随机突触。这种混合突触可以集成在流行的 CIM 交叉阵列架构中,该架构通过减少数据移动为构建神经形态硬件提供了有希望的能效途径。

图示:通过随机选择器引入乘性噪声。(来源:论文)

他们利用选择器元件在绝缘体和金属状态之间的固有随机切换,在学习和推理期间对 FeFET 的电导状态进行伯努利采样。乘性噪声动力学的一个显着特征是自归一化效应,它以在线方式执行自动权重归一化和防止内部协变量偏移。此外,推理模式期间 NSM 的「永远在线」随机性允许执行贝叶斯推理。

随机性是一种强大的机制,可以引入深度神经网络的许多计算特征,例如正则化和蒙特卡罗采样。这项工作建立在随机神经网络,特别是 NSM 所展示的固有权重归一化特征之上。这种归一化在大多数现代深度神经网络中是一个强大的特征,可以减轻内部协变量偏移,并为仿生神经网络中的分裂归一化提供替代机制。

图示:硬件 NSM 执行图像分类并展示自归一化。(来源:论文)

所提出的理论 NSM 模型提供了几个优点:

(1)它是其他使用的批量归一化和 dropout 技术的在线替代方案,

(2)它可以减轻固定范围权重表示边界处的饱和度,

(3)它提供了对影响权重矩阵行的虚假波动的稳健性。

该研究证明了理论 NSM 模型所需的随机性质可以在新兴的随机设备中实现。这允许使用内存计算架构在硬件上无缝实施 NSM。

研究人员展示了他们提出的硬件 NSM 在标准 MNIST 数据集上执行图像识别任务的能力,具有与最先进的确定性神经网络相当的高精度(98.25%)。同时,他们的硬件 NSM 也具有执行概率推理和量化数据不确定性的能力。

图示:模拟硬件 NSM 和传统 MLP 网络之间数据比较中的贝叶斯推理和不确定性。(来源:论文)

虽然这项研究的重点是使用 FeFET 作为模拟权重单元和 Ag/HfO2 作为随机选择器,但硬件 NSM 也可以使用其他新兴设备来实现。例如,可以像模拟重量单元那样利用新兴的存储器候选者,例如 PCM 和 RRAM,而不是 FeFET。

对于随机选择器,可以探索其他候选者,包括 ovonic 阈值开关、混合离子电子导体和绝缘体金属过渡(IMT)氧化物,例如二氧化钒(VO2)和氧化铌(NbOx)。请注意,虽然基于 Ag/HfO2 的随机选择器的耐久性循环(>10^8 个循环)足以用于推理应用。然而,对于片上训练,可以借助基于绝缘体到金属相变(IMT)的选择器,例如二氧化钒(VO2)和氧化铌(NbOx),它们具有超过 10^9 的更高耐久性循环。

论文链接:www.nature.com/articles/s4…