深度学习的关键术语解释

419 阅读9分钟

深度学习是应用深度神经网络技术--即具有多个隐藏层的神经网络架构--来解决问题的过程,它在研究和行业中享有激增,主要是由于它在一些不同领域取得了令人难以置信的成功。深度学习是一个过程,就像数据挖掘一样,它采用了深度神经网络架构,这是特定类型的机器学习算法。

Deep Learning Key Terms, Explained

在过去的几年里,深度学习已经积累了令人印象深刻的成就。有鉴于此,有必要记住几件事,至少在我看来是这样。

  • 深度学习不是万能的--它不是解决所有问题的简单的一刀切的办法
  • 它不是传说中的大师级算法--深度学习不会取代所有其他的机器学习算法和数据科学技术,或者说,至少它还没有证明这一点。
  • 有节制的期望是必要的--虽然最近在所有类型的分类问题上都取得了巨大的进步,特别是计算机视觉和自然语言处理,以及强化学习和其他领域,但当代深度学习并没有扩展到处理非常复杂的问题,如 "解决世界和平"。
  • 深度学习和人工智能并不是同义词
  • 深度学习可以为数据科学提供非常多的额外流程和工具来帮助解决问题,如果从这个角度观察,深度学习是数据科学领域非常有价值的一个补充

因此,让我们来看看一些与深度学习有关的术语,重点是简明扼要的、不含糊的定义。

如上定义,深度学习是应用深度神经网络技术来解决问题的过程。深度神经网络是最小只有一个隐藏层的神经网络(见下文)。与数据挖掘一样,深度学习指的是一个过程,它采用了深度神经网络架构,这是机器学习算法的特殊类型。

2.人工神经网络

机器学习架构最初是受生物大脑(特别是神经元)的启发,深度学习就是通过它来进行的。实际上,单单是人工神经网络(ANN)(非深度品种)已经存在了很长时间,并且在历史上已经能够解决某些类型的问题。然而,相对而言,最近,神经网络架构被设计出来,其中包括隐藏的神经元层(超越简单的输入和输出层),这种增加的复杂程度是实现深度学习的原因,并提供了一套更强大的问题解决工具。

ANNs实际上在其架构上有相当大的差异,因此没有一个明确的神经网络定义。所有ANN的两个普遍引用的特征是拥有自适应权重集,以及对神经元输入的非线性函数进行近似的能力。

3.生物神经元

人们常常对生物和人工神经网络之间的明确联系大加渲染。流行的出版物宣传ANN在某种程度上是对人类(或其他生物)大脑中发生的事情的精确复制。这显然是不准确的;充其量,早期的人工神经网络是受到生物学的启发。两者之间的抽象关系并不比原子和太阳系的组成和功能之间的抽象比较更确定。

也就是说,如果仅仅是为了理解人工神经网络的灵感,看看生物神经元在非常高的水平上是如何工作的,这我们有好处。

Deep Learning Key Terms, Explained
图片来源。维基百科

我们感兴趣的生物神经元的主要组成部分是。

  • 细胞核持有遗传信息(即DNA)。
  • 细胞体处理输入激活并将其转换为输出激活
  • 树突接收来自其他神经元的激活
  • 轴突将激活传递给其他神经元
  • 轴突末端与相邻的树突一起,形成神经元之间的突触。

然后,被称为神经递质的化学物质在轴突末端和相邻树突之间的突触裂隙中扩散,构成了神经传递。神经元的基本操作是:激活通过树突流入神经元,经过处理,然后通过轴突末梢再传出轴突,在那里穿过突触裂隙,到达若干接收神经元的树突,在那里重复这一过程。

4.感知器

感知器是一个简单的线性二进制分类器。感知器接受输入和相关的权重(代表相对输入的重要性),并将它们结合起来产生一个输出,然后用于分类。感知器已经存在了很长时间,早期的实现可以追溯到20世纪50年代,其中最早参与了早期ANN的实现。

5.多层感知器

多层感知器(MLP)是几个完全相邻连接的感知器层的实现,形成一个简单的前馈神经网络(见下文)。这种多层感知器具有非线性激活函数的额外好处,而单层感知器不具备这种功能。

6.前馈神经网络

前馈神经网络是最简单的神经网络结构形式,其中的连接是非周期性的。作为最初的人工神经网络,前馈网络中的信息以单一方向从输入节点,通过任何隐藏层,向输出节点推进;不存在循环。前馈网络与后来的递归网络结构(见下文)不同,后者的连接形成一个有方向的循环。

7.递归神经网络

与上述前馈神经网络相比,递归神经网络的连接形成了一个有方向的循环。这种双向流动允许内部时间状态的表示,这反过来又允许序列处理,值得注意的是,它提供了识别语音和手写的必要能力。

8.激活功能

在神经网络中,激活函数通过结合网络的加权输入产生输出决策边界。激活函数的范围从身份(线性)到sigmoid(逻辑,或软步)再到双曲(正切)及以上。为了采用反向传播法(见下文),网络必须利用可微分的激活函数。

9.反向传播

我所遇到的关于反向传播的最简明、最基本的定义是由数据科学家Mikio L. Braun给出的,他在Quora上
给出了
以下答案,我逐字转载,以免破坏其简单的完美性

反推只是对单个错误的梯度下降。你将神经网络的预测与所需的输出进行比较,然后计算错误相对于神经网络的权重的梯度。这就给了你一个参数权重空间的方向,在这个方向上误差会变小。

10.成本函数

当训练一个神经网络时,必须评估网络输出的正确性。由于我们知道训练数据的预期正确输出,训练的输出可以被比较。成本函数衡量实际输出和训练输出之间的差异。如果实际输出和预期输出之间的成本为零,则表明网络一直在尽可能地进行训练;这显然是理想的。

那么,通过什么机制来调整成本函数,以达到使其最小化的目的?

11.梯度下降

梯度下降是一种优化算法,用于寻找函数的局部最小值。虽然它不能保证全局最小值,但梯度下降对那些难以用分析法求得精确解的函数特别有用,例如将导数设为零并求解。

Gradient descent

如上所述,在神经网络的背景下,随机梯度下降用于对你的网络参数进行知情调整,目的是使成本函数最小化,从而使你的网络的实际输出越来越接近,在训练过程中迭代地接近预期输出。这种迭代式的最小化采用了微积分,即微分。在一个训练步骤之后,网络权重根据成本函数的梯度和网络的当前权重得到更新,这样下一个训练步骤的结果可能会更接近于正确的结果(以较小的成本函数衡量)。逆向传播(错误的反向传播)是用来向网络提供这些更新的方法。

12.梯度消失问题

逆向
传播使用链式规则来计算梯度(通过微分),在一个n层神经网络的 "前面"(输入)的层,在有这个稳定的值作为更新之前,他们的小数目更新梯度值将被乘以n次。这意味着梯度将以指数形式下降,这在n值较大的情况下是个问题,而且前面的层将需要越来越多的时间来有效训练。

13.卷积神经网络

卷积神经网络(CNN)通常与计算机视觉和图像识别有关,它采用卷积
的数学概念来模仿生物视觉皮层的神经连接网。

首先,正如Denny Britz所描述的那样,卷积可以被认为是在图像的矩阵表示之上的一个滑动窗口(见下文)。这允许松散地模仿生物视野的重叠瓦片。

Convolution
图片来源:Analytics Vidhya

在神经网络的架构中实施这一概念的结果是,至少在计算机视觉中使用时,神经元的集合专门用于处理图像部分。当运用于其他一些领域时,如自然语言处理,鉴于输入(单词、句子等)可以被安排在矩阵中并以类似的方式进行处理,同样的方法也可以被使用。

14.长短时记忆网络

长短时记忆网络(LSTM)是一个循环神经网络,它被优化用于学习和处理与时间有关的数据,这些数据在相关事件之间可能有未定义或未知的时间长度。它们的特殊结构允许持久性,使ANN具有 "记忆"。最近在手写识别和自动语音识别方面取得的突破得益于LSTM网络。

LSTM
图片来源:克里斯托弗-奥拉

这显然只是深度学习术语的一小部分,还有许多其他的概念,从初级到高级,等着你去探索,因为你要进一步了解当前机器学习研究的领先领域。