《数据分析实战 45 讲》 学习笔记 Day 27

135 阅读19分钟

42丨当我们谈深度学习的时候,我们都在谈什么?

在这篇文章中,我们会通过以下几个方面了解深度学习:数据挖掘、机器学习和深度学习的区别是什么?这些概念都代表什么?我们通过深度学习让机器具备人的能力,甚至某些技能的水平超过人类,比如图像识别、下棋对弈等。那么深度学习的大脑是如何工作的?深度学习是基于神经网络构建的,都有哪些常用的网络模型?深度学习有三个重要的应用领域,这三个应用领域分别是什么?

数据挖掘,机器学习,深度学习的区别是什么?

数据挖掘通常是从现有的数据中提取规律模式(pattern)以及使用算法模型(model)。核心目的是找到这些数据变量之间的关系,因此我们也会通过数据可视化对变量之间的关系进行呈现,用算法模型挖掘变量之间的关联关系。通常情况下,我们只能判断出来变量 A 和变量 B 是有关系的,但并不一定清楚这两者之间有什么具体关系。在我们谈论数据挖掘的时候,更强调的是从数据中挖掘价值。
机器学习是人工智能的一部分,它指的是通过训练数据和算法模型让机器具有一定的智能。一般是通过已有的数据来学习知识,并通过各种算法模型形成一定的处理能力,比如分类、聚类、预测、推荐能力等。这样当有新的数据进来时,就可以通过训练好的模型对这些数据进行预测,也就是通过机器的智能帮我们完成某些特定的任务。
深度学习属于机器学习的一种,它的目标同样是让机器具有智能,只是与传统的机器学习算法不同,它是通过神经网络来实现的。神经网络就好比是机器的大脑,刚开始就像一个婴儿一样,是一张白纸。但通过多次训练之后,“大脑”就可以逐渐具备某种能力。这个训练过程中,我们只需要告诉这个大脑输入数据是什么,以及对应的输出结果是什么即可。通过多次训练,“大脑”中的多层神经网络的参数就会自动优化,从而得到一个适应于训练数据的模型。
所以你能看到在传统的机器学习模型中,我们都会讲解模型的算法原理,比如 K-Means 的算法原理,KNN 的原理等。而到了神经网络,我们更关注的是网络结构,以及网络结构中每层神经元的传输机制。我们不需要告诉机器具体的特征规律是什么,只需把我们想要训练的数据和对应的结果告诉机器大脑即可。深度学习会自己找到数据的特征规律!而传统机器学习往往需要专家(我们)来告诉机器采用什么样的模型算法,这就是深度学习与传统机器学习最大的区别。

神经网络是如何工作的

节点:神经网络是由神经元组成的,也称之为节点,它们分布在神经网络的各个层中,这些层包括输入层,输出层和隐藏层。
输入层:负责接收信号,并分发到隐藏层。一般我们将数据传给输入层。
输出层:负责输出计算结果,一般来说输出层节点数等于我们要分类的个数。
隐藏层:除了输入层和输出层外的神经网络都属于隐藏层,隐藏层可以是一层也可以是多层,每个隐藏层都会把前一层节点传输出来的数据进行计算(你可以理解是某种抽象表示),这相当于把数据抽象到另一个维度的空间中,可以更好地提取和计算数据的特征。
工作原理:神经网络就好比一个黑盒子,我们只需要告诉这个黑盒子输入数据和输出数据,神经网络就可以自我训练。一旦训练好之后,就可以像黑盒子一样使用,当你传入一个新的数据时,它就会告诉你对应的输出结果。在训练过程中,神经网络主要是通过前向传播和反向传播机制运作的。什么是前向传播和反向传播呢?
前向传播:数据从输入层传递到输出层的过程叫做前向传播。这个过程的计算结果通常是通过上一层的神经元的输出经过矩阵运算和激活函数得到的。这样就完成了每层之间的神经元数据的传输。
反向传播:当前向传播作用到输出层得到分类结果之后,我们需要与实际值进行比对,从而得到误差。反向传播也叫作误差反向传播,核心原理是通过代价函数对网络中的参数进行修正,这样更容易让网络参数得到收敛。
所以,整个神经网络训练的过程就是不断地通过前向 - 反向传播迭代完成的,当达到指定的迭代次数或者达到收敛标准的时候即可以停止训练。然后我们就可以拿训练好的网络模型对新的数据进行预测。当然,深度神经网络是基于神经网络发展起来的,它的原理与神经网络的原理一样,只不过强调了模型结构的深度,通常有 5 层以上,这样模型的学习能力会更强大。

常用的神经网络都有哪些

按照中间层功能的不同,神经网络可以分为三种网络结构,分别为 FNN、CNN 和 RNN。
fnn(Fully-connected Neural Network)指的是全连接神经网络,全连接的意思是每一层的神经元与上一层的所有神经元都是连接的。不过在实际使用中,全连接的参数会过多,导致计算量过大。因此在实际使用中全连接神经网络的层数一般比较少。

image.png
CNN 叫作卷积神经网络,在图像处理中有广泛的应用,了解图像识别的同学对这个词一定不陌生。CNN 网络中,包括了卷积层池化层和全连接层。这三个层都有什么作用呢?卷积层相当于一个滤镜的作用,它可以把图像进行分块,对每一块的图像进行变换操作。池化层相当于对神经元的数据进行降维处理,这样输出的维数就会减少很多,从而降低整体的计算量。全连接层通常是输出层的上一层,它将上一层神经元输出的数据转变成一维的向量。
RNN 称为循环神经网络,它的特点是神经元的输出可以在下一个时刻作用到自身,这样 RNN 就可以看做是在时间上传递的神经网络。它可以应用在语音识别、自然语言处理等与上下文相关的场景。深度学习网络往往包括了这三种网络的变种形成,常用的深度神经网络包括 AlexNet、VGG19、GoogleNet、ResNet 等,我总结了这些网络的特点,你可以看下:

image.png

深度学习的应用领域

从 ImageNet 跑出来的这些优秀模型都是基于 CNN 卷积神经网络的。实际上深度学习有三大应用领域,图像识别就是其中之一,其他领域分别是语音识别和自然语言处理。这三个应用领域有一个共同的特性,就是都来自于信号处理。我们人类平时会处理图像信息,语音信息以及语言文字信息。机器可以帮助我们完成这三个应用里的某些工作
总结今天我们大概了解了一下深度学习。深度学习也是机器学习的一种。我们之前讲解了数据挖掘十大经典算法,还有逻辑回归、随机森林算法等,这些都是传统的机器学习算法。在日常工作中,可以满足大部分的机器学习任务。但是对于数据量更大,更开放性的问题,我们就可以采用深度学习的算法,让机器自己来找规律,而不是通过我们指定的算法来找分类规律。所以深度学习的普适性会更强一些,但也并不代表深度学习就优于机器学习。一方面深度学习需要大量的数据,另一方面深度学习的学习时间,和需要的计算资源都要大于传统的机器学习。你能看到各种深度学习的训练集一般都还是比较大的,比如 ImageNet 就包括了 1400 万张图片。如果我们没有提供大量的训练数据,训练出来的深度模型识别结果未必好于传统的机器学习。实际上神经网络最早是在 1986 年提出来的,之后不温不火,直到 ImageNet 于 2009 年提出,在 2010 年开始举办每年的 ImageNet 大规模视觉识别挑战赛(ILSVRC),深度学习才得到迅猛发展。2016 年 Google 研发的 AlphaGo 击败了人类冠军李世石,更是让人们看到了深度学习的力量。一个好问题的提出,可以激发无穷的能量,这是科技进步的源泉,也是为什么在科学上,我们会有各种公开的数据集。一个好的数据集就代表了一个好的问题和使用场景。正是这些需求的出现,才能让我们的算法有更好的用武之地,同时也有了各种算法相互比拼的平台。

image.png

43丨深度学习(下):如何用Keras搭建深度学习网络做手写数字识别?

今天的学习目标主要有以下的几个方面:进一步了解 CNN 网络。CNN 网络在深度学习网络中应用很广,很多网络都是基于 CNN 网络构建的,你有必要进一步了解 CNN 的网络层次,尤其是关于卷积的原理。初步了解 LeNet 和 AlexNet。它们都是经典的 CNN 网络,我们今天的任务就是认识这些经典的 CNN 网络,这样在接触更深度的 CNN 网络的时候,比如 VGG、GoogleNet 和 ResNet 这些网络的时候,就会更容易理解和使用。对常用的深度学习框架进行对比,包括 Tensorflow、Keras、Caffe、PyTorch、 MXnet 和 Theano。当选择深度学习框架的时候到底该选择哪个?使用 Keras 这个深度学习框架编写代码,完成第一个深度学习任务,也就是 Mnist 手写数字识别。

如何理解 CNN 网络中的卷积作用

CNN 的网络结构由三种层组成,它们分别是卷积层、池化层和全连接层。在上篇文章中,我讲到卷积层相当于滤镜的作用,它可以把图像分块,对每一块的图像进行卷积操作。卷积本身是一种矩阵运算,那什么是卷积呢?假设我有一个二维的图像 X,和卷积 K,把二维矩阵 X 进行卷积 K 操作之后,可以得到矩阵 Z,如下图所示:

image.png
我简单说下计算的原理。第一步,我们需要将卷积核翻转 180 度(只有翻转之后才能做矩阵运算),也就是变成:

image.png
第二步,将卷积核的第一个元素,对准矩阵 X 左上角的第一个元素,对应元素相乘,然后再相加可以就可以得到 101+101+100+101+50+5-1+100+5-1+5*-1=15。

image.png
第三步,每个元素都重复第二步的计算过程,可以得到如下的矩阵结果 Z:

image.png

import pylab
import numpy as np
from scipy import signal
# 设置原图像
img = np.array([[10, 10, 10, 10, 10],
                     [10, 5, 5, 5, 10],
                     [10, 5, 5, 5, 10],
                     [10, 5, 5, 5, 10],
                     [10, 10, 10, 10, 10]])
# 设置卷积核
fil = np.array([[ -1,-1, 0],
                [ -1, 0, 1],
                [  0, 1, 1]])
# 对原图像进行卷积操作
res = signal.convolve2d(img, fil, mode='valid')
# 输出卷积后的结果
print(res)

实际上每个卷积核都是一种滤波器,它们把图像中符合条件的部分筛选出来,也就相当于做了某种特征提取。
激活函数的作用
做完卷积操作之后,通常还需要使用激活函数对图像进一步处理。在逻辑回归中,我提到过 Sigmoid 函数,它在深度学习中有广泛的应用,除了 Sigmoid 函数作为激活函数以外,tanh、ReLU 都是常用的激活函数。这些激活函数通常都是非线性的函数,使用它们的目的是把线性数值映射到非线性空间中。卷积操作实际上是两个矩阵之间的乘法,得到的结果也是线性的。只有经过非线性的激活函数运算之后,才能映射到非线性空间中,这样也可以让神经网络的表达能力更强大。池化层的作用池化层通常在两个卷积层之间,它的作用相当于对神经元的数据做降维处理,这样就能降低整体计算量。假设池化的窗大小是 2x2,就相当于用一个 2x2 的窗口对输出数据进行计算,将原图中 2x2 矩阵的 4 个点变成一个点。常用的池化操作是平均池化和最大池化。平均池化是对特征点求平均值,也就是用 4 个点的平均值来做代表。最大池化则是对特征点求最大值,也就是用 4 个点的最大值来做代表。在神经网络中,我们可以叠加多个卷积层和池化层来提取更抽象的特征。经过几次卷积和池化之后,通常会有一个或多个全连接层。全连接层的作用全连接层将前面一层的输出结果与当前层的每个神经元都进行了连接。这样就可以把前面计算出来的所有特征,通过全连接层将输出值输送给分类器,比如 Softmax 分类器。在深度学习中,Softmax 是个很有用的分类器,通过它可以把输入值映射到 0-1 之间,而且所有输出结果相加等于 1。其实你可以换种方式理解这个概念,假设我们想要识别一个数字,从 0 到 9 都有可能。那么通过 Softmax 层,对应输出 10 种分类结果,每个结果都有一个概率值,这些概率相加为 1,我们就可以知道这个数字是 0 的概率是多少,是 1 的概率是多少……是 9 的概率又是多少,从而也就帮我们完成了数字识别的任务。LeNet 和 AlexNet 网络你能看出 CNN 网络结构中每一层的作用:它通过卷积层提取特征,通过激活函数让结果映射到非线性空间,增强了结果的表达能力,再通过池化层压缩特征图,降低了网络复杂度,最后通过全连接层归一化,然后连接 Softmax 分类器进行计算每个类别的概率。通常我们可以使用多个卷积层和池化层,最后再连接一个或者多个全连接层,这样也就产生了不同的网络结构,比如 LeNet 和 AlexNet。

image.png
LeNet 提出于 1986 年,是最早用于数字识别的 CNN 网络,输入尺寸是 3232。它输入的是灰度的图像,整个的网络结构是:输入层→C1 卷积层→S2 池化层→C3 卷积层→S4 池化层→C5 卷积层→F6 全连接层→Output 全连接层,对应的 Output 输出类别数为 10。AlexNet 在 LeNet 的基础上做了改进,提出了更深的 CNN 网络模型,输入尺寸是 227227*3,可以输入 RGB 三通道的图像,整个网络的结构是:输入层→(C1 卷积层→池化层)→(C2 卷积层→池化层)→C3 卷积层→C4 卷积层→(C5 池化层→池化层)→全连接层→全连接层→Output 全连接层。实际上后面提出来的深度模型,比如 VGG、GoogleNet 和 ResNet 都是基于下面的这种结构方式改进的:输出层→(卷积层 + -> 池化层?)+ → 全连接层 +→Output 全连接层。其中“+”代表 1 个或多个,“?”代表 0 个或 1 个。你能看出卷积层后面可以有一个池化层,也可以没有池化层,“卷积层 + → 池化层?”这样的结构算是一组卷积层,在多组卷积层之后,可以连接多个全连接层,最后再接 Output 全连接层。

常用的深度学习框架对比

image.png

用 Keras 做 Mnist 手写数字识别

安装好 Keras 工具包之后,就可以创建一个 Sequential 序贯模型,它的作用是将多个网络层线性堆叠起来,使用方法:

from keras.models import Sequential
model = Sequential()

然后就可以在网络中添加各种层了。创建二维卷积层使用 Conv2D(filters, kernel_size, activation=None) 进行创建, 其中 filters 代表卷积核的数量,kernel_size 代表卷积核的宽度和长度,activation 代表激活函数。如果创建的二维卷积层是第一个卷积层,我们还需要提供 input_shape 参数,比如:input_shape=(28, 28, 1) 代表的就是 28*28 的灰度图像。对 2D 信号做最大池化层使用 MaxPooling2D(pool_size=(2, 2)) 进行创建,其中 pool_size 代表下采样因子,比如 pool_size=(2,2) 的时候相当于将原来 22 的矩阵变成一个点,即用 22 矩阵中的最大值代替,输出的图像在长度和宽度上均为原图的一半。创建 Flatten 层使用 Flatten() 创建,常用于将多维的输入扁平化,也就是展开为一维的向量。一般用在卷积层与全连接层之间,方便后面进行全连接层的操作。创建全连接层使用 Dense(units, activation=None) 进行创建,其中 units 代表的是输出的空间维度,activation 代表的激活函数。我这里只列举了部分常用的层,这些层在今天手写数字识别的项目中会用到。当我们把层创建好之后,可以加入到模型中,使用 model.add() 函数即可。添加好网络模型中的层之后,我们可以使用 model.compile(loss, optimizer=‘adam’, metrics=[‘accuracy’]) 来完成损失函数和优化器的配置,其中 loss 代表损失函数的配置,optimizer 代表优化器,metrics 代表评估模型所采用的指标。然后我们可以使用 fit 函数进行训练,使用 predict 函数进行预测,使用 evaluate 函数对模型评估。针对 Mnist 手写数字识别,用 keras 的实现代码如下:

# 使用LeNet模型对Mnist手写数字进行识别
import keras
from keras.datasets import mnist
from keras.layers import Conv2D, MaxPooling2D
from keras.layers import Dense, Flatten
from keras.models import Sequential
# 数据加载
(train_x, train_y), (test_x, test_y) = mnist.load_data()
# 输入数据为 mnist 数据集
train_x = train_x.reshape(train_x.shape[0], 28, 28, 1)
test_x = test_x.reshape(test_x.shape[0], 28, 28, 1)
train_x = train_x / 255
test_x = test_x / 255
train_y = keras.utils.to_categorical(train_y, 10)
test_y = keras.utils.to_categorical(test_y, 10)
# 创建序贯模型
model = Sequential()
# 第一层卷积层:6个卷积核,大小为5∗5, relu激活函数
model.add(Conv2D(6, kernel_size=(5, 5), activation='relu', input_shape=(28, 28, 1)))
# 第二层池化层:最大池化
model.add(MaxPooling2D(pool_size=(2, 2)))
# 第三层卷积层:16个卷积核,大小为5*5,relu激活函数
model.add(Conv2D(16, kernel_size=(5, 5), activation='relu'))
# 第二层池化层:最大池化
model.add(MaxPooling2D(pool_size=(2, 2)))
# 将参数进行扁平化,在LeNet5中称之为卷积层,实际上这一层是一维向量,和全连接层一样
model.add(Flatten())
model.add(Dense(120, activation='relu'))
# 全连接层,输出节点个数为84个
model.add(Dense(84, activation='relu'))
# 输出层 用softmax 激活函数计算分类概率
model.add(Dense(10, activation='softmax'))
# 设置损失函数和优化器配置
model.compile(loss=keras.metrics.categorical_crossentropy, optimizer=keras.optimizers.Adam(), metrics=['accuracy'])
# 传入训练数据进行训练
model.fit(train_x, train_y, batch_size=128, epochs=2, verbose=1, validation_data=(test_x, test_y))
# 对结果进行评估
score = model.evaluate(test_x, test_y)
print('误差:%0.4lf' %score[0])
print('准确率:', score[1])

总结

今天我们用 keras 对手写数字进行了识别,具体的代码部分讲解的不多,其中涉及到 API,你可以参考下 Keras 中文手册。在这个过程里,我们只是使用了 LeNet 的网络模型,实际上 AlexNet、VGG、GoogleNet 和 ResNet 都是基于 CNN 的网络结构。在 CNN 网络中包括了卷积层、池化层和全连接层。一个基于 CNN 的深度学习网络通常是几组卷积层之后,再连接多个全连接层,最后再接 Output 全连接层,而每组的卷积层都是“卷积层 + →池化层?”的结构。另外,通过今天的学习你应该能体会到卷积在图像领域中的应用。今天我对专栏的海报进行了一个 3*3 的卷积核操作,可以看到卷积之后得到的图像是原图像某种特征的提取。在实际的卷积层中,会包括多个卷积核,对原图像在不同特征上进行提取。通过多个卷积层的操作,可以在更高的维度上对图像特征进一步提取,这样可以让机器在不同层次、不同维度理解图像特征。另外在 Keras 使用中,你能看到与 sklearn 中的机器学习算法使用不同。我们需要对网络模型中的层进行配置,将创建好的层添加到模型中,然后对模型中使用的损失函数和优化器进行配置,最后就可以对它进行训练和预测了。

image.png