卷积神经网络及经典模型（2） CNN的结构原理讲解（Youtube）：https://www.youtube.com/w

原理讲解（Youtube）：www.youtube.com/watch?v=Fmp…（2:47）

国内解说（b站）：www.bilibili.com/video/BV1sb…

可视化网站：poloclub.github.io/cnn-explain…

下图是一个卷积神经网络CNN的例子，可以看到CNN主要由卷积层、激活层（ReLU）、池化层和全连接层组成，其中全连接层位于最后几层用于最终的分类，卷积层之后会跟个激活层，卷积层和激活值一般为一个整体，后面可能会再跟一个池化层。除了最后几层的全连接层，前面都是卷积层和池化层的组合。下面会介绍每一层的作用。

1. 全连接层

先来介绍一下全连接层。单个神经元结构如下图所示，这也是一个基本的感知机模型，输入的乘上权重后相加再经过一个激活函数就是这个神经元的输出，即：

全连接层，是每一个神经元都与上一层的所有结点相连，由于其全相连的特性，一般全连接层的参数也是最多的。如下图的神经网络就是由若干个全连接层组成，其中Layer0又称为输入层，Later3又称为输出层，中间的都成为隐藏层。

全连接层有很好的非线性表示能力，在卷积神经网络中一般用于最终的分类。

2. 卷积层

2.1 卷积操作

前面已经介绍过了，传统的ANN无法处理图像识别问题（数据量过大），于是在使用全连接层之前加入卷积层来提取特征，使得在不影响数据效果的前提下对数据实现降维，这一操作通过卷积核进行卷积实现的。单次卷积操作如下图所示，就是将卷积核与其覆盖的位置对应相乘然后将结果相加，放到输出的对应位置上，其中卷积核中的值是通过反向传播训练学习得到的，无需人为设置。

卷积的参数有：

卷积核大小（kernel size）表示每次选取识别特征的区域（一般为正方形）
步长（stride）表示卷积核每次移动的距离
填充（padding）表示是否在像素矩阵外填充0，这可以影响卷积层输出的矩阵大小

2.2 卷积的特性

如下图，左边是全连接，右边是局部连接。对于一个1000 × 1000的输入图像而言，如果下一个隐藏层的神经元数目为10^6个，采用全连接则有1000 × 1000 × 10^6 = 10^12个权值参数，如此数目巨大的参数几乎难以训练；而采用局部连接，隐藏层的每个神经元仅与图像中10 × 10的局部图像相连接，那么此时的权值参数数量为10 × 10 × 10^6 = 10^8，将直接减少4个数量级。

图片有一个特性：图片的底层特征是与特征在图片中的位置无关的，比如说下图的两只鸟，一只的嘴在图片上方，一只在中间，无论在哪，它们都可以用一个提取鸟嘴特征的卷积核提取出来。由于卷积核的参数也是通过学习而来的，假设有一个卷积核学习得到的参数就是用来识别鸟嘴这一个特征的，那么我们就可以用这一个卷积核来逐一处理图片中的每个小区域来提取区域中是否存在鸟嘴。

在局部连接改进的基础上，我们可以通过权值共享，使得需要训练的参数进一步减少。在局部连接中，图片的一个子区域作为一个神经元的输入，但是每个神经元的参数是独立的需要分别进行训练。但是我们发现，对于提取同一个特征的卷积核，我们训练出来的权值是可以共享的，即这些神经元上的参数可以是一样的。注意这里是只提取某个特定的特征（如眼睛、鼻子等），而如果需要更多的特征，可以通过增加卷积核来增加通道实现。