LeNet-5网络详解

1,099 阅读3分钟

1 模型介绍

LeNet-5出自论文《Gradient-Based Learning Applied to Document Recognition》,是由LeCunLeCun 于1998年提出的一种用于识别手写数字和机器印刷字符的卷积神经网络,其命名来源于作者LeCunLeCun的名字,5则是其研究成果的代号,在LeNet-5之前还有LeNet-4和LeNet-1鲜为人知。LeNet-5阐述了图像中像素特征之间的相关性能够由参数共享的卷积操作所提取,同时使用卷积、下采样(池化)和非线性映射这样的组合结构,是当前流行的大多数深度图像识别网络的基础。

2 模型结构

1.png

LeNet-5虽然是早期提出的一个小网络,但是却包含了深度学习卷积神经网络的基本模块:卷积层池化层全连接层。如上图所示,LeNet-5一共包含7层(输入层不作为网络结构),分别由2个卷积层、2个池化层和3个连接层组成,网络的参数配置如表所示,其中下采样层和全连接层的核尺寸分别代表采样范围和连接矩阵的尺寸。

Layer NameKernel SizeKernel NumStridePaddingInput SizeOutput SizeTrainable params
C1C_15×55\times566110032×32×132\times32\times128×28×628\times28\times6(5×5×1+1)×6(5\times5\times1+1)\times6
S2S_22×22\times2//220028×28×628\times28\times614×14×614\times14\times6(1+1)×6(1+1)\times6
C3C_35×55\times51616110014×14×614\times14\times610×10×1610\times10\times1615161516
S4S_42×22\times2//20010×10×1610\times10\times165×5×165\times5\times16(1+1)×16(1+1)\times16
C5C_55×55\times51201201005×5×165\times5\times161×1×1201\times1\times120(5×5×16+1)×120(5\times5\times16+1)\times120
F6F_6////////1×1×1201\times1\times1201×1×841\times1\times84(120+1)×84(120+1)\times84
OutputOutput////////1×1×841\times1\times841×1×101\times1\times10(84+1)×10(84+1)\times10

接下来,分别详解各层参数

1、卷积层C1C_1

手写数字数据集是灰度图像,输入为32×32×132\times32\times1的图像,卷积核大小为5×55\times5,卷积核数量为6,步长为1,零填充。最终得到的C1C_1的feature maps大小为(325+1=2832-5+1=28)。可训练参数:(5×5+1)×6(5\times5+1)\times6,其中有6个滤波器,每个滤波器5×55\times5个units参数和一个bias参数,总共需要学习156个参数,这些参数是权值共享的。

2、下采样层S2S_2

卷积层C1C_1之后接着就是池化运算,池化核大小为2×22\times2,LeNet-5池化运算的采样方式为4个输入相加,乘以一个可训练参数,再加上一个可训练偏置,结果通过sigmoid,所以下采样的参数个数是(1+1)×6(1+1)\times6而不是零。

3、卷积层C3C_3

在LeNet-5中,C3C_3中的可训练参数并未直接连接S2S_2中所有的特征图(Feature Map),而是采用如下图所示的采样特征方式进行连接(稀疏连接)。具体地,C3C_3的前6个feature map(对应图2第一个红框的前6列)与S2S_2层相连的3个feature map相连接(图中第一个红框),后面6个feature map与S2S_2层相连的4个feature map相连接(图中第二个红框),后面3个feature map与S2S_2层部分不相连的4个feature map相连接,最后一个与S2S_2层的所有feature map相连。卷积核大小依然为5×55\times5,所以总共有6×(3×5×5+1)+6×(4×5×5+1)+3×(4×5×5+1)+1×(6×5×5+1)=15166\times(3\times5\times5+1)+6\times(4\times5\times5+1)+3\times(4\times5\times5+1)+1\times(6\times5\times5+1)=1516个参数。在原论文中解释了使用这种采样方式原因包含两点:限制了连接数不至于过大(当年的计算能力比较弱);强制限定不同特征图的组合可以使映射得到的特征图学习到不同的特征模式。

2.jpg

4、下采样层S4S_4

与下采样层S2S_2类似,采用大小为2×22\times2,步距为2的池化核对输入feature maps下采样,输出feature maps大小为5×55\times5

5、卷积层C5C_5

与卷积层C3C_3不同,卷积层C5C_5的输入为S4S_4的全部feature maps,由于S4S_4层的16个图的大小为5×55\times5,与卷积核的大小相同,所以卷积后形成的图的大小为1x1。

**6、全连接层F6F_6**和OutputOutput

F6F_6OutputOutput层在图1中显示为全连接层,原论文中解释这里实际采用的是卷积操作,只是刚好在5×55\times5卷积后尺寸被压缩为1×11\times1, 输出结果看起来和全连接很相似。

3 模型特性

  • 卷积网络使用一个3层的序列组合:卷积、下采样(池化)、非线性映射(LeNet-5最重要的特性,奠定了目前深层卷积网络的基础)
  • 使用卷积提取空间特征
  • 使用映射的空间均值进行下采样
  • 使用tanhtanhsigmoidsigmoid进行非线性映射
  • 多层神经网络(MLP)作为最终的分类器
  • 层间的稀疏连接矩阵以避免巨大的计算开销