卷积神经网络超详细介绍，2024年最新重难点整理输入图像大小：32x32 卷积核大小：5x5 卷积核个数：6 输出特征图

输入图像大小：32x32
卷积核大小：5x5
卷积核个数：6
输出特征图数量：6
输出特征图大小：28x28（32-5+1）
神经元数量：4707（28x28x6）
连接数：122304（（28x28x5x5x6）+（28x28x6））
可训练参数：156（5x5x6+6，权值+偏置）

3、S2 层

输入图像大小：（28x28x6）
卷积核大小：2x2
卷积核个数：6
输出特征图数量：6
输出特征图大小：14x14（28/2,28/2）
神经元数量：1176（14x14x6）
连接数：5880（（2x2x14x14x6）+（14x14x6））
可训练参数：12（1x6+6，权值+偏置）

备注：S2层每个单元的4个输入相加，乘以一个可训练参数，再加上一个可训练偏置。结果通过sigmoid函数计算。可训练系数和偏置控制着sigmoid函数的非线性程度。

如果系数比较小，那么运算近似于线性运算，下采样相当于模糊图像。

如果系数比较大，根据偏置的大小下采样可以被看成是有噪声的“或”运算或者有噪声的“与”运算。

每个单元的 2x2 感受野并不重叠，因此 S2 中每个特征图的大小是 C1 中特征图大小的 1/4（行和列各 1/2）。

4、C3 层

输入图像大小：（14x14x6）
卷积核大小：5x5
卷积核个数：16
输出特征图数量：16
输出特征图大小：10x10（14-5+1）
神经元数量：1600（10x10x16）
连接数：151600（1516x10x10）
可训练参数：1516

备注：C3 层也是一个卷积层，通过 5x5 的卷积核去卷积 S2 层，然后得到的特征图 map 就有 10x10 个神经元，但是有 16 种不同的卷积核，就存在 16 个不同的特征 map。

C3 中每个特征图由 S2 中的所有 6 个或几个特征图组合而成，为什么不把 S2 中的所有特征图都连接到 C3 的特征图呢：

第一，不完全的连接机制将连接的数量保持在合理的范围内
第二，也是最重要的，这样一来就可以破坏网络的对称性，由于不同的特征图有不同的输入，所以迫使他们抽取不同的特征。

5、S4 层

输入图像大小：（10x10x16）
卷积核大小：2x2
卷积核个数：16
输出特征图数量：16
输出特征图大小：5x5x16
神经元数量：400（5x5x16）
连接数：2000（（2x2x5x5x16）+(5x5x16））
可训练参数：32（（1+1）x16）

备注：S4 是一个下采样层，由 16 个 5x5 大小的特征图构成，特征图的每个单元与 C3 中相应的特征图的 2x2 邻域相连，S4 层有 32 个可训练参数（每个特征图 1 个因子和一个偏置）和 2000 个连接。

6、C5 层

输入图像大小：5x5x16
卷积核大小：5x5
卷积核个数：120
输出特征图数量：120
输出特征图大小：1X1（5-5+1）
神经元数量：120（1x120）
连接数：48120（5x5x16x120x1+120x1）
可训练参数：48120（5x5x16x120+120）

备注：C5 层是一个卷积层，有 120 个特征图，每个单元与 S4 层的全部 16 个单元的 5x5 邻域相连，构成了 S4 和 C5 的全连接，之所以仍将 C5 标识为卷积层而非全连接层是因为如果 LeNet-5 的输入变大，而其他的保持不变，那么此时特征图的维数就会比 1x1 大。

7、F6 层

输入图像大小：（1x1x120）
卷积核大小：1x1
卷积核个数：84
输出特征图数量：1
输出特征图大小：84
神经元数量：84
连接数：10164（120x84+84）
可训练参数：10164（120x84+84）

备注：F6 有 84 个单元（之所以选择 84 是源于输出层的设计），与 C5 层相连，有 10164 个可训练参数，类似经典的全连接神经网络，F6 层计算输入向量和权重向量之间的点积，再加上一个偏置，之后将其传递给 sigmoid 函数产生一个单元i的状态。

8、output 层

输入图像大小：1x84
输出特征图数量：1x10

9、AlexNet

超详细介绍AlexNet

这篇论文，题目叫做 “ImageNet Classification with Deep Convolutional Networks”，迄今被引用 6184 次，被业内普遍视为行业最重要的论文之一。Alex Krizhevsky、Ilya Sutskever 和 Geoffrey Hinton 创造了一个“大型的深度卷积神经网络”，赢得了 2012 ILSVRC(2012年ImageNet 大规模视觉识别挑战赛)。稍微介绍一下，这个比赛被誉为计算机视觉的年度奥林匹克竞赛，全世界的团队相聚一堂，看看是哪家的视觉模型表现最为出色。2012 年是 CNN 首次实现 Top 5 误差率 15.4% 的一年 (Top 5 误差率是指给定一张图像，其标签不在模型认为最有可能的 5 个结果中的几率)，当时的次优项误差率为 26.2%。这个表现不用说震惊了整个计算机视觉界。可以说，是自那时起，CNN 才成了家喻户晓的名字。

ImageNet 2012 比赛分类任务的冠军，将分类错误率降低到了 15.315%，使用传统计算机视觉的第二名小组的分类错误率为 26.172%。

这里写图片描述

上图所示是 caffe 中 alexnet 的网络结构，上图采用是两台 GPU 服务器，所有会看到两个流程图。下边把 AlexNet 的网络结构示意一下：

这里写图片描述

简化的结构：

这里写图片描述

架构：

因为使用了两台 GPU 训练，因而有两股 “流”。使用两台 GPU 训练的原因是计算量太大，只能拆开来。

要点：

数据集：ImageNet 数据集，含 1500 多万个带标记的图像，超过 2.2 万个类别
激活函数：ReLU（训练速度快，一定程度上减小了梯度消失的问题）
数据增强：平移、镜像、缩放等
过拟合：dropout
如何训练：批处理梯度下降训练模型，注明了动量衰减值和权值衰减值
训练时间：使用两台 GTX 580 GPU，训练了 5 到 6 天

这里写图片描述

Alex Krizhevsky 等人于 2012 年的 ImageNet 比赛中提出了新型卷积神经网络 AlexNet，并获得了图像分类问题的最好成绩（Top-5 错误率为 15.3%）。

网络结构：

其实 AlexNet 的结构很简单，只是 LeNet 的放大版，输入是一个 224x224 的图像，经过 5 个卷积层，3 个全连接层（包含一个分类层），达到了最后的标签空间。

AlexNet学习出来的特征是什么样子的？

第一层：都是一些填充的块状物和边界等特征
中间层：学习一些纹理特征
更高层：接近于分类器的层级，可以明显的看到物体的形状特征
最后一层：分类层，完全是物体的不同的姿态，根据不同的物体展现出不同姿态的特征了。

即无论对什么物体，学习过程都是：边缘

→

\to

→部分

→

\to

→整体

该方法训练了一个端到端的卷积神经网络实现对图像特征提取和分类，网络结构共7层，包含5层卷积层和2层全连接层。

AlexNet 包含了 6 亿三千万个连接，6000 万个参数和 65 万个神经元，拥有 5 个卷积层，其中 3 个卷积层后面连接了最大池化层，最后还有 3 个全连接层。

AlexNet 可以说是神经网络在低谷期后的第一次发声，确立了深度学习（深度卷积神经网络）在计算机界的统治地位，同时也推动了深度学习在语音识别、自然语言处理、强化学习等方面的拓展。

训练技巧：dropout 防止过拟合，提高泛化能力

训练阶段使用了 Dropout 技巧随机忽略一部分神经元，缓解了神经网络的过拟合现象，和防止对网络参数优化时陷入局部最优的问题，Dropout 虽有单独的论文论述，但是 AlexNet 将其实用化，通过实践证实了它的效果。在 AlexNet 中主要是最后几个全连接层使用了 Dropout。

该网络是利用 Dropout 在训练过程中将输入层和中间层的一些神经元随机置零，使得训练过程收敛的更慢，但得到的网络模型更加具有鲁棒性。

数据扩充 / 数据增强：防止过拟合

通过图像平移、水平翻转、调整图像灰度等方法扩充样本训练集，扩充样本训练集，使得训练得到的网络对局部平移、旋转、光照变化具有一定的不变性，数据经过扩充以后可以达到减轻过拟合并提升泛化能力。进行预测时，则是取图像的四个角加上中间共 5 个位置，并进行左右翻转，一共获得 10 张图像，对它们进行预测并对 10 次结果求均值。

水平翻转：
随机裁剪、平移旋转：
颜色变换：

池化方式：

AlexNet 全部使用最大池化的方式，避免了平均池化所带来的模糊化的效果，并且步长 < 池化核的大小，这样一来池化层的输出之间会有重叠和覆盖，提升了特征的丰富性。

此前的 CNN 一直使用平均池化的操作。

激活函数：ReLU

Relu函数：f(x)=max(0,x)

采用非饱和线性单元——ReLU 代替传统的经常使用的 tanh 和 sigmoid 函数，加速了网络训练的速度，降低了计算的复杂度，对各种干扰更加具有鲁棒性，并且在一定程度上避免了梯度消失问题。
这里写图片描述

优势：

ReLU 本质上是分段线性模型，前向计算非常简单，无需指数之类操作；
ReLU 的偏导也很简单，反向传播梯度，无需指数或者除法之类操作；
ReLU 不容易发生梯度发散问题，Tanh 和Logistic 激活函数在两端的时候导数容易趋近于零，多级连乘后梯度更加约等于 0；
ReLU 关闭了右边，从而会使得很多的隐层输出为 0，即网络变得稀疏，起到了类似 L1 的正则化作用，可以在一定程度上缓解过拟合。

缺点：

当然，ReLU 也是有缺点的，比如左边全部关了很容易导致某些隐藏节点永无翻身之日，所以后来又出现 pReLU、random ReLU等改进，而且 ReLU 会很容易改变数据的分布，因此 ReLU 后加 Batch Normalization 也是常用的改进的方法。

提出了LRN层（Local Response Normalization）：

LRN 即 Local Response Normalization，局部响应归一化处理，实际就是利用临近的数据做归一化，该策略贡献了 1.2% 的准确率，该技术是深度学习训练时的一种提高准确度的技术方法，LRN 一般是在激活、池化后进行的一种处理方法。

LRN 是对局部神经元的活动创建竞争机制，使得其中响应较大的值变得相对更大，并抑制其他反馈较小的神经元，增强了模型的泛化能力。

为什么输入数据需要归一化（Normalized Data）？

归一化后有什么好处呢？原因在于神经网络学习过程本质就是为了学习数据分布，一旦训练数据与测试数据的分布不同，那么网络的泛化能力也大大降低；另外一方面，一旦每批训练数据的分布各不相同(batch 梯度下降)，那么网络就要在每次迭代都去学习适应不同的分布，这样将会大大降低网络的训练速度，这也正是为什么我们需要对数据都要做一个归一化预处理的原因。

对于深度网络的训练是一个复杂的过程，只要网络的前面几层发生微小的改变，那么后面几层就会被累积放大下去。一旦网络某一层的输入数据的分布发生改变，那么这一层网络就需要去适应学习这个新的数据分布，所以如果训练过程中，训练数据的分布一直在发生变化，那么将会影响网络的训练速度。

分布式计算：

AlexNet 使用 CUDA 加速深度卷积网络的训练，利用 GPU 强大的并行计算能力，处理神经网络训练时大量的矩阵运算，AlexNet 使用两个 GTX580 的 GPU 进行训练，单个 GTX580 只有 3GB 的显存，限制了可训练网络的最大规模，因此将其分布在两个 GPU 上，在每个 GPU 的显存中储存一般的神经元参数。

有多少层需要训练

整个 AlexNet 有 8 个需要训练参数的层，不包括池化层和 LRN 层，前 5 层为卷积层，后 3 层为全连接层，AlexNet 的最后一层是由 1000 类输出的 Softmax 层用作分类，LRN 层出现在第一个和第二个卷积层之后，最大池化层出现在两个 LRN 之后和最后一个卷积层之后。

每层的超参数、参数量、计算量：

这里写图片描述

虽然前几个卷积层的计算量很大，但是参数量都很小，在 1M 左右甚至更小。只占 AlexNet 总参数量的很小一部分，这就是卷积层的作用，可以通过较小的参数量有效的提取特征。

为什么使用多层全连接：

全连接层在 CNN 中起到分类器的作用，前面的卷积层、池化层和激活函数层等操作是将原始数据映射到隐层特征空间，全连接层是将学到的特征映射映射到样本标记空间，就是矩阵乘法，再加上激活函数的非线性映射，多层全连接层理论上可以模拟任何非线性变换。但缺点也很明显: 无法保持空间结构。
由于全连接网络的冗余（占整个我拿过来参数的 80%），近期一些好的网络模型使用全局平均池化（GAP）取代 FC 来融合学到的深度特征，最后使用 softmax 等损失函数作为网络目标函数来指导学习过程，用 GAP 替代 FC 的网络通常有较好的预测性能。
全连接的一个作用是维度变换，尤其是可以把高维变到低维，同时把有用的信息保留下来。全连接另一个作用是隐含语义的表达 (embedding)，把原始特征映射到各个隐语义节点 (hidden node)。对于最后一层全连接而言，就是分类的显示表达。不同 channel 同一位置上的全连接等价与 1x1 的卷积。N 个节点的全连接可近似为 N 个模板卷积后的均值池化 (GAP)。

GAP：假如最后一层的数据是 10 个 6x6 的特征图，global average pooling 是将每个特征图计算所有像素点的均值，输出一个数据值，10 个特征图就会输出 10 个值，组成一个 1x10 的特征向量。

用特征图直接表示属于某类的置信率，比如有 10 个输出，就在最后输出 10 个特征图，每个特征图的值加起来求均值，然后将均值作为其属于某类的置信值，再输入 softmax 中，效果较好。
因为 FC 的参数众多，这么做就减少了参数的数量（在最近比较火的模型压缩中，这个优势可以很好的压缩模型的大小）。
因为减少了参数的数量，可以很好的减轻过拟合的发生。

这里写图片描述

为什么过了 20年才卷土重来：

1. 大规模有标记数据集的出现，防止以前不可避免的过拟合现象

2. 计算机硬件的突飞猛进，卷积神经网络对计算机的运算要求比较高，需要大量重复可并行化的计算，在当时CPU只有单核且运算能力比较低的情况下，不可能进行个很深的卷积神经网络的训练。随着GPU计算能力的增长，卷积神经网络结合大数据的训练才成为可能。

3. 卷积神经网络有一批一直在坚持的科学家（如Lecun）才没有被沉默，才没有被海量的浅层方法淹没。然后最后终于看到卷积神经网络占领主流的曙光。

10、ZFNet

和 AlexNet 很像，只是把参数优化了。

2012 年 AlexNet 出尽了风头，ILSVRC 2013 就有一大批 CNN 模型冒了出来。2013 年的冠军是纽约大学 Matthew Zeiler 和 Rob Fergus 设计的网络 ZF Net，错误率 11.2%。ZFNet 模型更像是 AlexNet 架构的微调优化版，但还是提出了有关优化性能的一些关键想法。还有一个原因，这篇论文写得非常好，论文作者花了大量时间阐释有关卷积神经网络的直观概念，展示了将滤波器和权重可视化的正确方法。

在这篇题为 “Visualizing and Understanding Convolutional Neural Networks” 的论文中，Zeiler 和 Fergus 从大数据和 GPU 计算力让人们重拾对 CNN 的兴趣讲起，讨论了研究人员对模型内在机制知之甚少，一针见血地指出 “发展更好的模型实际上是不断试错的过程”。虽然我们现在要比3年前知道得多一些了，但论文所提出的问题至今仍然存在!这篇论文的主要贡献在于提出了一个比AlexNet稍微好一些的模型并给出了细节，还提供了一些制作可视化特征图值得借鉴的方法。

10.1 意义

该论文是在 AlexNet 基础上进行了一些细节的改动，网络结构上并没有太大的突破。该论文最大的贡献在于通过使用可视化技术揭示了神经网络各层到底在干什么，起到了什么作用。

从科学的观点出发，如果不知道神经网络为什么取得了如此好的效果，那么只能靠不停的实验来寻找更好的模型。

使用一个多层的反卷积网络来可视化训练过程中特征的演化及发现潜在的问题；同时根据遮挡图像局部对分类结果的影响来探讨对分类任务而言到底那部分输入信息更重要。

10.2 实现方法

训练过程：

对前一层的输入进行卷积 → relu → max pooling(可选) → 局部对比操作(可选) → 全连接层 → softmax分类器。

输入是 (x,y)，计算 y 与 y 的估计值之间的交叉熵损失，反向传播损失值的梯度，使用随机梯度下降算法来更新参数（w和b）以完成模型的训练。

反卷积可视化：

一个卷积层加一个对应的反卷积层；

输入是 feature map，输出是图像像素；

过程包括反池化操作、relu 和反卷积过程。

反池化：

严格意义上的反池化是无法实现的。作者采用近似的实现，在训练过程中记录每一个池化操作的一个 zxz 的区域内输入的最大值的位置，这样在反池化的时候，就将最大值返回到其应该在的位置，其他位置的值补 0。

relu:

卷积神经网络使用 relu 非线性函数来保证输出的 feature map总是为正数。在反卷积的时候，也需要保证每一层的 feature map 都是正值，所以这里还是使用 relu 作为非线性激活函数。

滤波：

使用原卷积核的转秩和 feature map 进行卷积。反卷积其实是一个误导，这里真正的名字就是转秩卷积操作。

这里写图片描述

上图左边是一个解卷积层，右边为一个卷积层，解卷积层将会重建一个来自下一层的卷积特征近似版本，图中使用 switch 来记录在卷积网中进行最大池化操作时每个池化区域的局部最大值的位置，经过非池化操作后，原来的非最大值的位置全都置为 0。

预处理：

网络对输入图片进行预处理，裁剪图片中间的 256x256 区域，并减去整个图像每个像素的均值，然后用 10 个不同的对 256x256 图像进行 224x224 的裁剪（中间区域加上四个角落，以及他们的水平翻转图像），对以 128 个图片分的块进行随机梯度下降法来更新参数。起始学习率为

−

10 ^{−2}

10−2 ，动量为 0.9，当验证集误差停滞时，手动调整学习率。在全连接网络中使用概率为 0.5 的 dropout，并且所有权值都初始化为

−

10 ^{−2}

10−2 ，偏置设为 0。

在训练时第一层的可视化揭露了一些占主导的因素，为了了解这些，我们采用重新归一化每个卷积层的滤波器，这些滤波器的均方根值超过了一个固定半径的

−

10 ^{−1}

10−1 。这是非常关键的，尤其是在模型中的第一层，因为输出图片大约在 [-128,128] 的范围内。

特征可视化：

每个特征单独投影到像素空间揭露了不同的结构能刺激不同的一个给定的特征图，因此展示了它对于变形的输入内在的不变性。下图即在一个已经训练好的网络中可视化后的图。

10.3 训练细节

网络结构类似于 AlexNet，有两点不同，一是将 3，4，5 层的变成了全连接，二是卷积核的大小减小。

图像预处理和训练过程中的参数设置也和 AlexNet 很像。

AlexNet 用了1500万张图像，ZFNet 用了 130 万张图像。
AlexNet 在第一层中使用了大小为 11×11 的滤波器，而ZF使用的滤波器大小为 7x7，整体处理速度也有所减慢。做此修改的原因是，对于输入数据来说，第一层卷积层有助于保留大量的原始象素信息。11×11 的滤波器漏掉了大量相关信息，特别是因为这是第一层卷积层。
随着网络增大，使用的滤波器数量增多。
利用 ReLU 的激活函数，将交叉熵代价函数作为误差函数，使用批处理随机梯度下降进行训练。
使用一台 GTX 580 GPU 训练了 12 天。
开发可视化技术 “解卷积网络”(Deconvolutional Network)，有助于检查不同的特征激活和其对输入空间关系。名字之所以称为“deconvnet”，是因为它将特征映射到像素(与卷积层恰好相反)。

这里写图片描述

解卷积层 DeConvNet：

DeConvNet 工作的基本原理是，每层训练过的 CNN 后面都连一层 “deconvet”，它会提供一条返回图像像素的路径。输入图像进入 CNN 之后，每一层都计算激活。然而向前传递。

现在，假设我们想知道第4层卷积层某个特征的激活值，我们将保存这个特征图的激活值，并将这一层的其他激活值设为 0，再将这张特征图作为输入送入 deconvnet。Deconvnet 与原来的 CNN 拥有同样的滤波器。输入经过一系列 unpool (maxpooling 倒过来)，修正，对前一层进行过滤操作，直到输入空间满。

这一过程背后的逻辑在于，我们想要知道是激活某个特征图的是什么结构。下面来看第一层和第二层的可视化。
这里写图片描述

ConvNet 的第一层永远是低层特征检测器，在这里就是对简单的边缘、颜色进行检测。第二层就有比较圆滑的特征了。再来看第三、第四和第五层。

这里写图片描述

第二层应对角落和其他边缘或者颜色的结合
第三层有更加复杂的不变性，捕捉到了相似的纹理
第四层显示了特定类间显著的差异性
第五层显示了有显著构成变化的整个物体。

这些层展示出了更多的高级特征，比如狗的脸和鲜花。值得一提的是，在第一层卷积层后面，我们通常会跟一个池化层将图像缩小 (比如将 32x32x32 变为 16x16x3)。这样做的效果是加宽了第二层看原始图像的视野。更详细的内容可以阅读论文。

训练时的特征演变过程：

外表突然的变化导致图像中的一个变换即产生了最强烈的激活。模型的底层在少数几个 epoches 就能收敛聚集，然而上层在一个相当多的 epoches(40-50) 之后才能有所变化，这显示了让模型完全训练到完全收敛的必要性。可以由下图看到颜色对比度都逐步增强。

这里写图片描述

特征不变性：

一般来说，小的变化对于模型的第一层都有非常大的影响，但对于最高层的影响却几乎没有。对于图像的平移、尺度、旋转的变化来说，网络的输出对于平移和尺度变化都是稳定的，但却不具有旋转不变性，除非目标图像时旋转对称的。下图为分别对平移，尺度，旋转做的分析图。

这里写图片描述

上图按行顺序分别为对5类图像进行不同程度的垂直方向上的平移、尺度变换、旋转对输出结果影响的分析图。按列顺序分别为原始变换图像，第一层中原始图片和变换后的图片的欧氏距离，第7层中原始图片和变换后的图片的欧氏距离，变换后图片被正确分类的概率图。

可视化不仅能够看到一个训练完的模型的内部操作，而且还能帮助选择好的网络结构。

ZF Net 为什么重要?

ZF Net 不仅是 2013 年比赛的冠军，还对 CNN 的运作机制提供了极好的直观信息，展示了更多提升性能的方法。论文所描述的可视化方法不仅有助于弄清 CNN 的内在机理，也为优化网络架构提供了有用的信息。Deconv 可视化方法和 occlusion 实验也让这篇论文成了我个人的最爱。

10.4 卷积网络可视化

特征可视化：

通过对各层卷积核学习到的特征进行可视化发现神经网络学习到的特征存在层级结构。第二层是学习到边缘和角点检测器，第三层学习到了一些纹理特征，第四层学习到了对于指定类别图像的一些不变性的特征，例如狗脸、鸟腿，第五层得到了目标更显著的特征并且获取了位置变化信息。

训练过程中的特征演化：

低层特征经过较少 epoch 的训练过程之后就学习的比较稳定了，层数越高越需要更多的 epoch 进行训练。因此需要足够多的epoch过程来保证顺利的模型收敛。

特征不变性：

卷积神经网络具有平移和缩放不变性，并且层数越高不变性越强。但是不具有旋转不变性。

特征结构选择：

作者通过可视化 AlexNet 第一层和第二层的特征，发现比较大的stride和卷积核提取的特征不理想，所以作者将第一层的卷积核从 11x11 减小到 7x7，将 stride 从 4 减小到 2，实验说明，这样有助于分类性能的提升。

遮挡实验：

遮挡实验说明图像的关键区域被遮挡之后对分类性能有很大的影响，说明分类过程中模型明确定位出了场景中的物体。

一致性分析：

不同图像的指定目标局部块之间是否存在一致性的关联，作者认为深度模型可能默认学习到了这种关联关系。作者通过对五张不同的狗的图像进行局部遮挡，然后分析原图和遮挡后的图像的特征之间的汉明距离的和值，值越小说明一致性越大。实验表明，对不同的狗的图像遮挡左眼、右眼和鼻子之后的汉明距离小于随机遮挡，证明存在一定的关联性。

10.6 总结

提出了一种可视化方法；
发现学习到的特征远不是无法解释的，而是特征间存在层次性，层数越深，特征不变性越强，类别的判别能力越强；
通过可视化模型中间层，在 alexnet 基础上进一步提升了分类效果；
遮挡实验表明分类时模型和局部块的特征高度相关；
模型的深度很关键；
预训练模型可以在其他数据集上fine-tuning得到很好的结果。

11、VGGNet

很适合做迁移学习，提到了一系列，VGG-16、VGG-19，不同层，参数也不同，最后选择了D的参数，结果最好。

传统的网络训练19层的网络很不容易，很厉害。

这里写图片描述

VGGNet 是牛津大学计算机视觉组和 Google DeepMind 公司的研究员一起研发的的深度卷积神经网络。

VGGNet 探索了卷积神经网络的深度与其性能之间的关系，通过反复堆叠 3x3 的小型卷积核和 2x2 的最大池化层，VGGNet 成功地构筑了 16~19 层深的卷积神经网络。VGGNet 相比之前 state-of-the-art 的网络结构，错误率大幅下降，并取得了 ILSVRC 2014 比赛分类项目的第 2 名和定位项目的第 1 名。

VGGNet 论文中全部使用了 3x3 的卷积核和 2x2 的池化核，通过不断加深网络结构来提升性能。下图所示为 VGGNet 各级别的网络结构图，和每一级别的参数量，从 11 层的网络一直到 19 层的网络都有详尽的性能测试。

这里写图片描述

A网络（11层）有 8 个卷积层和 3 个全连接层，E 网络（19层）有 16 个卷积层和 3 个全连接层，卷积层宽度（通道数）从 64 到 512，每经过一次池化操作，扩大一倍。

11.1 结构

输入：训练时输入大小为 224x224 大小的 RGB 图像；
预处理：在训练集中的每个像素减去 RGB 的均值
卷积核：3x3 大小的卷积核，有的地方使用 1x1 的卷积，这种 1x1 的卷积可以被看做是对输入通道的线性变换。
步长：步长 stride 为 1
填充：填充 1 个像素
池化：max-pooling，共有 5 层在一部分卷积层之后，连接的 max-pooling 的窗口是 2x2，步长为 2
全连接层：前两个全连接层均有 4096 个通道，第三个全连接层由 1000 个通道，用来分类。所有网络的全连接层配置相同。
激活函数：ReLU
不使用 LRN，这种标准化并不能带来很大的提升，反而会导致更多的内存消耗和计算时间

这里写图片描述

相比 AlexNet 的变化：

LRN 层作用不大，还耗时，抛弃
网络越深，效果越好
卷积核使用更小的卷积核，比如 3x3

VGG 虽然比 AlexNet 模型层数多，且每轮训练时间会比 AlexNet 更长，但是因为更深的网络和更小的卷积核带来的隐式正则化结果，需要的收敛的迭代次数减小了许多。

要点：

这里使用 3x3 的滤波器和 AlexNet 在第一层使用 11x11 的滤波器和 ZF Net 7x7 的滤波器作用完全不同。

作者认为两个 3x3 的卷积层组合可以实现 5x5 的有效感受野。这就在保持滤波器尺寸较小的同时模拟了大型滤波器，减少了参数。此外，有两个卷积层就能够使用两层 ReLU。

3 卷积层具有 7x7 的有效感受野。
每个 maxpool 层后滤波器的数量增加一倍。进一步加强了缩小空间尺寸，但保持深度增长的想法。
图像分类和定位任务都运作良好。
使用 Caffe 工具包建模。
训练中使用 scale jittering 的数据增强技术。
每层卷积层后使用 ReLU 层和批处理梯度下降训练。
使用 4 台英伟达 Titan Black GPU 训练了两到三周。

为什么重要?

VGG Net 是最重要的模型之一，因为它再次强调 CNN 必须够深，视觉数据的层次化表示才有用。深的同时结构简单。

11.2 网络特点：

VGGNet 使用 3x3 的卷积

AlexNet 和 ZFNet 在第一个卷积层的卷积分别是 11x11 、步长为 4，7x7、步长为 2）

使用三个 3x3 的卷积，而不是一个 7x7 的卷积

两个连续的 3x3 的卷积相当于 5x5 的感受野，三个相当于 7x7 的感受野，优势在于：

① 包含三个 ReLU 层而不是一个，使得决策函数更有判别性；
② 减少了参数，比如输入输出都是c个通道，使用 3x3 的3个卷积层需要 3x（3x3xCxC）=27xCxC，使用7x7的1个卷积层需要7x7xCxC=49xCxC，这可以看做是为 7x7 的卷积施加一种正则化，使它分解为 3 个 3x3 的卷积。

使用 1x1 的卷积层，该层主要是为了增加决策函数的非线性，而不影响卷积层的感受野，虽然 1x1 的卷积操作是线性的，但是 ReLU 增加了非线性

11.3 分类框架：

a. 训练过程：

除了从多尺度的训练图像上采样输入图像外，VGGNet 和 AlexNet 类似

优化方法: 是含有动量的随机梯度下降 SGD+momentum（0.9）

批尺度： batch size = 256

正则化： 采用 L2 正则化，weight decay 是 5e-4，dropout 在前两个全连接层之后，p=0.5

为什么能在相比 AlexNet 网络更深，参数更多的情况下，VGGNet 能在更少的周期内收敛：

① 更大的深度和更小的卷积核带来隐式正则化；
② 一些层的预训练

参数初始化：

对于较浅的 A 网络，参数进行随机初始化，权值 w 从 N（0，0.01）中采样，偏差 bias 初始化为 0；对于较深的网络，先用 A 网络的参数初始化前四个卷积层和三个全连接层。

数据预处理：

为了获得 224x224 的输入图像，要在每个 SGD 迭代中对每张重新缩放的图像进行随机裁剪，为了增强数据集，裁剪的图像还要随机水平翻转和 RGB 色彩偏移。

b. 测试过程

对输入图像重新缩放到一个预定义的最小图像边的尺寸 Q
网络密集地应用在重缩放后的图像上，也就是说全连接层转化为卷积层（第一个全连接层转化为 7x7 的卷积层，后两个全连接层转化为 1x1 的卷积层），然后将转化后的全连接层应用在整张图中）
为了获得固定尺寸的类别分数向量，对分数图进行空间平均化处理。

c. 实现

基于 C++ Caffe，进行一些重要修改，在单系统多 GPU 上训练。
在装有 4 个 NVIDIA Titan Black GPUs 的电脑上，训练一个网络需要 2-3 周。

12、GoogLeNet

ImageNet 2014 比赛分类任务的冠军，将错误率降低到了 6.656%，突出的特点是大大增加了卷积神经网络的深度。

将最后的全连接层都换成了 1x1 的卷积层，大大加速了训练速率。

12.1 GoogLeNet Inception V1——22层

GoogLeNet Incepetion V1《Going deeper with convolutions》

之所以名为 “GoogLeNet” 而非 “GoogleNet”，文章说是为了向早期的 LeNet 致敬。

1）动机：

深度学习以及神经网络快速发展，人们不再只关注更给力的硬件、更大的数据集、更大的模型，而是更在意新的 idea、新的算法以及模型的改进。

一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，这也就意味着巨量的参数。但是，巨量参数容易产生过拟合也会大大增加计算量。

文章认为解决上述两个缺点的根本方法是将全连接甚至一般的卷积都转化为稀疏连接。

一方面现实生物神经系统的连接也是稀疏的
另一方面有文献 1 表明：对于大规模稀疏的神经网络，可以通过分析激活值的统计特性和对高度相关的输出进行聚类来逐层构建出一个最优网络。这点表明臃肿的稀疏网络可能被不失性能地简化。虽然数学证明有着严格的条件限制，但Hebbian准则有力地支持了这一点：fire together,wire together。

早些的时候，为了打破网络对称性和提高学习能力，传统的网络都使用了随机稀疏连接。但是，计算机软硬件对非均匀稀疏数据的计算效率很差，所以在 AlexNet 中又重新启用了全连接层，目的是为了更好地优化并行运算。

所以，现在的问题是有没有一种方法，既能保持网络结构的稀疏性，又能利用密集矩阵的高计算性能。大量的文献表明可以将稀疏矩阵聚类为较为密集的子矩阵来提高计算性能，据此论文提出了名为 Inception 的结构来实现此目的。

这里写图片描述

2012 年 AlexNet 做出历史突破以来，直到 GoogLeNet 出来之前，主流的网络结构突破大致是网络更深（层数），网络更宽（神经元数）。所以大家调侃深度学习为 “深度调参”，但是纯粹的增大网络的缺点：

参数太多，容易过拟合，若训练数据集有限；
网络越大计算复杂度越大，难以应用；
网络越深，梯度越往后穿越容易消失（梯度弥散），难以优化模型

那么解决上述问题的方法当然就是增加网络深度和宽度的同时减少参数，Inception 就是在这样的情况下应运而生。

2）网络结构

Inception 结构的主要思路是怎样用密集成分来近似最优的局部稀疏结构，基本结构如下：

这里写图片描述

上图说明：

采用不同大小的卷积核意味着不同大小的感受野，最后拼接意味着不同尺度特征的融合
之所以卷积核采用 1x1，3x3 和 5x5，主要是为了方便对齐，设定卷积步长 stride=1，只要分别设定 padding=0，1，2，那么卷积之后便可以得到相同维度的特征，然后将这些特征就可以直接拼接在一起了。
文章中说 pooling 被证明很有效，所以网络结构中也加入了
网络越到后面，特征越抽象，而且每个特征所涉及的感受野也变大了，因此随着层数的增加，3x3 和 5x5 的比例也要增加。

但是使用 5x5 的卷积核仍然会带来巨大的计算量，为此文章借鉴 NIN，采用 1x1 的卷积核来进行降维。

例如：上一层的输出为 100x100x128，经过具有 256 个输出的5x5卷积层之后 (stride=1，pad=2)，输出数据为 100x100x256。其中，卷积层的参数为 128x5x5x256。假如上一层输出先经过具有 32 个输出的 1x1 卷积层，再经过具有 256 个输出的 5x5 卷积层，那么最终的输出数据仍为为 100x100x256，但卷积参数量已经减少为 128x1x1x32 + 32x5x5x256，大约减少了 4 倍。

卷积层参数数量计算：

输入通道数为 K，输出通道数为 L，那么卷积核个数为 KxL。因为高维卷积计算是多个通道与多个卷积核分别进行二维计算

所以 K 个通道会需要 K 个卷积核，计算之后，合并也就是相加得到一个通道，又因为输出通道为 L，所以需要 KxL 个卷积核。

然后就是如何求解参数数量？

其实很简单，就是卷积核个数乘以卷积核尺寸，para=IxJxKxL。

输入是 3 个 32x32, 共 3x1024=3072。每条边 padding 为 2，则内存里实际为 3 个 36x36.

卷积核个数是 3 维的 5x5 分别与 3 个输入进行卷积运算,得到 3 维的 32x32 的输出,这里将 3 维的 32x32 对应位相加得到一张 32x32 的 feature Map

如果有 64 个 3 维的 5x5 卷积核就有 64 张 feature Map

具体过程图示为：

这里写图片描述

卷积的权值存取方式为:

第 1 个 5x5 作用于第一张输入全图，
第 2 个 5x5 作用于第二张输入全图，
第 3 个 5x5 作用于第三张输入全图，
再把这三个对应位置相加，在加上 biases,得到第一张 feature map
最后 64 个 5x5x3 重复上面的过程，得到 64 个 featuremap
这里 weights 有 3x5x5x64 个, biases 有 64个.
这里输入是 3 输出是 64，卷积核是 5x5 权值个数是 64x5x5x3

具体改进后的Inception Module如下：

这里写图片描述

GoogLeNet Incepetion V1 比 AlexNet 的 8 层或者 VGGNet 的 19 层还要更深。但其计算量只有 15 亿次浮点运算，同时只有 500 万的参数量，仅为 AlexNet 参数量（6000万）的 1/12，却可以达到远胜于 AlexNet 的准确率，可以说是非常优秀并且非常实用的模型。

Inception V1降低参数量的目的有两点：

第一，参数越多模型越庞大，需要供模型学习的数据量就越大，而目前高质量的数据非常昂贵；
第二，参数越多，耗费的计算资源也会更大。

Inception V1 参数少但效果好的原因除了模型层数更深、表达能力更强外，还有两点：

其一，去除了最后的全连接层，用全局平均池化层（即将图片尺寸变为 1x1）来取代它。全连接层几乎占据了 AlexNet 或 VGGNet 中 90% 的参数量，而且会引起过拟合，去除全连接层后模型训练更快并且减轻了过拟合。
其二，Inception V1 中精心设计的 Inception Module 提高了参数的利用效率，其结构如上图所示。这一部分也借鉴了 Network In Network 的思想，形象的解释就是 Inception Module 本身如同大网络中的一个小网络，其结构可以反复堆叠在一起形成大网络。

Inception Module的基本结构：

其中有 4 个分支：

第一个分支对输入进行 1x1 的卷积，这其实也是 NIN 中提出的一个重要结构。1x1 的卷积是一个非常优秀的结构，它可以跨通道组织信息，提高网络的表达能力，同时可以对输出通道升维和降维。
Inception Module的 4 个分支都用到了 1x1 的卷积，来进行低成本（计算量比 3x3 小很多）的跨通道的特征变换
第二个分支，先使用了 1x1 卷积，然后连接 3x3 卷积，相当于进行了两次特征变换
第三个分支，先使用 1x1 卷积，然后连接 5x5 卷积
第四个分支，3x3 最大池化后直接使用 1x1 卷积
四个分支在最后通过一个聚合操作合并，在输出通道这个维度上聚合。

我们立刻注意到，并不是所有的事情都是按照顺序进行的，这与此前看到的架构不一样。我们有一些网络，能同时并行发生反应，这个盒子被称为 Inception 模型。

12.2 GoogLeNet

这里写图片描述

先小心翼翼的训练得到一组权重参数（第一个出来的分支），再利用这些参数作为初始化参数，训练网络，之后再进行一次初始化，训练得到 22 层的网络。

上图说明：

GoogLeNet 采用了模块化的几个，方便增添和修改
网络最后采用了平均池化来代替全连接层，想法来自 NIN，事实证明可以将 TOP accuracy 提高 0.6%，但是，实际在最后一层还是加了一个全连接层，主要为了方便之后的微调
虽然移除了全连接，但是网络中依然使用了 Dropout
为了避免梯度消失，网络额外增加了 2 个辅助的 softmax 用于前向传导梯度，文章中说着两个辅助分类器的 loss 应该加一个衰减系数，但是 caffe 中的模型没有加任何衰减，此外，实际测试的时候，这两个额外的 softmax 会被去掉。

比较清晰的结构图：

这里写图片描述

结论：

GoogLeNet 是谷歌团队为了参加 ILSVRC 2014 比赛而精心准备的，为了达到最佳的性能，除了使用上述的网络结构外，还做了大量的辅助工作：包括训练多个 model 求平均、裁剪不同尺度的图像做多次验证等等。详细的这些可以参看文章的实验部分。

本文的主要想法其实是想通过构建密集的块结构来近似最优的稀疏结构，从而达到提高性能而又不大量增加计算量的目的。GoogleNet 的 caffemodel 大小约 50M，但性能却很优异。

这里写图片描述

12.3 GoogleNet Inception V2

V2 和 V1 的最大的不同就是，V2 增加了 Batch Normalization。《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

Inception V2 学习了 VGGNet，用两个 3x3 的卷积代替 5x5 的卷积，用以降低参数量并减轻过拟合，还提出了著名的Batch Normalization 方法，该方法是一个很有效的正则化的方法，可以让大型卷积网络的训练速度加快很多倍，同时收敛后的分类准确率也可以得到大幅度的提高。

BN 在用于神经网络某层时，会对每一个 mini-batch 数据的内部进行标准化（normalization）处理，使输出规范化到 N(0,1) 的正态分布，减少了 Internal Covariate Shift（内部神经元分布的改变）。

BN 的论文指出，传统的深度神经网络在训练时，每一层的输入的分布都在变化，导致训练变得困难，我们只能使用一个很小的学习速率解决这个问题。而对每一层使用 BN 之后，我们就可以有效地解决这个问题，学习速率可以增大很多倍，达到之前的准确率所需要的迭代次数只有 1/14，训练时间大大缩短。

而达到之前的准确率后，可以继续训练，并最终取得远超于 Inception V1 模型的性能——top-5 错误率 4.8%，已经优于人眼水平。因为 BN 某种意义上还起到了正则化的作用，所以可以减少或者取消 Dropout，简化网络结构。

12.3.1 动机：

文章作者认为，网络训练过程中参数不断改变导致后续每一层输入的分布也发生变化，而学习的过程又要使得每一层适应输入的分布，因此我们不得不降低学习率、小心的初始化，分布发生变化称为 internal covariate shift。

一般在训练网络时会对数据进行预处理，包括去掉均值、白化操作等，目的是为了加快训练：

去均值化：

首先，图像数据是高度相关的，假设其分布如下图 a 所示（简化为 2 维），由于初始化的时候，我们的参数一般都是 0 均值的，因此开始的拟合 y=Wx+b 基本过原点附近，如图 b 红色虚线，因此，网络需要经过多次学习才能逐步达到紫色实线的拟合，即收敛的比较慢。

如果对数据先去均值化，如图 c，显然可以加快学习，更进一步的，我们对数据在进行去相关操作，使得数据更加容易区分，这样又会加快训练，如图 d。

去均值是一种常用的数据处理方式，它是将各个特征值减去其均值，几何上的展现是可以将数据的中心移到坐标原点，python代码为 X=X-np.mean(X,axis=0) ，对于图像来说，就是对每个像素的值都要减去平均值。

这里写图片描述

PCA：

由于计算需要，需要实现进行前面所说的均值0化。
PCA要做的是将数据的主成分找出。流程如下：

计算协方差矩阵
求特征值和特征向量
坐标转换
选择主成分

首先我们需要求出数据各个特征之间的协方差矩阵，以得到他们之间的关联程度，Python 代码如下：

# Assume input data matrix X of size [N x D]
X -= np.mean(X, axis = 0) # zero-center the data (important)
cov = np.dot(X.T, X) / X.shape[0] # get the data covariance matrix，公式含义可按照协方差矩阵的定义得到

其中得到的矩阵中的第（i,j）个元素代表第i列和第j列的协方差，对角线代表方差。协方差矩阵是对称半正定矩阵可以进行 SVD 分解：

U,S,V = np.linalg.svd(cov)1

U 的列向量是特征向量， S 是对角阵其值为奇异值也是特征值的平方奇异值分解的直观展示：

这里写图片描述

详细介绍

我们可以用特征向量（正交且长度为1可以看做新坐标系的基）右乘X（相当于旋转坐标系）就可以得到新坐标下的无联系（正交）的特征成分：

Xrot = np.dot(X, U) # decorrelate the data1

注意上面使用的 np.linalg.svd(）已经将特征值按照大小排序了，这里仅需要取前几列就是取前几个主要成分了（实际使用中我们一般按照百分比取），代码：

Xrot_reduced = np.dot(X, U[:,:100]) # Xrot_reduced becomes [N x 100]

白化：

白化的方式有很多种，常用的有 PCA 白化，就是对数据进行 PCA 操作之后，再进行方差归一化，这样数据基本满足 0 均值、单位方差、弱相关性。

作者首先尝试了对每一层数据都是用白化操作，但分析认为这是不可取的，因为白化需要计算协方差矩阵、求逆等操作，计算量很大，此外，反向传播时，白化操作不一定可导，于是使用了 Normalization 的操作。

# whiten the data:
# divide by the eigenvalues (which are square roots of the singular values)
Xwhite = Xrot / np.sqrt(S + 1e-5)

但是白化因为将数据都处理到同一个范围内了，所以如果原始数据有原本影响不大的噪声，它原本小幅的噪声也会被放大到与全局相同的范围内了。

另外我们防止出现除以 0 的情况，在分母处多加了 0.00001，如果增大它会使得噪声减小。

白化之后，得到的是一个多元高斯分布。

上面两种处理的结果如下：

这里写图片描述

可以看出，经过PCA的去相关操作，将原始数据的坐标轴旋转，并且可以看出x方向的信息量比较大，如果只选择一个特征，那么久选横轴方向的特征，经过白化之后数据进入了相同的范围。

下面以处理之前提到过的 CIFAR-10 为例，看 PCA 和 Whitening 的作用：

这里写图片描述

左边是原始图片，每张图片都是一个 3072 维的一行向量，经过 PCA 之后选取 144 维最重要的特征（左2），将特征转化到原来的坐标系 U.transpose()[:144,:] 得到了降维之后的图形（左3），图形变模糊了，说明我们的主要信息都是低频信息，关于高低频的含义在下一段展示一下，图片模糊了但是主要成分都还在，最后一个图是白化之后再转换坐标系之后的结果。

1. CNN不用进行PCA和白化，只需要进行零均值化就好
2. 注意进行所有的预处理时训练集、验证集、测试集都要使用相同的处理方法，比如减去相同的均值。

12.3.2 对小批量进行统计特性的标准化

标准化 Normalization：

标准化是将矩阵X中的Dimensions都保持在相似的范围内，有两种实现方式：

先使得均值为 0，然后除以标准差，X=X / np.std(X, axis=0)
在数据不在同一范围，而且各个维度在同一范围内对算法比较重要时，可以将其最大最小值分别缩放为 1 和 -1，对于图像处理而言，因为一般数据都在 0~255 之间，所以不用再进行这一步了。

这里写图片描述

数据归一化的方法很简单，就是让数据具有0均值和单位方差：

这里写图片描述

但是作者又说如果简单的这么干，会降低层的表达能力。比如下图，在使用 sigmoid 激活函数的时候，如果把数据限制到0均值单位方差，那么相当于只使用了激活函数中近似线性的部分，这显然会降低模型表达能力。

这里写图片描述

因此，作者又为 BN 增加了 2 个参数，用来保持模型的表达能力，于是最后的输出为：

这里写图片描述

上述公式中用到了均值E和方差Var，需要注意的是理想情况下 E 和 Var 应该是针对整个数据集的，但显然这是不现实的。因此，作者做了简化，用一个 Batch 的均值和方差作为对整个数据集均值和方差的估计。

BN算法实现如下：

这里写图片描述

输入：输入数据

x_1...x_m

x1...xm（这些数据是准备进入激活函数的数据）

计算过程：

求数据均值
求数据方差
数据进行标准化
训练参数

\gamma , \beta

γ,β 5. 输出y通过

\gamma

γ 与

\beta

β 的线性变换得到新的值

正向传播的过程：通过可学习的

\gamma

γ 与

\beta

β 参数求出新的分布值

反向传播的过程：通过链式求导方式，求出

\gamma,\beta

γ,β 以及相关权值

这里写图片描述

12.3.3 BN 的意义：

解决的问题是梯度消失和梯度爆炸的问题

a. 关于梯度消失：

以 sigmoid 函数为例，sigmoid 函数使得输出在 [0,1] 之间：

这里写图片描述

事实上 x 到了一定大小，经过 sigmoid 函数的输出范围就很小了，如下图：

这里写图片描述

如果输入很大，其对应的斜率就很小，我们知道其斜率在反向传播中是权值学习速率，所以就会出现以下问题：

这里写图片描述

在深度网络中，如果网络的激活输出很大，那么其梯度就很小，学习速率就很慢，假设每层学习梯度都小于最大值 0.25，网络有 n 层，因为链式求导的原因，第一层的梯度小于 0.25 的 n 次方，所以学习速率就慢，对于最后一层只需对自身求导 1次，梯度就打，学习速率就快。

影响：在一个很大的深度网络中，浅层基本不学习，权值变化小，后面几层一直在学习，结果就是后面几层基本可以表示整个网络，失去了深度的意义。

b. 关于梯度爆炸：

根据链式求导法则：

第一层偏移量的梯度 = 激活层斜率1 x 权值1 x 激活层斜率2 x …激活层斜率(n-1) x 权值(n-1) x 激活层斜率n

假如激活层斜率均为最大值 0.25，所有层的权值为 100，这样梯度就会指数增加。

12.3.4 BN在CNN中的用法
这里写图片描述

首先解释对图像的卷积是如何使用BN层的，上图是CNN中的5x5的图像通过valid卷积得到的3x3的特征图，特征图里边的值作为 BN 的输入，也就是这 9 个数值通过 BN 计算并保存

\gamma,\beta

γ,β，通过

\gamma,\beta

γ,β 使得输出与输入不变。

假设输入的 batch_size=m，那就有 mx9 个数值，计算这 mx9 个数据的

\gamma,\beta

γ,β 并保存，这就是正向传播的过程，反向传播就是根据求得的

\gamma,\beta

γ,β 来计算梯度。

重要说明：

网络训练中以 batch_size 为最小单位不断迭代，很显然新的 batch_size 进入网络，就会有新的

\gamma,\beta

γ,β，因此在 BN 层中，共有 总图像数 / batch_size 组

\gamma,\beta

γ,β 被保存下来。 2. 图像卷积过程中，通常是使用多个卷积核，得到多张特征图，对于多个的卷积核需要保存多个

\gamma,\beta

γ,β。

这里写图片描述

输入：待进入激活函数的变量

输出：

对于 k 维的输入，假设每一维包含 m 个变量，所以需要 k 个循环，每个循环中按照上面所介绍的方法计算

\gamma,\beta

γ,β，这里的k维，在卷积网络中可以看做卷积核个数，如网络中的第 n 层有 64 个卷积核，就需要计算 64 次。（注意：在正向传播时，会使用

\gamma,\beta

γ,β 使得 BN 层输入与输出一样。） 2. 在反向传播时利用

\gamma,\beta

γ,β 求得梯度，从而改变训练权值（变量） 3. 通过不断迭代直到结束，求得关于不同层的

\gamma,\beta

γ,β，如果有 n 个 BN 层，每层根据 batch_size 决定有多少个变量，设定为 m，这里的 mini_batcher 指的是 特征图大小乘以 batch_size，即 m = 特征图大小 x batch_size，因此对于 batch_size 为 1，这里的 m 就是每层特征图的大小。 4. 不断遍历训练集中的图像，取出每个 batch_size 的

\gamma,\beta

γ,β，最后统计每层BN的

\gamma,\beta

γ,β 各自的和除以图像数量，得到平均值，并对其做无偏估计值作为每一层的E[x]与Var[x]。 5. 在预测的正向传播时，对测试数据求取

\gamma,\beta

γ,β，并使用该层的 E[x] 与 Var[x]，通过图中所表示的公式计算 BN 层的输出。

12.3.5 BN应该放在激活层之前还是之后

作者在文章中说应该把 BN 放在激活函数之前，这是因为 Wx+b 具有更加一致和非稀疏的分布。但是也有人做实验表明放在激活函数后面效果更好。这是实验链接，里面有很多有意思的对比实验：
github.com/ducha-aiki/…

12.3.6 实验

作者在文章中也做了很多实验对比，我这里就简单说明 2 个。

下图 a 说明，BN 可以加速训练。图 b 和 c 则分别展示了训练过程中输入数据分布的变化情况。

这里写图片描述

下表是一个实验结果的对比，需要注意的是在使用 BN 的过程中，作者发现 Sigmoid 激活函数比 Relu 效果要好。

这里写图片描述

12.4 GoogLeNet Inception V3

GoogLeNet 凭借其优秀的表现，得到了很多研究人员的学习和使用，因此 Google 团队又对其进行了进一步发掘改进，产生了升级版本的 GoogLeNet。这一节介绍的版本记为 V3，文章为：《Rethinking the Inception Architecture for Computer Vision》。

12.4.1 简介

2014 年以来，构建更深网络的同时逐渐成为主流，但是模型的变大也使得计算效率越来越低，这里文章试图找到不同方法来扩大网络的同时又尽可能的发挥计算性能。

首先，GoogLeNet V1 出现的同期，性能与之接近的大概只有 VGGNet 了，并且二者在图像分类之外的很多领域都得到了成功的应用。但是相比之下，GoogLeNet 的计算效率明显高于 VGGNet，大约只有 500 万参数，只相当于 Alexnet 的1/12(GoogLeNet的 caffemodel 大约 50M，VGGNet 的 caffemodel 则要超过 600M)。

GoogLeNet 的表现很好，但是，如果想要通过简单地放大 Inception 结构来构建更大的网络，则会立即提高计算消耗。此外，在 V1 版本中，文章也没给出有关构建 Inception 结构注意事项的清晰描述。因此，在文章中作者首先给出了一些已经被证明有效的用于放大网络的通用准则和优化方法。这些准则和方法适用但不局限于 Inception 结构。

12.4.2 一般情况的设计准则

下面的准则来源于大量的实验，因此包含一定的推测，但实际证明基本都是有效的。

1）避免表达瓶颈，特别是在网络靠前的地方

信息流前向传播过程中显然不能经过高度压缩的层，即表达瓶颈。从 input 到 output，feature map 的宽和高基本都会逐渐变小，但是不能一下子就变得很小。比如你上来就来个 kernel = 7, stride = 5 ,这样显然不合适。

另外输出的维度 channel，一般来说会逐渐增多 (每层的num_output)，否则网络会很难训练。（特征维度并不代表信息的多少，只是作为一种估计的手段）

这种情况一般发生在 pooling 层，字面意思是，pooling 后特征图变小了，但有用信息不能丢，不能因为网络的漏斗形结构而产生表达瓶颈，解决办法是作者提出了一种特征图缩小方法，更复杂的池化。

2）高维特征更容易处理

高维特征更加容易区分，会加快训练

3）可以在低维嵌入上进行空间汇聚而无需担心丢失很多信息

比如在进行3x3卷积之前，可以对输入先进行降维而不会产生严重的后果，假设信息可以被简单的压缩，那么训练就会加快。

4）平衡网络的深度和宽度

上述的这些并不能直接用来提高网络质量，而仅用来在大环境下作指导。

12.4.3 利用大尺度滤波器进行图像的卷积

大尺寸的卷积核可以带来更大的感受野，但也意味着更多的参数，比如 5x5 卷积核参数是 3x3 卷积核的 25/9=2.78 倍。为此，作者提出可以用 2 个连续的 3x3 卷积层 (stride=1) 组成的小网络来代替单个的5x5卷积层，(保持感受野范围的同时又减少了参数量)如下图：

这里写图片描述

问题：

这种代替会造成表达能力的下降吗？

实验证明该操作不会造成表达缺失

3x3 卷积之后还要再激活吗？

添加非线性激活之后会提高性能

从上面来看，大卷积核完全可以由一系列的 3x3 卷积核来替代，那能不能分解的更小一点呢。文章考虑了 nx1 卷积核。

如下图所示的取代 3x3 卷积：

这里写图片描述

于是，任意 nxn 的卷积都可以通过 1xn 卷积后接 nx1 卷积来替代。实际上，作者发现在网络的前期使用这种分解效果并不好，还有在中度大小的 feature map 上使用效果才会更好。（对于 mxm 大小的 feature map,建议 m 在 12 到 20 之间）。

总结如下图：

这里写图片描述

(1) 图 4 是 GoogLeNet V1中使用的 Inception 结构；

(2) 图 5 是用 3x3 卷积序列来代替大卷积核；

(3) 图 6 是用 nx1 卷积来代替大卷积核，这里设定 n=7 来应对 17x17 大小的 feature map。该结构被正式用在 GoogLeNet V2 中。即非对称个卷积核，其实类似于卷积运算中，二维分解为 1 维计算，提高了计算速度。

13、ResNet

ResNet 在 2015 年被提出，在 ImageNet 比赛 classification 任务上获得第一名，因为它“简单与实用”并存，之后很多方法都建立在 ResNet50 或者 ResNet101 的基础上完成的，检测，分割，识别等领域都纷纷使用 ResNet，Alpha zero 也使用了 ResNet，所以可见 ResNet 确实很好用。

训练神经网络的反向传播，导致很容易出现梯度消失。

对常规的网络（plain network，也称平原网络）直接堆叠很多层次，经对图像识别结果进行检验，训练集、测试集的误差结果如下图：

这里写图片描述

从上面两个图可以看出，在网络很深的时候（56 层相比 20 层），模型效果却越来越差了（误差率越高），并不是网络越深越好。

通过实验可以发现：随着网络层级的不断增加，模型精度不断得到提升，而当网络层级增加到一定的数目以后，训练精度和测试精度迅速下降，这说明当网络变得很深以后，深度网络就变得更加难以训练了。

下图是一个简单神经网络图，由输入层、隐含层、输出层构成：

这里写图片描述

回想一下神经网络反向传播的原理，先通过正向传播计算出结果output，然后与样本比较得出误差值Etotal

这里写图片描述

根据误差结果，利用著名的“链式法则”求偏导，使结果误差反向传播从而得出权重w调整的梯度。下图是输出结果到隐含层的反向传播过程（隐含层到输入层的反向传播过程也是类似）：

这里写图片描述

通过不断迭代，对参数矩阵进行不断调整后，使得输出结果的误差值更小，使输出结果与事实更加接近。

从上面的过程可以看出，神经网络在反向传播过程中要不断地传播梯度，而当网络层数加深时，梯度在传播过程中会逐渐消失（假如采用 Sigmoid 函数，对于幅度为 1 的信号，每向后传递一层，梯度就衰减为原来的 0.25，层数越多，衰减越厉害），导致无法对前面网络层的权重进行有效的调整。

那么，如何又能加深网络层数、又能解决梯度消失问题、又能提升模型精度呢？

13.1 ResNet的提出

前面描述了一个实验结果现象，在不断加神经网络的深度时，模型准确率会先上升然后达到饱和，再持续增加深度时则会导致准确率下降，示意图如下：

这里写图片描述

那么我们作这样一个假设：假设现有一个比较浅的网络（Shallow Net）已达到了饱和的准确率，这时在它后面再加上几个恒等映射层（Identity mapping，也即 y=x，输出等于输入），这样就增加了网络的深度，并且起码误差不会增加，也即更深的网络不应该带来训练集上误差的上升。而这里提到的使用恒等映射直接将前一层输出传到后面的思想，便是著名深度残差网络 ResNet 的灵感来源。

ResNet 引入了残差网络结构（residual network），通过这种残差网络结构，可以把网络层弄的很深（据说目前可以达到 1000 多层），并且最终的分类效果也非常好，残差网络的基本结构如下图所示，很明显，该图是带有跳跃结构的：

这里写图片描述

残差网络借鉴了高速网络的跨层连接的思想，但是对其进行了改进，残差项原本是带权值的，但 ResNet 用恒等映射代替了它。

假设：

神经网络输入：x
期望输出：H(x)，即 H(x) 是期望的复杂映射，如果要学习这样的模型，训练的难度会比较大。

此时，如果已经学习到较为饱和的准确率，或者发现下层的误差变大时，接下来的目标就转化为恒等映射的学习，也就是使得输入x近似于输出 H(x)，以保持在后面的层次中不会造成精度下降。

上图的残差网络中，通过捷径连接的方式直接将输入x传到输出作为初始结果，输出结果为 H(x)=F(x)+x，当 F(x)=0 时，H(x)=x，也就是恒等映射。于是，ResNet 相当于将学习目标改变了，不再是学习一个完整的输出，而是目标值H(X)和x的差值，也就是所谓的残差 F(x) := H(x)-x，因此，后面的训练目标就是要将残差结果逼近于 0，使到随着网络加深，准确率不下降。

学习的目标：目标值 H(x) 和输入 x 的差值，即 F(x):=H(x)-x，将残差逼近于 0，使得随着网络加深，准确率不下降。

13.2 ResNet的意义

这里写图片描述

图像是层次非常深的数据，所以要层次深的网络来进行特征提取，网络深度是很有意义的。

一般的卷积神经网络，输入图像 x，输出卷积后的特征 F(x)，一次性抽出所有的信息，梯度消失会出现，Res网络就说只学习残差即可。

第一条直接向下传递的网络：试图从 x 中直接学习残差 F(x)
第二条捷径网络：输入 x
整合：将残差和x相加，即 H(x)=F(x)+x，也就是所要求的映射 H(x)
好处：只有一条通路的反向传播，会做连乘导致梯度消失，但现在有两条路，会变成求和的形式，避免梯度消失。后面的层可以看见输入，不至于因为信息损失而失去学习能力。
如果连乘的方式会造成梯度消失的话，那么连加。传统的网络每次学习会学习 x->f(x) 的完整映射，那么 ResNet 只学习残差的映射，

随着网络的加深，出现了训练集准确率下降的现象，但是我们又可以确定这不是由过拟合造成的，因为过拟合的情况下，训练集应该准确率很高，所以作者针对这个问题提出了一种全新的网络，称为深度残差网络，它能够允许网络尽可能的假设，其中引入了一种全新的结构：

这里写图片描述

残差指什么：

ResNet 提出了两种 mapping：

其一：identity mapping，指的 “本身的线”，也就是公式中的

x，就是图中弯曲的曲线；

其二：residual mapping，指的是“差”，也就是

−

y-x

y−x，所以残差指的是

(

)

F(x)

F(x) 部分，也就是除过 identity mapping 之外的其余的线；

所以最后的输出为，

(

)

y=F(x)+x

为什么 ResNet 可以解决随着网络加深，准确率不下降的问题？

理论上，对于 “随着网络加深，准确率下降”的问题，Resnet 提供了两种选择方式，也就是 identity mapping 和 residual mapping，如果网络已经到达最优，继续加深网络，residual mapping 将被 push 为 0，只剩下 identity mapping，这样理论上网络一直处于最优状态了，网络的性能也就不会随着深度增加而降低了。

13.3 ResNet结构

传统的神经网络都是以层叠卷积层的方式提高网络深度，从而提高识别精度，但层叠过多的卷积层会出现一个问题，就是梯度消失，使得反向传播的过程中无法有效的将梯度更新到前面的网络层，导致前面的层的参数无法更新。

而 BN 和 ResNet 的 skip connection 就是为了解决这个问题，BN 通过规范化输入数据，改变数据的分布，在前向传播的过程中，防止梯度消失的问题，而 skip connection 则能在后传过程中更好地把梯度传到更浅的层次中。

问题：为什么加了一个捷径就可以把梯度传到浅层网络？

这和神经网络参数更新的过程密切相关，cs231n 2016 视频有很好的讲解。

前向传播：

首先 x 与 w1 相乘，得到 1
1 与 w2 相乘，得到 0.1
以此类推，如下面的 gif 图绿色数字表示

反向传播：

假设从下一层网络传回来的梯度为 1（最右边的数字），后向传播的梯度数值如下面 gif 图红色数字表示：

这里写图片描述

那么这里可以看到，本来从上一层传过来的梯度为1，经过这个 block 之后，得到的梯度已经变成了 0.0001 和 0.01，也就是说，梯度流过一个 blcok 之后，就已经下降了几个量级，传到前一层的梯度将会变得很小！

当权重很小的时候，前向传播之后到输出层的参数值会非常小，反向传播时依然要和小的权重值相乘，参数值只会越来越小，数量级下降的非常快。

这就是梯度弥散。假如模型的层数越深，这种梯度弥散的情况就更加严重，导致浅层部分的网络权重参数得不到很好的训练，这就是为什么在 Resnet 出现之前，CNN 网络都不超过二十几层的原因。

防止梯度消失的方法：

这里写图片描述

假如，我们在这个 block的旁边加了一条 “捷径”（如图 5 橙色箭头），也就是常说的 “skip connection”。假设左边的上一层输入为 x，虚线框的输出为 f(x)，上下两条路线输出的激活值相加为h(x)，即 h(x) = F(x) + x，得出的 h(x) 再输入到下一层。

当进行后向传播时，右边来自深层网络传回来的梯度为 1，经过一个加法门，橙色方向的梯度为 dh(x)/dF(x)=1，蓝色方向的梯度也为 1。这样，经过梯度传播后，现在传到前一层的梯度就变成了 [1, 0.0001, 0.01]，多了一个 “1”！正是由于多了这条捷径，来自深层的梯度能直接畅通无阻地通过，去到上一层，使得浅层的网络层参数等到有效的训练！

这个想法是何等的简约而伟大，不得不佩服作者的强大的思维能力！

ResNet网络：

这里写图片描述
直观理解：

这里写图片描述

如图，左边来了一辆装满了“梯度”商品的货车，来领商品的客人一般都要排队一个个拿才可以，如果排队的人太多，后面的人就没有了。于是这时候派了一个人走了“快捷通道”，到货车上领了一部分“梯度”，直接送给后面的人，这样后面排队的客人就能拿到更多的“梯度”。

它使用了一种连接方式叫做 “shortcut connection”，顾名思义，shortcut就是 “抄近道” 的意思，看下图我们就能大致理解：

这里写图片描述

图1 Shortcut Connection

这是文章里面的图，我们可以看到一个“弯弯的弧线“这个就是所谓的 “shortcut connection”，也是文中提到 identity mapping，这张图也诠释了 ResNet 的真谛，当然真正在使用的 ResNet 模块并不是这么单一，文章中就提出了两种方式：

这里写图片描述

图2 两种 ResNet 设计

这两种结构分别针对 ResNet34（左图）和 ResNet50/101/152（右图），一般称整个结构为一个 “building block”，其中右图为“bottleneck design”，目的就是为了降低参数数目，第一个 1x1 的卷积把 256 维的 channel 降到 64 维，然后在最后通过 1x1 卷积恢复，整体上用到参数数目 3x3x64x64 + 1x1x64x256 = 69632，而不使用 bottleneck 的话就是两个 3x3x256 的卷积，参数数目: 3x3x256x256x2 = 1179648，差了 16.94 倍。

对于常规 ResNet，可以用于 34 层或者更少的网络中，对于 Bottleneck Design 的 ResNet 通常用于更深的如 101 这样的网络中，目的是减少计算和参数量（实用目的）。

问题：图1中的 F(x)和 x 的 channel 个数不同怎么办，因为 F(x) 和 x 是按照 channel 维度相加的，channel 不同怎么相加呢？

解释：

针对 channel 个数是否相同，要分成两种情况考虑，如下图：

这里写图片描述

图3 两种 Shortcut Connection 方式

如图 3 所示，我们可以清楚的实线和虚线两种连接方式：

实线的的 Connection 部分 (”第一个粉色矩形和第三个粉色矩形“) 都是 3x3x64 的特征图，他们的 channel 个数一致，所以采用计算方式：

(

)

y=F(x)+x

虚线的 Connection 部分(”第一个绿色矩形和第三个绿色矩形“)分别是 3x3x64 和 3x3x128 的特征图，他们的 channel 个数不同(64和128)，所以采用计算方式：

(

)

y=F(x)+Wx

y=F(x)+Wx，其中W是卷积操作，用来调整x的channel维度的；

两个实例：

这里写图片描述

图4 两种 Shortcut Connection 方式实例（左图 channel 一致，右图 channel 不一样）

13.4 ResNet50 和 ResNet101

这里把 ResNet50 和 ResNet101 特别提出，主要因为它们的出镜率很高，所以需要做特别的说明。给出了它们具体的结构：

这里写图片描述

表2，Resnet 不同的结构

首先我们看一下表 2，上面一共提出了 5 中深度的 ResNet，分别是 18，34，50，101 和 152，首先看表 2 最左侧，我们发现所有的网络都分成 5 部分，分别是：conv1，conv2_x，conv3_x，conv4_x，conv5_x，之后的其他论文也会专门用这个称呼指代ResNet50 或者 101 的每部分。

拿 101-layer 那列，我们先看看 101-layer 是不是真的是 101层网络，首先有个输入 7x7x64 的卷积，然后经过 3 + 4 + 23 + 3 = 33 个 building block，每个 block 为 3 层，所以有 33 x 3 = 99 层，最后有个 fc 层(用于分类)，所以 1 + 99 + 1 = 101 层，确实有101 层网络；

注：101层网络仅仅指卷积或者全连接层，而激活层或者Pooling层并没有计算在内；

这里我们关注 50-layer 和 101-layer 这两列，可以发现，它们唯一的不同在于 conv4_x，ResNet50 有 6 个 block，而 ResNet101 有 23 个 block，差了 17 个 block，也就是 17 x 3 = 51 层。

13.5 基于 ResNet101 的 Faster RCNN

文章中把 ResNet101 应用在 Faster RCNN 上取得了更好的结果，结果如下：

这里写图片描述

表3，Resnet101 Faster RCNN 在 Pascal VOC07/12 以及 COCO 上的结果

问题：Faster RCNN 中 RPN 和 Fast RCNN 的共享特征图用的是 conv5_x 的输出么？

针对这个问题我们看看实际的基于 ResNet101 的 Faster RCNN 的结构图：

这里写图片描述

图5 基于 ResNet101 的 Faster RCNN

图 5 展示了整个 Faster RCNN 的架构，其中蓝色的部分为 ResNet101，可以发现 conv4_x 的最后的输出为 RPN 和 RoI Pooling 共享的部分，而 conv5_x (共9层网络)都作用于 RoI Pooling 之后的一堆特征图 (14 x 14 x 1024)，特征图的大小维度也刚好符合原本的 ResNet101 中 conv5_x 的输入；

最后一定要记得最后要接一个 average pooling，得到 2048 维特征，分别用于分类和框回归。

14、区域 CNN：R-CNN(2013年)、Fast R-CNN(2015年)、Faster R-CNN(2015年)

一些人可能会认为，R-CNN 的出现比此前任何关于新的网络架构的论文都有影响力。第一篇关于 R-CNN 的论文被引用了超过 1600 次。Ross Girshick 和他在 UC Berkeley 的团队在机器视觉上取得了最有影响力的进步。正如他们的文章所写， Fast R-CNN 和 Faster R-CNN 能够让模型变得更快，更好地适应现代的物体识别任务。

R-CNN 的目标是解决物体识别的难题。在获得特定的一张图像后，我们希望能够绘制图像中所有物体的边缘。这一过程可以分为两个组成部分，一个是区域建议，另一个是分类。

论文的作者强调，任何分类不可知区域的建议方法都应该适用。Selective Search 专用于 RCNN。Selective Search 的作用是聚合 2000 个不同的区域，这些区域有最高的可能性会包含一个物体。在我们设计出一系列的区域建议之后，这些建议被汇合到一个图像大小的区域，能被填入到经过训练的 CNN (论文中的例子是 AlexNet)，能为每一个区域提取出一个对应的特征。这个向量随后被用于作为一个线性 SVM 的输入，SVM 经过了每一种类型和输出分类训练。向量还可以被填入到一个有边界的回归区域，获得最精准的一致性。非极值压抑后被用于压制边界区域，这些区域相互之间有很大的重复。

这里写图片描述

Fast R-CNN：

原始模型得到了改进，主要有三个原因：训练需要多个步骤，这在计算上成本过高，而且速度很慢。Fast R-CNN 通过从根本上在不同的建议中分析卷积层的计算，同时打乱生成区域建议的顺利以及运行 CNN，能够快速地解决问题。

这里写图片描述

Faster R-CNN

Faster R-CNN 的工作是克服 R-CNN和 Fast R-CNN 所展示出来的，在训练管道上的复杂性。作者在最后一个卷积层上引入了一个区域建议网络 (RPN)。这一网络能够只看最后一层的特征就产出区域建议。从这一层面上来说，相同的 R-CNN 管道可用。
这里写图片描述

重要性：

能够识别出一张图像中的某一个物体是一方面，但是，能够识别物体的精确位置对于计算机知识来说是一个巨大的飞跃。更快的 R-CNN 已经成为今天标准的物体识别程序。

15、生成式对抗网络

按照 Yann LeCun 的说法，生成对抗网络可能就是深度学习下一个大突破。假设有两个模型，一个生成模型，一个判别模型。判别模型的任务是决定某幅图像是真实的(来自数据库)，还是机器生成的，而生成模型的任务则是生成能够骗过判别模型的图像。这两个模型彼此就形成了“对抗”，发展下去最终会达到一个平衡，生成器生成的图像与真实的图像没有区别，判别器无法区分两者。

这里写图片描述

左边一栏是数据库里的图像，也即真实的图像，右边一栏是机器生成的图像，虽然肉眼看上去基本一样，但在 CNN 看起来却十分不同。

为什么重要?

听上去很简单，然而这是只有在理解了 “数据内在表征” 之后才能建立的模型，你能够训练网络理解真实图像和机器生成的图像之间的区别。因此，这个模型也可以被用于 CNN 中做特征提取。此外，你还能用生成对抗模型制作以假乱真的图片。

16、深度学习在计算机视觉上的应用

计算机视觉中比较成功的深度学习的应用，包括人脸识别，图像问答，物体检测，物体跟踪。

人脸识别：

这里说人脸识别中的人脸比对，即得到一张人脸，与数据库里的人脸进行比对；或同时给两张人脸，判断是不是同一个人。

这方面比较超前的是汤晓鸥教授，他们提出的 DeepID 算法在 LWF 上做得比较好。他们也是用卷积神经网络，但在做比对时，两张人脸分别提取了不同位置特征，然后再进行互相比对，得到最后的比对结果。最新的 DeepID-3 算法，在 LWF 达到了 99.53% 准确度，与肉眼识别结果相差无几。

图片问答问题：

这是 2014 年左右兴起的课题，即给张图片同时问个问题，然后让计算机回答。比如有一个办公室靠海的图片，然后问“桌子后面有什么”，神经网络输出应该是“椅子和窗户”。
这里写图片描述

这一应用引入了 LSTM 网络，这是一个专门设计出来具有一定记忆能力的神经单元。特点是，会把某一个时刻的输出当作下一个时刻的输入。可以认为它比较适合语言等，有时间序列关系的场景。因为我们在读一篇文章和句子的时候，对句子后面的理解是基于前面对词语的记忆。

图像问答问题是基于卷积神经网络和 LSTM 单元的结合，来实现图像问答。LSTM 输出就应该是想要的答案，而输入的就是上一个时刻的输入，以及图像的特征，及问句的每个词语。

物体检测问题：

① Region CNN

深度学习在物体检测方面也取得了非常好的成果。2014 年的 Region CNN 算法，基本思想是首先用一个非深度的方法，在图像中提取可能是物体的图形块，然后深度学习算法根据这些图像块，判断属性和一个具体物体的位置。

这里写图片描述

为什么要用非深度的方法先提取可能的图像块？因为在做物体检测的时候，如果你用扫描窗的方法进行物体监测，要考虑到扫描窗大小的不一样，长宽比和位置不一样，如果每一个图像块都要过一遍深度网络的话，这种时间是你无法接受的。

所以用了一个折中的方法，叫 Selective Search。先把完全不可能是物体的图像块去除，只剩2000左右的图像块放到深度网络里面判断。那么取得的成绩是 A P是 58.5，比以往几乎翻了一倍。有一点不尽如人意的是，region CNN 的速度非常慢，需要 10 到 45 秒处理一张图片。

② Faster R-CNN 方法

Faster R-CNN方法，一个超级加速版 R-CNN 方法。它的速度达到了每秒七帧，即一秒钟可以处理七张图片。技巧在于，不是用图像块来判断是物体还是背景，而把整张图像一起扔进深度网络里，让深度网络自行判断哪里有物体，物体的方块在哪里，种类是什么？

经过深度网络运算的次数从原来的 2000 次降到一次，速度大大提高了。

Faster R-CNN 提出了让深度学习自己生成可能的物体块，再用同样深度网络来判断物体块是否是背景？同时进行分类，还要把边界和给估计出来。

Faster R-CNN 可以做到又快又好，在 VOC2007 上检测 AP 达到 73.2 ，速度也提高了两三百倍。

③ YOLO

YOLO 网络，也是进行物体检测，最快达到每秒钟 155 帧，达到了完全实时。它让一整张图像进入到神经网络，让神经网络自己判断这物体可能在哪里，可能是什么。但它缩减了可能图像块的个数，从原来 Faster R-CNN 的 2000 多个缩减缩减到了 98 个。

这里写图片描述

同时取消了 Faster R-CNN 里面的 RPN 结构，代替 Selective Search 结构。YOLO 里面没有 RPN 这一步，而是直接预测物体的种类和位置。

YOLO 的代价就是精度下降，在 155 帧的速度下精度只有 52.7，45 帧每秒时的精度是 63.4。

④ SSD
这里写图片描述

它是 YOLO 的超级改进版，吸取了 YOLO 的精度下降的教训，同时保留速度快的特点。它能达到58帧每秒，精度有 72.1。速度超过 Faster R-CNN 有 8 倍，但达到类似的精度。

物体跟踪

所谓跟踪，就是在视频里面第一帧时锁定感兴趣的物体，让计算机跟着走，不管怎么旋转晃动，甚至躲在树丛后面也要跟踪。

这里写图片描述

深度学习对跟踪问题有很显著的效果。是第一在线用深度学习进行跟踪的文章，当时超过了其它所有的浅层算法。

ICCV 2015上面，马超提出的 Hierarchical Convolutional Feature 算法，在数据上达到最新的记录。它不是在线更新一个深度学习网络，而是用一个大网络进行预训练，然后让大网络知道什么是物体什么不是物体。

将大网络放在跟踪视频上面，然后再分析网络在视频上产生的不同特征，用比较成熟的浅层跟踪算法来进行跟踪，这样利用了深度学习特征学习比较好的好处，同时又利用了浅层方法速度较快的优点。效果是每秒钟10帧，同时精度破了记录。

最新的跟踪成果是基于 Hierarchical Convolutional Feature，由一个韩国的科研组提出的 MDnet。它集合了前面两种深度算法的集大成，首先离线的时候有学习，学习的不是一般的物体检测，也不是ImageNet，学习的是跟踪视频，然后在学习视频结束后，在真正在使用网络的时候更新网络的一部分。这样既在离线的时候得到了大量的训练，在线的时候又能够很灵活改变自己的网络。

基于嵌入式系统的深度学习

回到 ADAS 问题（慧眼科技的主业），它完全可以用深度学习算法，但对硬件平台有比较高的要求。在汽车上不太可能把一台电脑放上去，因为功率是个问题，很难被市场所接受。

现在的深度学习计算主要是在云端进行，前端拍摄照片，传给后端的云平台处理。但对于 ADAS 而言，无法接受长时间的数据传输的，或许发生事故后，云端的数据还没传回来。

那是否可以考虑 NVIDIA 推出的嵌入式平台？NVIDIA 推出的嵌入式平台，其运算能力远远强过了所有主流的嵌入式平台，运算能力接近主流的顶级 CPU，如台式机的 i7。那么慧眼科技在做工作就是要使得深度学习算法，在嵌入式平台有限的资源情况下能够达到实时效果，而且精度几乎没有减少。

具体做法是，首先对网络进行缩减，可能是对网络的结构缩减，由于识别场景不同，也要进行相应的功能性缩减；另外要用最快的深度检测算法，结合最快的深度跟踪算法，同时自己研发出一些场景分析算法。三者结合在一起，目的是减少运算量，减少检测空间的大小。在这种情况下，在有限资源上实现了使用深度学习算法，但精度减少的非常少。

17、深度有监督学习在计算机视觉领域的进展

17.1 图像分类

自从 Alex 和他的导师 Hinton（深度学习鼻祖）在 2012 年的 ImageNet 大规模图像识别竞赛（ILSVRC2012）中以超过第二名 10 个百分点的成绩 (83.6% 的 Top5 精度) 碾压第二名（74.2%，使用传统的计算机视觉方法）后，深度学习真正开始火热，卷积神经网络（CNN）开始成为家喻户晓的名字，从 12 年的 AlexNet（83.6%），到 2013 年 ImageNet 大规模图像识别竞赛冠军的 88.8%，再到 2014年 VGG 的 92.7% 和同年的 GoogLeNet 的 93.3%，终于，到了 2015 年，在 1000 类的图像识别中，微软提出的残差网（ResNet）以 96.43% 的 Top5 正确率，达到了超过人类的水平（人类的正确率也只有 94.9%）.

Top5 精度是指在给出一张图片，模型给出 5 个最有可能的标签，只要在预测的 5 个结果中包含正确标签，即为正确

这里写图片描述

17.2 图像检测（Image Dection）

伴随着图像分类任务，还有另外一个更加有挑战的任务–图像检测，图像检测是指在分类图像的同时把物体用矩形框给圈起来。从 14 年到 16 年，先后涌现出 R-CNN ,Fast R-CNN, Faster R-CNN, YOLO, SSD 等知名框架，其检测平均精度（mAP），在计算机视觉一个知名数据集上 PASCAL VOC 上的检测平均精度（mAP），也从 R-CNN 的 53.3%，到 Fast RCNN的 68.4%，再到 Faster R-CNN 的 75.9%，最新实验显示，Faster RCNN 结合残差网（Resnet-101），其检测精度可以达到 83.8%。深度学习检测速度也越来越快，从最初的 RCNN 模型，处理一张图片要用 2 秒多，到Faster RCNN的198毫秒/张，再到 YOLO 的 155 帧/秒（其缺陷是精度较低，只有 52.7%），最后出来了精度和速度都较高的 SSD，精度 75.1%，速度 23 帧/秒。
这里写图片描述

17.3 图像分割（Semantic Segmentation）

图像分割也是一项有意思的研究领域，它的目的是把图像中各种不同物体给用不同颜色分割出来，如下图所示，其平均精度（mIoU，即预测区域和实际区域交集除以预测区域和实际区域的并集），也从最开始的 FCN 模型（图像语义分割全连接网络，该论文获得计算机视觉顶会 CVPR2015 的最佳论文的）的 62.2%，到 DeepLab 框架的 72.7%，再到牛津大学的 CRF as RNN的 74.7%。该领域是一个仍在进展的领域，仍旧有很大的进步空间。

这里写图片描述

17.4 图像标注–看图说话（Image Captioning）

图像标注是一项引人注目的研究领域，它的研究目的是给出一张图片，你给我用一段文字描述它，如图中所示，图片中第一个图，程序自动给出的描述是 “一个人在尘土飞扬的土路上骑摩托车”，第二个图片是“两只狗在草地上玩耍”。由于该研究巨大的商业价值（例如图片搜索），近几年，工业界的百度，谷歌和微软以及学术界的加大伯克利，深度学习研究重地多伦多大学都在做相应的研究。

这里写图片描述

17.5 图像生成–文字转图像（Image Generator）

图片标注任务本来是一个半圆，既然我们可以从图片产生描述文字，那么我们也能从文字来生成图片。如图6所示，第一列“一架大客机在蓝天飞翔”，模型自动根据文字生成了 16 张图片，第三列比较有意思，“一群大象在干燥草地行走”（这个有点违背常识，因为大象一般在雨林，不会在干燥草地上行走），模型也相应的生成了对应图片，虽然生成的质量还不算太好，但也已经中规中矩。

这里写图片描述

18、强化学习（Reinforcement Learning）

在监督学习任务中，我们都是给定样本一个固定标签，然后去训练模型，可是，在真实环境中，我们很难给出所有样本的标签，这时候，强化学习就派上了用场。简单来说，我们给定一些奖励或惩罚，强化学习就是让模型自己去试错，模型自己去优化怎么才能得到更多的分数。2016 年大火的 AlphaGo 就是利用了强化学习去训练，它在不断的自我试错和博弈中掌握了最优的策略。利用强化学习去玩 flyppy bird，已经能够玩到几万分了。

这里写图片描述

强化学习在机器人领域和自动驾驶领域有极大的应用价值，当前 arxiv 上基本上每隔几天就会有相应的论文出现。机器人去学习试错来学习最优的表现，这或许是人工智能进化的最优途径，估计也是通向强人工智能的必经之路。

19、YOLO 系列

YOLO 系列中既有 anchor-free 的结构，也有 anchor-based 的结构

19.1 YOLOv1

详细介绍见本文

论文：You Only Look Once: Unified, Real-Time Object Detection

代码：pjreddie.com/darknet/yol…

作者：Joseph Redmon

时间：2016.05

YOLOv1 提出将目标检测任务定义为单个回归问题，直接从输入图像上得到框的位置和类别。将整个图像空间分割为固定数量的网格单元（例如，使用7×7网格）。每个 cell 都被认为是检测一个或多个物体存在的建议。

在最初的实现中，认为每个 cell 包含两个对象的中心。对每个 cell 进行预测：预测该位置是否有对象、边界框坐标和大小（宽度和高度）以及对象的类别。整个框架是一个单一的网络，它省略了建议生成步骤，可以端到端优化。

YOLO 也面临着一些挑战：

它在给定位置只能检测到两个对象，这使得很难检测到小对象和拥挤的对象[40]
只有最后一个特征图用于预测，不适合多尺度、多纵横比的目标预测。

YOLOv1 结构介绍：

输入：将图像分为

S\times S

S×S 的网格（7x7），如果目标的中心点落入了对应网格，则由该网格负责预测该目标

每个网格预测 2 个 bbox 和每个 bbox 中包含目标的概率，定义 confidence 为

(

)

Pr(object) \times IoU_{pred}^{truth}

Pr(object)×IoUpredtruth

如果某个网格没有目标落入，则对应 confidence 为 0，否则期望 confidence score = IoU
每个 bbox 的预测包含五个参数：

(

)

(x, y, w, h, confidence)

(x,y,w,h,confidence)，

(

)

(x, y)

(x,y) 为框的中心点和网格边界的距离（相对当前网格的偏移值），

(

)

(w, h)

(w,h) 是宽高和全图比（相当于归一化了），confidence代表了所预测的box中含有 object 的置信度和这个 box 预测的有多准两重信息。

每个网格也会预测类别

(

∣

)

Pr(Class_i|Object)

Pr(Classi∣Object)，也就是每个框会预测其对应类别。

测试时，对每个框预测的类别如下，该类别包含了这个 bbox 中该类别的概率和位置匹配的准确性：

(

∣

)

∗

(

)

∗

(

)

∗

Pr(class_i|object)*Pr(Object)*IoU_{pred}^{truth}=Pr(Class_i)*IoU_{pred}^{truth}

Pr(classi∣object)∗Pr(Object)∗IoUpredtruth=Pr(Classi)∗IoUpredtruth

在 PASCAL VOC 测试时，作者使用 S=7，B=2，C=20，最终得到 7x7x30 的向量

为什么每个网格输出 30 维向量：

30 维向量 = 20 个目标的类别概率（VOC 类别） + 2 个 bounding box x4 个坐标 + 2 个 bounding box 包含目标的置信度 confidence（前、背景）

在这里插入图片描述

网络结构：

标准结构：24 conv layers + 2 fully connected layers
Fast 结构：9 conv layers + 2 fully connected layers
输出：7x7x30 tensor

训练：

输入 448x448 的图像
输出每个网格中的每个框的

(

)

(x, y, w, h, confidence)

(x,y,w,h,confidence)

虽然每个网格中可能预测多个 bbox，在训练阶段，只期望对每个目标预测一个框，故此处指保留和 gt 的 IoU 最大的框。

推理：

在每个图像中预测 98 个bbox（49 个网格，每个网格预测两个框，保留 IoU 最大的那个）
每个网格会预测两个 bbox，通过 NMS 后，会保留一个 bbox

如何进行 NMS：

因为我们对一个网格要预测两个bbox，所以最后我们能得到个 7x7x2=98 个bbox。

首先，将这 98 个 bbox 中置信度低的框去掉，然后再根据置信度对剩下的bbox排序，使用 NMS 算法，把重复度高的框的置信度设为 0。

对于留下的框，再根据分类概率得到它们的类别，这里注意得到的框的大小都是相对于原图大小的，都是 0~1 之间的值，所以输出的时候还需要还原，才能得到真实的bbox的尺寸大小。

YOLO v1 定位错误较多，定位的错误高于其他所有错误的总和
Fast RCNN 定位错误的很少，但有很多背景误识别，13.6% 的检测结果是假正，即不包含任何目标，约是 YOLO v1 背景误识别的 3 倍。

优势如下：

YOLOv1 很快！由于不需要复杂的 pipeline，在 Titan X GPU 上能达到 45fps，能够实时处理视频流，且准确率是当时实时系统的 2 倍。
YOLOv1 在推理的时候在全图上进行，在训练和测试时都将全图看做一个整体，没有 RPN 等操作，比 Fast R-CNN 对背景的误检少了一半（Fast RCNN 由于无法看到全局的信息，所有很多背景的误检）。
YOLOv1 能够学习到目标更泛化的特征。
YOLOv1 虽然比当时 SOTA 的方法效果差些，但速度很快。

YOLO v1 的不足：

YOLO v1 在每个网格中预测两个框，并且属于同一个类别，这种空间约束限制了对距离近的目标的预测，会导致漏检，如多个小目标共现的区域
YOLO v1 模型是从训练数据中学习到的目标纵横比，所以难以泛化到少见的纵横比目标上，导致边界不准。
YOLO v1 的 loss 函数将大目标和小目标同等对待，大目标的小错误是可以容忍的，但小目标的小错误对 IoU 影响较大，会导致对小目标定位不准
使用全连接层，参数量巨大，而且也因此在检测时，YOLO 训练模型只支持与训练图像相同的输入分辨率。
一个网格只能预测一个物体。
anchor-free的方法没有anchor-based的准确。

19.2 YOLOv2

详细介绍见本文

论文：Yolo9000: Better, faster, stronger

代码：github.com/pjreddie/da…

出处：CVPR2017

作者：Joseph Redmon

时间：2016.12

YOLOv1 有很多不足，其中最主要的两点在于：

定位不准
Recall 低

所以 YOLOv2 也主要在提高这两个问题上下功夫。但 YOLOv2 没有提高模型大小，同时速度更快了，主要从以下方面来让网络效果更好

即：更好、更快、更强三方面来进行优化

1、更好

1、Batch Normalization：在 YOLOv1 的所有卷积层后面加 BN，提升了 2mAP
2、High Resolution Classifier：YOLOv1 使用 224x224 大小预训练，YOLOv2 提升到了 448x448 大小，能帮助网络在大分辨率输入上更好提取特征
3、回归使用了 anchor 来预测框。输入图像大小 416x416（为了保证奇数大小特征图），下采样 32 倍，得到 13x13 大小特征图，每张图上能预测的目标从 98 变成了 1k 多，也提出了objectness，预测每个 anchor 和 gt 的 IoU，和该 anchor 是目标的概率无 anchor 时 mAP=69.5，recall=81%，有 anchor 后，mAP=69.2，recall=88%。提升了 recall 后，表示模型有了更大的提升空间。
4、使用了聚类的方法来选择 anchor 的尺度，避免了手动选择需要调参，在训练集上使用了 k-means 来自动选择最优的值。由于欧氏距离对尺寸很敏感，所以作者使用

(

)

−

(

)

d(box, centroid) = 1-IoU(box, centroid)

d(box,centroid)=1−IoU(box,centroid) 的方式来度量距离。 5 种形心的聚类方法得到的框的效果和 9 种 anchor box 效果类似。使用 9 种形心的聚类方法能够得到更高的 IoU。

5、多尺度预测，YOLOv2 在 13x13 的特征图上预测，但得益于大特征图的预训练，这样的大小也也足够大目标的预测了。但同时也在 26x26 大小的特征图上也引出了分支，得到了 1% 的性能提升。
6、Multi-scale Training
- YOLOv1 中使用大小为 448x448 的输入，YOLOv2 中由于要添加 anchor，所以改成了 416x416，但为了对不同大小的目标更加鲁棒，所以 YOLOv2 使用了多尺度训练。
- 多尺度训练的模式：在每 10 个 epoch 随机选择训练的尺度，由于最后下采样 32 倍，所以作者选择了 32 的倍数：{320, 352, …, 608}，最小的为 320，最大的为 608。
- 这种机制迫使网络学习跨各种输入维度进行良好的预测。这意味着同一个网络可以在不同的分辨率下预测检测结果。网络在较小的尺寸下运行速度更快，因此 YOLOv2 可以轻松地在速度和精度之间进行权衡。
- 在低分辨率时，YOLOv2 是一种耗费小而相当精确的检测器，288x288 大小时，可以达到 90 FPS，且 mAP 和 Fast RCNN 类似。
- 在高分辨率时，YOLOv2 在 VOC2007 上达到了 SOTA的 78.6 mAP，且接近实时速度。

2、更快

YOLOv2 中提出了一个新的分类模型，Darknet-19，共 19 层卷积层，5 层 maxpooling，结构见表 6

3、更强

将 coco 和 ImageNet 联合训练，让网络从分类数据中学到更多的类别，从检测数据中学到更多的位置信息

19.3 YOLOv3

详细介绍见本文

论文： YOLOv3: An Incremental Improvement

代码：github.com/pjreddie/da…

作者：Joseph Redmon

时间：2018.08

由于 YOLO 系列对小目标的检测效果一直不太好，所以 YOLOv3 主要是网络结构的改进，使其更适合小目标检测；

YOLOv3 提出了 objectness score，使用 logistic 回归的方法来对每个框预测 objectness score：

1：当一个先验框和 gt 的重合率大于其他先验框时，objectness score = 1
-1：当一个先验框的 IoU 不是最大，但大于阈值时（0.5），则 objectness score = -1，不参与训练

YOLOv3 在 3 个尺度上进行框的预测，最后输出三个信息：bbox、objectness、class

在 COCO 数据集中，就会在每个尺度上输出：

[

∗

(

)

]

N\times B \times [3*(4+1+80)]

N×B×[3∗(4+1+80)] 偏移信息

1 个 objectness
80 个类别预测

预测要点：

使用 k-means 距离的方法来确定先验 bbox，9 个形心和 3 个尺度，然后使用尺度来将这些簇分开
COCO 上的 9 个簇分别为：(10x13), (16x30),(33x23), (30x61), (62x45), (59x119), (116x90), (156x198), (373x326)。

在 YOLOv2 中使用的是 Darknet-19，YOLOv3 使用 Darknet-53。

YOLOv3 的 APs 指标表现很好，但在大中型目标上效果较差，需要继续研究

19.4 YOLOv4

详细介绍见本文

论文：YOLOv4: Optimal speed and accuracy of object detection

代码：github.com/AlexeyAB/da…

作者：AlexeyAB

时间：2020.08

致力于设计一个快速的检测器，称为 YOLOv4，其结果如图 1 所示，贡献点如下：

设计了一个又快又好的检测器
验证了很多 Bag of Freebies 和 Bag of Specials 方法的效果
证明了现有的 SOTA 的方法可以更有效并且在单个 GPU 上训练

YOLOv4 将目标检测器分为了 4 个部分：

Input：Image、Patches、Image Pyramid
Backbone：VGG-16、ResNet、EfficientNet 等
Neck：
- Additional blocks：SPP、ASPP、RFB、SAM 等
- Path-aggregation blocks：FPN、PAN、NAS-FPN、ASFF 等
Heads：
- Dense Prediction（one-stage）：
  - RPN、SSD、YOLO、RetinaNet（anchor based）
  - CornerNet、CenterNet、FCOS（anchor free）
- Sparse Prediction（two-stage)：
  - Faster RCNN、R-FCN、Mask RCNN（anchor based）
  - RepPoints（anchor free）

YOLOv4 由以下三个部分组成，使用了很多 BoF 和 BoS：

Backbone：CSPDarknet53
Neck：SPP, PAN
Head：YOLOv3

使用的策略：

Backbone：
- BoF: CutMix and Mosaic data augmentation, DropBlock regularization, Class label smoothing
- BoS: Mish activation, Cross-stage partial connections (CSP), Multiinput weighted residual connections (MiWRC)
detector：
- BoF: CIoU-loss, CmBN, DropBlock regularization, Mosaic data augmentation, Self-Adversarial Training, Eliminate grid sensitivity, Using multiple anchors for a single ground truth, Cosine annealing scheduler [52], Optimal hyperparameters, Random training shapes
- BoS: Mish activation, SPP-block, SAM-block, PAN path-aggregation block, DIoU-NMS

19.5 Scaled-YOLOv4

详细介绍见本文

论文：Scaled-YOLOv4: Scaling Cross Stage Partial Network

代码：github.com/WongKinYiu/…

作者：Chien-Yao Wang、Alexey AB

出处：CVPR2021

时间：2021.02

作者将 YOLOv4 经过尺度缩放，分别适用于：general GPU、low-end GPU、high-end GPU

YOLOv4 是为在 general GPU 上运行的实时目标检测网络，作者又重新设计了一下，得到更好的 speed/accuracy trade-off 网络 YOLOv4-CSP

Backbone：

CSPDarknet53 的设计， cross-stage 的下采样卷积的计算是没有包含在残差块中的，故可以推理出 CSPDarknet 的计算量为

(

)

whb^2(9/4+3/4+5k/2)

whb2(9/4+3/4+5k/2)，所以 CSPDarknet stage 在 k>1 的时候的计算量是优于 Darknet 的，CSPDarknet53 的每个 stage 的残差层分别为 1-2-8-8-4，为了得到更好的 speed/accuracy trade-off，将 CSP 的第一个 stage 转换成原始的 Darknet 残差层。

Neck：

为了进一步降低计算量，也把 YOLOv4 中的 PAN 进一步 CSP-ize，PAN 结构的计算过程如图 2a 所示，它主要是整合来自不同特征金字塔的特征，然后经过两组反向 Darknet 残差层（没有 shortcut 连接），CSP-ization 之后的计算过程如图 2b 所示，降低了 40% 的计算量。

SPP：

SPP 模块也被嵌入 CSPPAN 的第一个 group 的中间位置

19.6 YOLOv5

详细介绍见本文

论文：暂无

代码：github.com/ultralytics…

官方介绍：docs.ultralytics.com/

出处：ultralytics 公司

时间：2020.05

YOLOv5 是基于 YOLOv3 改进而来，体积小，YOLOv5s 的权重文件为27MB。

YOLOv4（Darknet架构）的权重文件为 244MB。YOLOv5 比 YOLOv4 小近 90％。这意味着YOLOv5 可以更轻松地部署到嵌入式设备。

此外，因为 YOLOv5 是在 PyTorch 中实现的，所以它受益于已建立的 PyTorch 生态系统

YOLOv5 还可以轻松地编译为 ONNX 和 CoreML，因此这也使得部署到移动设备的过程更加简单。

19.7 YOLOv6

详细介绍见本文

论文：YOLOv6: A Single-Stage Object Detection Framework for Industrial
Applications

代码：github.com/meituan/YOL…

官方博文：blog.csdn.net/MeituanTech…

作者：美团

时间：2022.09

YOLO 系列算法回顾：

YOLOv1-v3，也是最初的 one-stage 检测器 YOLO 系列的开创者 Joseph Redmon 提出的，为后面的改进方法打了很好的基石
YOLOv4 将检测框架结构划分为 3 个部分：backbone、neck、head，然后使用了很多策略来设计了一个适合在单 GPU 上训练的网络结构
YOLOv5、YOLOX、PPYOLO、YOLOv7 都是为部署做了相关的工作，通过模型缩放的形式来适应于不同的场景

YOLOv6 主要做的工作如下：

设计了对硬件友好的 backbone 和 neck：设计了更高效的 Backbone 和 Neck ：基于 RepVGG style[4] 设计了可重参数化、更高效的骨干网络 EfficientRep Backbone 和 Rep-PAN Neck。
有效的进行了 head 解耦：在维持精度的同时，进一步降低了一般解耦头带来的额外延时开销
在训练策略上，采用Anchor-free 无锚范式，同时辅以 TAL（YOLOv6 第一版使用的 SimOTA[2] ）标签分配策略以及 SIoU[9] 边界框回归损失来进一步提高检测精度。

YOLOv6 的改进集中在如下部分：

Network design
- Backbone：RepVGG 很适合小网络，但很难扩展到大网络（参数爆炸），所以使用 RepBlock 作为小网络的基础 block，使用 CSPStackRep block 作为大网络的 block。
- Neck：类似 YOLOv4 和 YOLOv5，使用 PAN 的结构，对大小网络都使用 Rep-PAN
- Head：对 head 进行了解耦，使用 Efficient Decoupled Head
Label assignment：作者对很多方法都做了实验，最后选择了 TAL
Loss function：VariFocal 为分类 loss，SIoU/GIoU 为回归 loss
Data augmentation：Mosaic 和 Mixup
Industry-handy improvements：作者引入了 self-distillation 和更多的 epochs 来提高性能。self-distillation 是每个学生网络的分类和回归都被教师网络监督。
Quantization and deployment：为了解决量化后的重参数化模型的性能下降问题，作者使用 RepOptimizer 的方法来得到 PTQ-friendly weights。

① Backbone：EfficientRep

小模型：
- 在训练中使用 Rep block，如图 3a
- 在推理时使用 RepConv，3x3 卷积 + ReLU 堆积而成的结构，如图 3b
大模型：
- 使用 CSPStackRep block 来得到中/大模型，如图 3c，3 个 1x1 conv + 2 个 RepVGG (训练) / RepConv (测试) + 1 个残差通道

在这里插入图片描述

② Neck：Rep-PAN

Neck 延续了 YOLOv4 及 YOLOv5 的架构——PAN，同样为了降低在硬件上的延时，在Neck上的特征融合结构中也引入了Rep结构，形成了 Rep-PAN

③ Head：Efficient decoupled head

④ Anchor-free

YOLOv6 中使用 anchor-point-based 大方式，也就是 box regression 分支是预测 anchor point 到 bbox 的四个边的距离。

⑤ Label Assignment：TAL

SimOTA:

SimOTA 是 OTA 的简化版本，将标签分配问题构造成了一个最优传输问题，通过找到最优传输方式，来得到每个 anchor 和 gt 的匹配结果。YOLOv6 的早期版本其实是使用的 SimOTA 的，那个时候论文还没有放出来，只有 github 代码。但由于 SimOTA 会拉慢训练速度，容易导致训练不稳定，所以又寻找了代替的方法。

Task Alignment Learning：

TAL 是在 TOOD 中被提出的，其中设计了一个【分类得分和定位框质量的统一度量标准】，使用该度量结果代替 IoU 来帮助分配标签，有助于解决任务不对齐的问题，且更稳定，效果更好。

⑥ loss：VariFocal Loss (VFL)，SIoU，其他使用 GIoU

⑦ 训练更多的 epochs

⑧ Self-distillation
为了提高模型效果，但不引入额外开销，作者使用了 KL 散度作为衡量学生网络和教师网络分布的指标。

为什么叫做 self-distillation 呢？就是因为这里学生网络=教师网络。

KL 散度整你用来衡量数据分布的差异，所以只能适用于分类结果，作者又参照了 DFL loss，也将其用于回归结果的衡量，故总的衡量方法为：

在这里插入图片描述

所以，回归 loss 为：

在这里插入图片描述

19.8 YOLOv7

详细介绍见本文

论文：YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors

代码：https:// github.com/WongKinYiu/yolov7

出处：暂无

作者：Chien-Yao，Alexey AB (和 YOLOv4 同）

时间：2022.07

从优化方法、优化模块等方面入手，通过提高训练过程的 cost 来提高检测效果，但不会提高推理过程的 cost。

YOLOv7 的思路是什么：

重参数化和 label assignment 对网络的效果都比较重要，但近来提出的方法中，或多或少会有些问题
YOLOv7 会从发现的这些问题入手，并提出对应的解决方法

在正文前，YOLOv7 也总结了一下现有的 SOTA 实时目标检测器，大多基于 YOLO 和 FCOS，要想成为一个优秀的实时检测器，一般需要具有如下几个特点，并且主要从 4/5/6 三点来提出问题并解决：

a faster and stronger network architecture
a more effective feature integration method [22, 97, 37, 74, 59, 30, 9, 45]
a more accurate detection method [76, 77, 69]
a more robust loss function [96, 64, 6, 56, 95, 57]
a more efficient label assignment method [99, 20, 17, 82, 42]
a more efficient training method.

“结构重参数化” 的实质：训练时的结构对应一组参数，推理时我们想要的结构对应另一组参数，只要能把前者的参数等价转换为后者，就可以将前者的结构等价转换为后者。

20、ResNeXt

详细介绍见本文

论文：Aggregated Residual Transformations for Deep Neural Networks

代码：github.com/miraclewkf/…

出处：CVPR 2017

贡献：

提出了 cardinality 的概念，即一个 block 中的基的数量，或者分组的数量
实验证明提高模型 cardinality 比提高宽度或深度更能带来效果的提升，且不会增加额外的计算量
可以看做将 ResNet 中每个 block 的卷积替换成了分组卷积，并且带来了效果的提升

ResNeXt 是怎么做的：

套用 ResNet 的重复堆叠结构
引入 Inception 的 split-tranform-merge 策略，但并行拆开的分支卷积核大小是相同的，然后相加（如图 1 右边）。此外，这种结构和图 3 的其他两种结构是等价的。可以看做将 ResNet 中每个 block 的卷积替换成了分组卷积。

在这里插入图片描述

ResNeXt 提出了一个新的概念——cardinality，the size of the set of transformations，和网络深度以及宽度一起作为网络的设计量。

cardinality 也可以翻译为“基”或者“势”，表示一个 block 中，可以理解为特征被分为了几个基本单元，或者几组，如果被分为 32 组，则cardinality = 32。

ResNeXt 的设计也是重复的堆叠，且设计遵循两个规则，设计的结构如表 1 所示：

如果使用相同大小的卷积核来处理特征图，则 blocks 之间共享参数
如果特征图下采样 2 倍，则 channels 宽度扩展 2 倍

在这里插入图片描述

ResNeXt 的结构和下面两个结构是很类似的：

① Inception-ResNet

如图 1 右侧所示的结构（也就是下图 3a），其实和图 3b 的结构是等价的，只是和 Inception-ResNet 不同的是，ResNeXt 的并行通道的卷积核大小是相同的，在设计上更简单通用。

② Grouped Convolutions

如图 3c 所示，如果将图 3b 的第一层多个 1x1 卷积聚合起来，输出 128-d 特征向量，然后使用分组卷积（32组）来进行后续的特征提取，其实和图 3b 的并行分支是等价的，最后将分组卷积的每组卷积的输出 concat，就得到最后的输出。

在这里插入图片描述

21、DenseNet

详细介绍见本文

论文：Densely Connected Convolutional Networks

代码：github.com/liuzhuang13…

出处：CVPR2017 | 康奈尔大学清华大学 Facebook

越来越深的神经网络会带来梯度消失问题，ResNet 和 Highway Network 使用了恒等映射的方式，让网络都超过了 100 层且效果良好，也就是给梯度增加了一条高速路，可以顺畅的在浅层和深层之间传输。

但这些传输只能在前后两层之间传递，没有最大化信息传输，所以作者提出了 DenseNet。

DenseNet 挣脱了加深和加宽模型的思路，而是通过最大限度的特征重用和旁路的思想来提升网络效果。

DenseNet 的动机：让信息在网络中的所有层中传递最大化

DenseNet 的做法：在一个 block 内部（即特征图大小都相同），将所有的层都进行连接，即第一层的特征会直接传输给后面的所有层，后面的层会接受前面所有层的输出特征。如图 1 所示。

DenseNet 的特征是如何结合的：不像 ResNet 那样相加起来，而是 concat，所以越往后通道越多

DenseNet 的参数少的原因：DenseNet 的通道很少（如每层 12 个通道），且层浅

下图展示了一个 Dense block 内部的结构，一个 block 内部会有多个卷积层，每个卷积层的输入来自前面所有层的输出，前面所有层的特征输出会 concat 然后送入当前层。

Dense 连接只会在每个 Dense block 内部进行，不会进行跨 block 的 Dense 连接

在这里插入图片描述

首先看一下 ResNet 的网络结构：每层接收上一层的特征输出和上一层的原始输出

在这里插入图片描述

然后再来看 DenseNet 的网络结构：每层接收前面所有层的特征输出，然后进行对应层的特征提取

在这里插入图片描述

DenseNet 的优点：

网络更窄，参数更少
旁路密集连接增加了特征的重用
信息流通最大化，训练简单
缓解了梯度消失的问题

22、 CSPNet

详细介绍见本文

论文：CSPNet: A new backbone that can enhance learning capability of CNN

代码：github.com/open-mmlab/…

出处：CVPR2019

CSPNet 的提出解决了什么问题：

强化 CNN 的学习能力：现有 CNN 网络一般在轻量化以后就会降低效果，CSPNet 希望能够在轻量化的同时保持良好的效果。CSPNet 在嵌入分类任务的 ResNet、ResNeXt、DenseNet 等网络后，可以在保持原有效果的同时，降低计算量 10%~20%
移除计算瓶颈：过高的计算瓶颈会导致推理时间更长，在其计算的过程中其他很多单元空闲，所以作者期望所有的计算单元的效率差不太多，从而提升每个单元的利用率，减少不必要的损耗。
减少内存占用：CSPNet 使用 cross-channel pooling 的方法来压缩特征图

Cross Stage Partial Network (CSPNet) 的主要设计思想：让网络中的梯度进行丰富的结合，降低冗余，减少计算量

在这里插入图片描述

在介绍 CSPNet 之前，先看看 DenseNet 的结构

图 2a 展示了 DenseNet 的一个 stage 结构：每一层的输入来自于前面所有层输出的 concat 结果

每个 stage 都包括一个 dense block + transition layer
每个 dense block 由 k 个 dense layer 组成
每个 dense layer 的输出会作为下一个 dense layer 的输入
Transition layer 也就是过渡层，是连接 block 的层，一般包含瓶颈层（1x1）和池化层，用于降维和降分辨率

DenseNet 的过程可以用如下方式表示，其中 * 表示卷积，

x_i

xi 表示第

i 个 dense layer 的输出。

在这里插入图片描述

反向传播过程表示如下，

g_i

gi 表示传递给第 i 个 dense layer的梯度。可以看出，大量的梯度信息是被不同 dense layer 重复使用的：

在这里插入图片描述

图 2b 展示了 CSPDenseNet 的一个 stage，CSPDenseNet 的组成：

Partial dense block：
每个 stage 的特征图都根据 channel 被分为两个部分

[

′

]

x_0 = [x_0', x_0'']

x0=[x0′,x0′′] + x

 0 
 
 
 ′ 
 
 
 
 
 x\_0' 
 
 
 x0′ ：会经过 dense block， 
 
 
 
 
 
 x 
 
 
 0 
 
 
 
 ′ 
 
 
 ′ 
 
 
 
 
 
 x\_0'' 
 
 
 x0′′ ：会直接送入 stage 的最后一层，不经过任何特征提取
+ 每个 stage 的输出可以表示为： 
 
 
 
 
 [     x    0     ′    ′      ,     x    1     ,    .    .    .    ,     x    k     ] 
 
 
 
 [x\_0'', x\_1, ..., x\_k] 
 
 
 [x0′′,x1,...,xk]，然后输入 transition layer

Partial transition layer
- 上面的 transition layer 的输出为
x

T

x_T

xT，然后会和

x

0

′

′

x_0''

x0′′ 进行 concat ，最后输入后面的 transition layer，得到输出

x

U

x_U

xU，如图 3 所示

由于这里 transition layer 使用的是 concat 方法，而 concat 方法的梯度传播会分开进行，就是还是会传递到对应的来源处去，所以经过密集 block 和未经过密集 block 的特征是分别优化的，梯度单独更新。

CSPDenseNet 保留了 DenseNet 特性重用特性的优点，但同时通过截断梯度流防止了过多的重复梯度信息。该思想通过设计一种分层的特征融合策略来实现，并应用于局部过渡层。

下图 3 也展示了不同时间进行特征融合的方式：

使用 Fusion First 中梯度会被大量重复利用，没有明显的计算量下降， top-1 acc 下降了 1.5%
使用 Fusion Last 先使用 transition 降低了 dense block 的维度，极大降低了计算量，top-1 acc 仅仅下降了0.1个百分点
同时使用 Fusion First 和 Fusion Last 相结合的 CSP 所采用的融合方式可以在降低计算代价的同时，提升准确率（图 3b）

在这里插入图片描述

将 CSPNet 和其他结构结合，如图 5 所示，CSPNet 可以和 ResNet、ResNeXt 进行结合，由于每个 Res block 只有一半的 channel 会经过，所以不需要引入 bottleneck。

在这里插入图片描述

23、 RepVGG

详细介绍见本文

论文：RepVGG: Making VGG-style ConvNets Great Again

代码：github.com/megvii-mode…

出处：CVPR2021 | 清华大学旷世

RepVGG 的贡献：

使用结构重参数化的方法将训练和推理结构进行解耦，训练使用多分支结构，推理使用单分支结构，实现了一个 speed-accuracy trade-off 的简单网络结构
在分类和分割上展示了良好的效果，且易于部署

随着 Inception、ResNet、DenseNet 等方法的提出，卷积神经网络越来越复杂，还有一些基于自动或手动框架选择，虽然这些复杂的网络能够带来好的效果，但仍然会有很多问题：

复杂的多分支网络让模型更复杂，执行或定制起来更难，降低推理效率
很多组件（如 depthwise、Xception、MobileNet等）会提高显存，在一些设备上难以支持，虽然这些方法都验证了自己的 FLOPs，但该指标并不能准确的反应其真实的速度，有些在指标上快于 VGG 和 ResNet，但实际跑起来也不一定快。

所以本文提出了 RepVGG，是一个 VGG-style 的结构，有如下优势：

RepVGG 和 VGG 结构类似，没有旁路分支
只使用了 3x3 conv 和 ReLU
整个具体的结构没有使用自动查找、微调等，也没有复杂的设计

RepVGG 面临的问题：

只用单路的结构很难打得过 resnet 那种多路的结构，resnet 的多路结构能保证其梯度传递

RepVGG 如何解决上述问题：结构重参数化（训练和推理使用不同的结构）

既然多路结构有利于训练，那么就使用多路结构来训练，如图 2B 所示，使用 1x1 conv 和恒等映射作为旁路
但多路结构不利于推理，那么就使用单路结构来推理，如图 2C 所示，只有 3x3 conv + ReLU

在这里插入图片描述

RepVGG 的设计过程：

1、使用简单结构的卷积神经网络，更加灵活（ResNet 使用残差就限制了必须等大，且多分支结构难以通道剪枝）

2、在训练的时候使用多分支结构（ResNet 证明了多分支结构的效果）：虽然多分支的结构在推理的时候效率严重不足，但其胜在训练的效果，所以 RepVGG 在训练的时候选择了多分支结构，而且选择的是 3 分支结构（1 个主分支，1 个 1x1 分支，1 个恒等映射分支，

(

)

(

)

y = x + g(x) + f(x)

y=x+g(x)+f(x)），当有 n 个 blocks 时，相当于有

3^n

3n 个模型

3、在推理阶段进行重参数化：卷积有可加性，将每个 BN 和其前面的 conv 可以转换成一个【conv with bias vector】，然后将得到的 3 组卷积相加

将 3 分支网络等价转换，简化成单分支网络
具体实现方法是依据卷积核的可加性，先对卷积 “吸BN”（即将 conv+bn 转换成一个带 bias 的 conv），恒等映射分支可以看做 1x1 卷积，吸 BN 后得到 2 个 1x1 卷积，1 个 3x3 卷积，然后将三个卷积以中心点为基准相加，将 3 个卷积合并为 1 个

在这里插入图片描述

RepVGG 结构：

表 2 展示了 RepVGG 的设计细节，包括宽度和深度，其中主要使用了 3x3 conv，没有使用 max pooling。

深度：

有 5 个 stages，每个 stage 的第一层的 3x3 conv 会下采样 2 倍
RepVGG-A：每个 stage 分别有 1,2,4,14,11 层（对比 ResNet-18/34/50）
RepVGG-B：每个 stage 分别有 1,4,6,16,11 层（对比更大的模型）
第一个和最后一个 block 没有增加层数的原因在于，第一层图分辨率很大，容易带来耗时，最后一层通道很多，也同样带来耗时

宽度：

每个 stage 的基础通道数设置为 [64, 128, 256, 512]
使用

a 作为前 4 层的缩放比，

b 作为最后一层的缩放比，且一般

b>a

为了进一步降低参数和耗时，使用了分组卷积，给 RepVGG-A 的 3/5/7…/21 层设置了分组数

g，给 RepVGG-B 的 23/25/27 层也设置了分组数

在这里插入图片描述

24、 MobileNet 系列

详细介绍见本文

24.1 MobileNetV1

论文：MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications

出处：CVPR 2017 | 谷歌

贡献：

提出了深度可分离卷积，将标准卷积用逐通道卷积+逐点卷积来代替
能够在边端设备使用，在保证效果的通道提升速度

更强的卷积神经网络一般情况下意味着更深和更宽的网络结构，但这样就会导致速度和效率的缺失，所以，MobileNet 的作者提出了一个搞笑的网络结构，致力于建立一个适用于移动端和嵌入式设备的网络结构。MobileNetV1 可以理解为把 VGG 中的标准卷积层换成深度可分离卷积

深度可分离卷积是 MobileNet 的一个非常重要的核心点，由两部分构成：

depthwise convolution：每个卷积核负责一个输入通道的卷积，图 2b
pointwise convolution：1x1xC 的形式，对 depthwise 得到的卷积特征进行点对点的特征聚合，图 2c

普通卷积是计算量：

假设输入特征图

F 为

D_F \times D_F \times M

DF×DF×M，输出特征图

G 为

D_G \times D_G \times N

DG×DG×N

普通卷积核

K 的参数量为

D_K \times D_K \times \times M \times N

DK×DK××M×N

普通卷积核的计算量为

⋅

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，涵盖了95%以上物联网嵌入式知识点，真正体系化！

由于文件比较多，这里只是将部分目录截图出来，全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、电子书籍、讲解视频，并且后续会持续更新

如果你需要这些资料，可以戳这里获取