持续创作,加速成长!这是我参与「掘金日新计划 · 6 月更文挑战」的第18天,点击查看活动详情
【引用格式】:G. Huang, Z. Liu, L. Van Der Maaten and K. Q. Weinberger, "Densely Connected Convolutional Networks," 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017
【开源代码】:github.com/liuzhuang13…
【论文地址】:[Densely Connected Convolutional Networks | IEEE Conference Publication | IEEE Xplore](
一、瓶颈问题
a. 随着CNN越来越深入,出现了一个新的研究问题:当有关输入或输入的信息通过许多层时,它可能会在到达网络的末端(或开始)时消失。
b. 网络层数的增多意味着需要更大的参数量,可能有大量冗余的参数,这导致了更多的计算消耗。
二、 本文贡献
1、提出了一种新的网络架构DenseNet。
将每一层的输出特征与后面每一层进行直接连接,确保网络中每层之间最大信息流。(DenseNet采用串联的方式组合特征,并且连接到后面每一层,而ResNet采用求和的方式组合特征,只跳跃一层进行连接)
2、DenseNet改善了ResNet的缺点
DenseNet相比于ResNet具有更好的参数效率,改善了整个网络中信息流和梯度,使得模型容易训练。(每一层都可以直接访问来自损失函数和原始输入信号的梯度,从而实现隐含的深度监督。)此外,DenseNet的密集连接具有正则化效果,能够降低在训练集规模小的任务上的过拟合问题。
3、实验对比
在四个基准数据集(CIFAR-10、CIFAR-100、SVHN和ImageNet)上对DenseNet进行了评估,结果表明DenseNet相比于现有的算法在取得相当的准确率情况下需要更少的参数量;同时,DenseNet在大多数基准任务上取得了最先进的性能表现。
三、 解决方案
1、数学定义
Non-linear transformation: 【BN、ReLU、Conv(3×3)】
The output of the layer:
2、模型架构
1)Dense connectivity
Method | connectivity | function |
---|---|---|
Traditional | ||
ResNets | 跳跃连接、特征求和(可能会阻碍网络中的信息流) | |
DenseNets | 密集连接、特征串联(改善各层之间的信息流动) |
2)Transition layers
目的: 为了便于在我们的架构中进行下采样,我们将网络划分为多个密集连接的密集块,密集块之间使用过渡层进行连接。
组成: BN、Conv(1×1)、Average Pooling(2×2)
3)Growth rate (k)
定义: 每个函数 输出k个特征图,则层 的输入通道数为
取值: DenseNet可能有非常窄的层,例如k=12。我们将超参数k称为网络的增长率。实验表明相对较小的增长率足以在测试的数据集上获得最先进的结果。
解释: 每一层都可以访问其块中的所有前面的特征图,因此,每一层的信息可以看做网络的“集体知识”,网络可以充分利用前面的所有信息完成分类任务。
------------以上为Basic DenseNet的架构,以下为DenseNet的优化版本------------
4)Bottleneck layers
目的: 尽管每一层只生成输出特征图,但它通常有更多的输入(前面特征的串联)。有文献指出在每次3×3卷积之前,可以引入1×1卷积作为瓶颈层,以减少输入特征映射的数量,从而提高计算效率。
方法: DenseNet-B: 修改为为BN-ReLU-Conv(1×1)-BN-ReLU-Conv(3×3)【Conv(1×1)输出4k个特征图】
5)Compression
目的: 为了进一步提高模型的紧凑性,我们可以在过渡层减少特征映射的数量。
方法: DenseNet-C: 让下面的过渡层生成⌊θm⌋个输出特征,其中0<θ≤1.【实验中设置θ = 0.5】
6)DenseNet-BC
同时采用Bottleneck layers和Compression
四、 实验
1、模型配置
①On all datasets except ImageNet
-
Three dense blocks (each has an equal number of layers)
-
6个模型版本:
-
basic DenseNet structure: {L = 40,k = 12}, {L =100,k = 12} and {L = 100,k = 24}
-
DenseNet-BC: {L = 100,k = 12},{L=250,k=24}and {L=190,k=40}
-
②On ImageNet
- 4 dense blocks on 224×224 input images
2、数据集
数据集 | 特点 | 训练集 | 测试集 | 数据增广 |
---|---|---|---|---|
CIFAR | 32×32像素的彩色自然图像(10/100类) | 50,000(5,000作为验证集) | 10,000 | 有 |
SVHN | 32×32彩色数字图像 | 73,257(6,000作为验证集) | 26,032 | 无 |
ImageNet | ILSVRC 2012分类数据集(1000类) | 1.2 million(验证集50,000) | 在验证集上的报告分类错误 | 有 |
1) 训练
数据集 | 梯度下降 | epochs |
---|---|---|
CIFAR | 随机梯度下降(SGD) | 300(batch-size=64) |
SVHN | 随机梯度下降(SGD) | 40 (batch-size=64) |
ImageNet | 随机梯度下降(SGD) | 90 (batch-size=256) |
2) CIFAR和SVHN的分类结果
① Accuracy
a. 表格最后一行可以看到,DenseNet在C10+和C100+数据集上取得最低的错误率;
b. 从倒数第二行可以看到,DenseNet在C10和C100(没有数据增广)数据集上同样取得了最佳的表现
c. 在SVHN上,从倒数第四行最后一列可以看到DenseNet取得了最佳表现;然而,当模型更深(倒数第二行250层)时,性能没有得到提升,可能是因为SVHN数据集比较简单,深层模型出现过拟合现象导致性能衰退
总之,DenseNets相比于现有的方法实现了更低的错误率,同时使用了比ResNet更少的参数。在没有数据增广的情况下, DenseNet的性能取得了很大的提升。
② Capacity
从DenseNet在C10+和C100+的两列分别可以看到,随着模型参数量的增加,错误率逐渐降低。可以看出,在没有压缩层或瓶颈层的情况下,DenseNet的性能随着L和k增加表现更好,这是一个总的趋势。我们将此主要归因于模型容量的相应增长。
这表明DenseNets可以充分利用更大、更深层次的模型所带来的更强大的表示能力。同时,它们不会发生ResNets出现的过拟合或优化困难问题。
③ Parameter Efficiency
从表格和图片可以看出,DenseNet-BC相比于DenseNet,在取得相近测试错误率情况下,参数量节省了近90%。
表明Densenet其他模型更能够有效地利用参数。
3) ImageNet上的分类结果
**实验设置:**我们在ImageNet分类任务中评估了DenseNet-BC的不同深度和增长率,并将其与最先进的ResNet体系结构进行了比较。
实验结果: DenseNet在与ResNet取得相同性能表现的情况下,需要更少的参数和计算量。
4) DenseNets变体比较
实验设置: 在C10+上训练多个不同深度的小型网络,并将其测试精度绘制为网络参数的函数。
实验结果: DenseNet-BC取得了最佳的表现。说明增加Bottleneck layers和Compression,有效提高模型的紧凑型和精度。