AlexNet
- 5 个卷积层、3 个全连接层
- 比传统方法更大的步幅来提升 ImageNet 分类准确率
- 数据扩充
- 在每个全连接层后面使用一个 Dropout 层减少过拟合
- 数据扩充
PS: ReLu 与 Sigmoid 相比,其优势在于训练速度更快,因为 Sigmoid 的导数在饱和区变得很小,导致权重几乎没有得到更新(见下图)。这种情况就是梯度消失问题。
VGG
相继使用多个 3x3 卷积核大小的滤波器取代大尺寸卷积核滤波器,实现了优于 AlexNet 的性能
- 多个非线性层会增加网络的深度,从而允许其学习更复杂的特征
- 计算成本更低
- 3X3 卷积核可以保留图像更精细的特征
ImageNet : 92.3 % 的 top-5 准确率
GoogLeNet/Inception
VGG计算开销太大(卷积层的宽度)
- 内存占用
- 计算时间)
建立 GoogLeNet 的基本思想是,深层网络中的大部分激活函数运算要么是不必要的(值为零),要么是冗余的(由于相互作用)。因此最高效的深度网络架构的激活函数之间的连接应该是稀疏的,这意味着上述例子中不应该令所有的 512 个输出通道和所有的 512 个输入通道相连。
- inception:使用普通的密集结构逼近一个稀疏 CNN
- 不同大小的卷积核来捕捉不同规模的细节特征(5x5、3x3、1x1)
- 全局平均池化层(global average pooling,对 2D 特征图的通道值取平均)取代网络末端的全连接层(在最后的卷积层之后)
ImageNet : 93.3 % 的 top-5 准确率
ResNets(残差网络、Residual Networks)
参考:残差网络(Residual Networks, ResNets)