本文已参与「新人创作礼」活动,一起开启掘金创作之路。
网络亮点
- 引入了Inception结构(融合不同尺度特征信息)
- 使用1×1卷积核进行降维及映射处理(VGG就用了,不过这里给出了更加详细的介绍)
- 添加两个辅助分类器帮助训练(之前都只有一个输出节点,GoogLeNet有三个)
- 丢弃全连接层,使用平均池化层(大大减少模型参数)
网络结构
注意:每个分支的输出特征矩阵H和W相同,否则不能concat
1×1卷积降维减少参数解释
减少特征矩阵深度,减少卷积参数,也就减少了计算量
- 不使用时,如果输入特征矩阵channels=512,使用64个5×5卷积核进行卷积,需要参数:5×5×512×64=819200
- 使用时,如果输入特征矩阵channels=512,使用24个1×1卷积降维,再使用64个5×5卷积核进行卷积,需要参数:1×1×512×24+5×5×24×64=12288+38400=50688
辅助分类器
侧面额外网络的确切结构,包括辅助分类器,如下所示:
- 一个平均池化层,过滤器大小为5×5,步幅为3,(4a)阶段输出4×4×512, (4d)阶段输出4×4×528。
- 1×1卷积与128个滤波器降维和校正线性激活。
- 1024个单位的全连接层和整流线性激活。
- dropout层,70%的比例下降输出。
- 以softmax损失作为分类器的线性层(预测与主分类器相同的1000个类,但在推理时删除)。
The exact structure of the extra network on the side, including the auxiliary classifier, is as follows:
- An average pooling layer with 5×5 filter size and stride 3, resulting in an 4×4×512 output for the (4a), and 4×4×528 for the (4d) stage.
- A 1×1 convolution with 128 filters for dimension reduction and rectified linear activation.
- A fully connected layer with 1024 units and rectified linear activation.
- A dropout layer with 70% ratio of dropped outputs.
- A linear layer with softmax loss as the classifier (predicting the same 1000 classes as the main classifier, but removed at inference time).