GoogLeNet

105 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

arxiv.org/abs/1409.48…

网络亮点

  • 引入了Inception结构(融合不同尺度特征信息)
  • 使用1×1卷积核进行降维及映射处理(VGG就用了,不过这里给出了更加详细的介绍)
  • 添加两个辅助分类器帮助训练(之前都只有一个输出节点,GoogLeNet有三个)
  • 丢弃全连接层,使用平均池化层(大大减少模型参数)

网络结构

注意:每个分支的输出特征矩阵H和W相同,否则不能concat

1×1卷积降维减少参数解释

减少特征矩阵深度,减少卷积参数,也就减少了计算量

  • 不使用时,如果输入特征矩阵channels=512,使用64个5×5卷积核进行卷积,需要参数:5×5×512×64=819200
  • 使用时,如果输入特征矩阵channels=512,使用24个1×1卷积降维,再使用64个5×5卷积核进行卷积,需要参数:1×1×512×24+5×5×24×64=12288+38400=50688

辅助分类器

侧面额外网络的确切结构,包括辅助分类器,如下所示:

  • 一个平均池化层,过滤器大小为5×5,步幅为3,(4a)阶段输出4×4×512, (4d)阶段输出4×4×528。
  • 1×1卷积与128个滤波器降维和校正线性激活。
  • 1024个单位的全连接层和整流线性激活。
  • dropout层,70%的比例下降输出。
  • 以softmax损失作为分类器的线性层(预测与主分类器相同的1000个类,但在推理时删除)。

The exact structure of the extra network on the side, including the auxiliary classifier, is as follows:

  • An average pooling layer with 5×5 filter size and stride 3, resulting in an 4×4×512 output for the (4a), and 4×4×528 for the (4d) stage.
  • A 1×1 convolution with 128 filters for dimension reduction and rectified linear activation.
  • A fully connected layer with 1024 units and rectified linear activation.
  • A dropout layer with 70% ratio of dropped outputs.
  • A linear layer with softmax loss as the classifier (predicting the same 1000 classes as the main classifier, but removed at inference time).