卷积神经网络

623 阅读1分钟

发展

1986 BP反向传播算法

1998 利用BP算法训练LeNet5网络

2006 提出深度学习概念

2012 深度学习在视觉领域竞赛夺得冠军

全连接层

  • 神经元

  • BP反向传播

  • one-shot编码

卷积层

  • 目的:特征提取

  • 特性:拥有局部感知机制;权值共享

  • 卷积核的channel与输入特征层的channel相同

  • 输出的特征矩阵channel与卷积层个数相同

  • 激活函数:

    • sigmoid

    • Relu

  • 卷积后的矩阵尺寸:

N=(WF+2P)/S+1N = (W-F+2P) / S + 1

池化层

  • 目的:对特征图进行稀疏处理,减小数据运算量

  • 没有训练参数

  • 只改变特征矩阵的w和h,不会改变channel

  • 一般pool size和stride相同

误差的计算

oio_i^*为真实标签值,oio_i为预测值

  • softmax
oi=eyij=1Neyio_i=\frac{e^{y_i}}{ \sum\limits_{j=1}^N e^{y_i}}
  • Cross Entropy Loss 交叉熵损失

    • softmax输出,所有输出概率和为1
    H=i=1Noilog(oi)H = - \sum\limits_{i=1}^No_i^*log(o_i)
    • sigmoid输出,每个节点之间互不相干
    H=1Ni=1N[oilog(oi)+(1oi)log(1oi)]H = - \frac{1}{N} \sum\limits_{i=1}^N[o_i^*log(o_i) + (1-o_i^*)log(1-o_i)]

误差的反向传播

  • 利用求导的链式法则,求误差损失梯度

权重的更新

wt+1=wtαgtw_{t+1} = w_t - \alpha g_t
  • SGD优化器

    • 易受样本噪声影响
    • 可能会陷入局部最优解
  • SGD+Momentum优化器,引入动量系数,减少样本噪声影响

  • Adagrad优化器,自适应学习率

  • RMsprop优化器,自适应学习率

  • Adam优化器,自适应学习率

迁移训练

  • 能够快速训练出一个理想的结果
  • 当数据集较小时也能训练出理想的结果
  • 使用别人预训练模型参数时,要注意别人的预处理方式