卷积神经网络

2021-09-17 635 阅读1分钟

发展

1986 BP反向传播算法

1998 利用BP算法训练LeNet5网络

2006 提出深度学习概念

2012 深度学习在视觉领域竞赛夺得冠军

全连接层

神经元
BP反向传播
one-shot编码

卷积层

目的：特征提取
特性：拥有局部感知机制；权值共享
卷积核的channel与输入特征层的channel相同
输出的特征矩阵channel与卷积层个数相同
激活函数：
- sigmoid
- Relu
卷积后的矩阵尺寸：

N = (W-F+2P) / S + 1

池化层

目的：对特征图进行稀疏处理，减小数据运算量
没有训练参数
只改变特征矩阵的w和h，不会改变channel
一般pool size和stride相同

误差的计算

$o_i^*$ 为真实标签值， $o_i$ 为预测值

softmax

o_i=\frac{e^{y_i}}{ \sum\limits_{j=1}^N e^{y_i}}

Cross Entropy Loss 交叉熵损失
- softmax输出，所有输出概率和为1
$H = - \sum\limits_{i=1}^No_i^*log(o_i)$
- sigmoid输出，每个节点之间互不相干
$H = - \frac{1}{N} \sum\limits_{i=1}^N[o_i^*log(o_i) + (1-o_i^*)log(1-o_i)]$

误差的反向传播

利用求导的链式法则，求误差损失梯度

权重的更新

w_{t+1} = w_t - \alpha g_t

SGD优化器
- 易受样本噪声影响
- 可能会陷入局部最优解
SGD+Momentum优化器，引入动量系数，减少样本噪声影响
Adagrad优化器，自适应学习率
RMsprop优化器，自适应学习率
Adam优化器，自适应学习率

迁移训练

能够快速训练出一个理想的结果
当数据集较小时也能训练出理想的结果
使用别人预训练模型参数时，要注意别人的预处理方式