(深度学习)最优化随记

2018-10-30 309 阅读1分钟

计算流程图中的方向叫前向传播。通过反向传播来优化权重。

batchsize批处理的大小一般是2的整数倍(32,64,128)，64和128居多。

梯度下降

一个Epoch值表示迭代一轮全部数据。一次迭代表示跑完一个batchsize数据。
图中的loss出现上下浮动是非常正常的。通常情况下需要看第1万次，2万次，3万次迭代的效果。

学习率

通常情况我们不会把学习率设置的太大，一般会设置的小一些比如：0.001，0.0001

反向传播

反向传播是一层一层往后传的过程，决不能从最后直接传到最开始。

这种一层层传播能不能得到优化？

可以通过对Sigmoid函数整体求导。在反向传播的过程中能整体求导的就对其整体求导。