(深度学习)最优化随记

309 阅读1分钟

计算流程图中的方向叫前向传播。通过反向传播来优化权重。

batchsize批处理的大小一般是2的整数倍(32,64,128),64和128居多。

梯度下降

一个Epoch值表示迭代一轮全部数据。一次迭代表示跑完一个batchsize数据。
图中的loss出现上下浮动是非常正常的。通常情况下需要看第1万次,2万次,3万次迭代的效果。

学习率

通常情况我们不会把学习率设置的太大,一般会设置的小一些比如:0.001,0.0001

反向传播

反向传播是一层一层往后传的过程,决不能从最后直接传到最开始。

这种一层层传播能不能得到优化?

可以通过对Sigmoid函数整体求导。在反向传播的过程中能整体求导的就对其整体求导。