深度学习-权重衰减

170 阅读1分钟

本质:在参数更新的时候,直接让权重变为以前的一部分

W=Wη(g+λW)W = W - \eta (g + \lambda W)

这里着重介绍一下和正则化的区别。 正则化是在损失函数中添加一个正则项

J=J(θ)+λw2J = J(\theta) + \lambda ||w||_2

当使用原生SGD+L2正则时,与权重衰减基本是等价的。

W=Wη(J)=Wη(J(θ)+λw)W = W - \eta (\nabla J) =W - \eta( \nabla J(\theta) + \lambda w)

但非原生SGD时,区别很大

image.png

经验证明,Adam中还是使用权值衰减更合适(AdamW)