深度学习-权重衰减 zyriix 2022-02-15 170 阅读1分钟 本质:在参数更新的时候,直接让权重变为以前的一部分 W=W−η(g+λW)W = W - \eta (g + \lambda W)W=W−η(g+λW) 这里着重介绍一下和正则化的区别。 正则化是在损失函数中添加一个正则项 J=J(θ)+λ∣∣w∣∣2J = J(\theta) + \lambda ||w||_2 J=J(θ)+λ∣∣w∣∣2 当使用原生SGD+L2正则时,与权重衰减基本是等价的。 W=W−η(∇J)=W−η(∇J(θ)+λw)W = W - \eta (\nabla J) =W - \eta( \nabla J(\theta) + \lambda w)W=W−η(∇J)=W−η(∇J(θ)+λw) 但非原生SGD时,区别很大 经验证明,Adam中还是使用权值衰减更合适(AdamW)