深度学习-权重衰减本质：在参数更新的时候，直接让权重变为以前的一部分 $$ W = W - \eta (g + \lam

本质：在参数更新的时候，直接让权重变为以前的一部分

W = W - \eta (g + \lambda W)

这里着重介绍一下和正则化的区别。正则化是在损失函数中添加一个正则项

J = J(\theta) + \lambda ||w||_2

当使用原生SGD+L2正则时，与权重衰减基本是等价的。

W = W - \eta (\nabla J) =W - \eta( \nabla J(\theta) + \lambda w)

但非原生SGD时，区别很大

经验证明，Adam中还是使用权值衰减更合适（AdamW）