【漫话机器学习系列】245.权重衰减（Weight Decay）权重衰减（Weight Decay）详解

权重衰减（Weight Decay）详解 | L2正则化的奥秘

在深度学习和机器学习模型训练中，我们常常面临 过拟合（Overfitting） 的问题。
为了提高模型在未见数据上的泛化能力，正则化（Regularization） 技术应运而生。
其中，最常用的一种正则化方法就是——权重衰减（Weight Decay） 。

本文将围绕权重衰减的概念、公式推导、作用机制以及应用场景进行详细讲解。

权重衰减，又叫作 L2正则化，本质上是在原始损失函数（Loss）中，添加一项关于模型参数（权重）大小的惩罚项。

简单来说，除了最小化预测误差之外，还希望模型的参数（即权重）本身不要太大。

这样做的目的，是避免模型过度依赖某些特征，提升模型的稳定性和泛化能力。

权重衰减的基本公式如下（也可以参考下方插图展示的内容）：

$\text{Loss}_{\text{new}} = \text{Loss}_{\text{original}} + \frac{1}{2} \lambda \|w\|_2^2$

其中：

简要解释：

从直观上理解：
权重衰减会在优化过程中不断“拉回”权重，防止它们无限制地增大，从而控制模型复杂度。

来看这张非常直观的手绘图示：

$\text{Loss} = \text{Loss} + \frac{1}{2} \|w\|_2^2$

解释：
- 左侧蓝色部分是原本的损失函数。
- 右侧红色部分是新增的L2正则化惩罚项。
- 中间绿色箭头和橙色标注，明确指出了两部分各自的含义。

此外，图中也提到：“在回归中，L2正则化惩罚项的使用称为岭回归（Ridge Regression） ”。
这强调了权重衰减在传统统计学习中的经典应用。

权重衰减具有以下几大主要作用：

简而言之：

在现代深度学习框架中，设置权重衰减非常简单。
比如在 PyTorch 中，只需要在优化器中设置 weight_decay 参数：

import torch.optim as optim

optimizer = optim.SGD(model.parameters(), lr=0.01, weight_decay=1e-4)

在 TensorFlow/Keras 中，也可以通过添加 L2正则化器（tf.keras.regularizers.l2）来实现。

项目	内容
定义	在损失函数中增加权重平方惩罚项
目的	防止过拟合，提高泛化能力
数学表达式	$\text{Loss} = \text{Loss} + \frac{1}{2} \lambda \\|w\\|_2^2$
常见应用	深度学习模型训练、岭回归

权重衰减是一个简单但非常有效的正则化方法，尤其适合用来改善深度学习模型的训练效果。
掌握权重衰减的原理和使用方法，是迈向深入理解机器学习优化技术的重要一步！

参考资料

如果你喜欢这类直观易懂的机器学习内容，欢迎点赞、收藏、关注我！