LR Decay & Weight DecayLR decay（学习率衰减）和 Weight decay（权重衰减）是两

LR decay（学习率衰减）和 Weight decay（权重衰减）是两种在优化过程中常见的正则化技术，它们的目标和实现方式不同：

1. LR Decay（学习率衰减）：

目标：通过逐步减少学习率，使得优化过程在接近最优解时能够更加精细地调整参数，避免过快地跳过最优解，通常在训练过程中采用。
作用：学习率衰减会使得在训练过程中，随着训练的进行，学习率逐渐变小。这样，网络在训练后期能够更加稳定地收敛。
常见方法：
- Step decay：每隔一定的训练步骤，学习率按某个比率减少。
- Exponential decay：学习率按指数方式衰减。
- Cosine decay：学习率根据余弦函数的变化进行衰减。
公式：如在常见的 Exponential decay 中，学习率可以按如下公式调整：

η(t)=η_0⋅ {decay\_rate}^{\frac t { {decay\_rate}}}

其中，η(t) 是第 t 步的学习率， $η_0$ 是初始学习率。

2. Weight Decay（权重衰减）：

L_{total}=L_{original}+\lambda \sum_{i}w_{i}^2

其中， $L_{original}$ 是原始损失函数， $w_i$ 是权重， $\lambda$ 是正则化系数。

两者的核心区别在于，LR decay 关注的是优化过程中的学习率调整，而 Weight decay 主要作用于正则化，通过控制模型的复杂度。