LR Decay & Weight Decay

176 阅读1分钟

LR decay(学习率衰减)和 Weight decay(权重衰减)是两种在优化过程中常见的正则化技术,它们的目标和实现方式不同:

1. LR Decay(学习率衰减)

  • 目标:通过逐步减少学习率,使得优化过程在接近最优解时能够更加精细地调整参数,避免过快地跳过最优解,通常在训练过程中采用。

  • 作用:学习率衰减会使得在训练过程中,随着训练的进行,学习率逐渐变小。这样,网络在训练后期能够更加稳定地收敛。

  • 常见方法

    • Step decay:每隔一定的训练步骤,学习率按某个比率减少。
    • Exponential decay:学习率按指数方式衰减。
    • Cosine decay:学习率根据余弦函数的变化进行衰减。
  • 公式:如在常见的 Exponential decay 中,学习率可以按如下公式调整:

η(t)=η0decay_ratetdecay_rateη(t)=η_0⋅ {decay\_rate}^{\frac t { {decay\_rate}}}

其中,η(t) 是第 t 步的学习率,η0η_0 是初始学习率。

2. Weight Decay(权重衰减)

  • 目标:权重衰减是一种正则化方法,旨在防止模型过拟合,通过惩罚模型的复杂度来促进更小、更简洁的模型参数。
  • 作用:它通过在损失函数中添加一个与模型权重大小相关的惩罚项来限制权重的值。通常这会防止权重变得过大,从而避免过拟合。
  • 常见形式:在损失函数中加入L2正则化项(权重的平方和),即:
Ltotal=Loriginal+λiwi2L_{total}=L_{original}+\lambda \sum_{i}w_{i}^2

其中,LoriginalL_{original} 是原始损失函数,wiw_i 是权重,λ\lambda 是正则化系数。

  • 效果:权重衰减通过在优化过程中对权重进行惩罚,使得模型趋向于使用较小的权重,从而降低模型复杂度,防止过拟合。

总结:

  • LR decay 是通过降低学习率来调整训练过程中优化步伐的大小,以实现更稳定的收敛过程。
  • Weight decay 是通过增加对大权重的惩罚,来防止模型过拟合,从而达到正则化的效果。

两者的核心区别在于,LR decay 关注的是优化过程中的学习率调整,而 Weight decay 主要作用于正则化,通过控制模型的复杂度。