参与11月更文挑战的第15天,活动详情查看:2021最后一次更文挑战
原书写的是weight decay,也就是权重衰退,我是自己把标题加了正则化。因为我入门看的是吴恩达,李沐老师讲了半天之后我发现?恩?不是和吴恩达讲正则化那部分讲的同一个东西吗,所以我就自己加上了正则化。
不过这里用到的L2范数只是正则化的一种。
在训练参数化机器学习模型时,权重衰减(通常称为L2正则化)是最广泛使用的正则化的技术之一。
就是给损失函数加上其权重的L2范数,将原来的训练目标最小化训练标签上的预测损失,调整为最小化预测损失和惩罚项之和。
为了让求导之后更好看,我们也给正则项前变加上二分之一。
L(w,b)+2λ∥w∥2
其中
L(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2.
对mini-batch来说权重更新过程如下:
w←w−∣B∣ηi∈B∑∂wl(i)(w,b)=w−∣B∣ηi∈B∑x(i)(w⊤x(i)+b−y(i))
推导一下:
L2范数为∥w∥2简写为∥w∥。∥w∥2就是其平方。
∵∥w∥=∥w∥2=w12+w22+⋯+wn2=i=1∑nwi2∴∥w∥2=i=1∑nwi2
对∥w∥2 求导:
∂w∂∥w∥2=2j=1∑nwi
带入到mini-batch的权重更新:
w−∣B∣η(i∈B∑x(i)(w⊤x(i)+b−y(i))+2λ⋅2i∈B∑w(i))=w−∣B∣η(i∈B∑x(i)(w⊤x(i)+b−y(i))+λi∈B∑w(i))=w−ηλw−∣B∣ηi∈B∑x(i)(w⊤x(i)+b−y(i))
即:
w←(1−ηλ)w−∣B∣ηi∈B∑x(i)(w⊤x(i)+b−y(i)).
《动手学深度学习》系列更多可以看这里:《动手学深度学习》 - LolitaAnn的专栏 - 掘金 (juejin.cn)
笔记还在更新中…………