动手学深度学习4.5 正则化 权重衰退推导

267 阅读1分钟

参与11月更文挑战的第15天,活动详情查看:2021最后一次更文挑战

原书写的是weight decay,也就是权重衰退,我是自己把标题加了正则化。因为我入门看的是吴恩达,李沐老师讲了半天之后我发现?恩?不是和吴恩达讲正则化那部分讲的同一个东西吗,所以我就自己加上了正则化。

不过这里用到的L2L_2范数只是正则化的一种。

在训练参数化机器学习模型时,权重衰减(通常称为L2L_2正则化)是最广泛使用的正则化的技术之一。

就是给损失函数加上其权重的L2L_2范数,将原来的训练目标最小化训练标签上的预测损失,调整为最小化预测损失和惩罚项之和

为了让求导之后更好看,我们也给正则项前变加上二分之一。

L(w,b)+λ2w2L(\mathbf{w}, b) + \frac{\lambda}{2} \|\mathbf{w}\|^2

其中

L(w,b)=1ni=1n12(wx(i)+by(i))2.L(\mathbf{w}, b) = \frac{1}{n}\sum_{i=1}^n \frac{1}{2}\left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)^2.

对mini-batch来说权重更新过程如下:

wwηBiBwl(i)(w,b)=wηBiBx(i)(wx(i)+by(i))\begin{aligned} \mathbf{w} \leftarrow \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{\mathbf{w}} l^{(i)}(\mathbf{w}, b) = \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right)\end{aligned}

推导一下:

L2L_2范数为w2\|w\|_2简写为w\|w\|w2\|w\|^2就是其平方。

w=w2=w12+w22++wn2=i=1nwi2w2=i=1nwi2\begin{aligned} &\because\|w\|=\|w\|_{2}=\sqrt{w_{1}^{2}+w_{2}^{2}+\cdots+w_{n}^{2}}=\sqrt{\sum_{i=1}^{n} w_{i}^{2}} \\ &\therefore\|w\|^{2}=\sum_{i=1}^{n} w_{i}^{2} \end{aligned}

w2\|w\|^{2} 求导:

w2w=2j=1nwi\frac{\partial\|w\|^{2}}{\partial w}=2 \sum_{j=1}^{n} w_{i}

带入到mini-batch的权重更新:

wηB(iBx(i)(wx(i)+by(i))+λ22iBw(i))=wηB(iBx(i)(wx(i)+by(i))+λiBw(i))=wηλwηBiBx(i)(wx(i)+by(i))\begin{aligned} &w-\frac{\eta}{|B|}\left(\sum_{i \in B} x^{(i)}\left(w^{\top} x^{(i)}+b-y^{(i)}\right)+\frac{\lambda}{2} \cdot 2 \sum_{i \in B} w^{(i)}\right)\\ &=w-\frac{\eta}{|B|}\left(\sum_{i \in B} x^{(i)}\left(w ^{\top} x^{(i)}+b-y^{(i)}\right)+\lambda \sum_{i \in B} w^{(i)}\right)\\ &=w-\eta \lambda w-\frac{\eta}{|B|} \sum_{i \in B} x^{(i)}\left(w ^{\top} x^{(i)}+b-y^{(i)}\right) \end{aligned}

即:

w(1ηλ)wηBiBx(i)(wx(i)+by(i)).\begin{aligned} \mathbf{w} & \leftarrow \left(1- \eta\lambda \right) \mathbf{w} - \frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \mathbf{x}^{(i)} \left(\mathbf{w}^\top \mathbf{x}^{(i)} + b - y^{(i)}\right). \end{aligned}

《动手学深度学习》系列更多可以看这里:《动手学深度学习》 - LolitaAnn的专栏 - 掘金 (juejin.cn)

笔记还在更新中…………