详解线性回归-正则化-岭回归-频率角度【白板推导系列笔记】本文已参与「新人创作礼」活动，一起开启掘金创作之路。在之前已

本文已参与「新人创作礼」活动，一起开启掘金创作之路。

在之前已知

\begin{gathered} Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\\ 解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y \end{gathered}

在实际应用时，如果样本容量不远远大于样本的特征维度，很可能造成过拟合，对这种情况，我们有下面三个解决方式：

1. 加数据

2. 特征选择（降低特征维度）如 PCA 算法。

3. 正则化

正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚）

作者：tsyw

链接：线性回归 · 语雀 (yuque.com)

一般的，正则化框架有

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}]

当使用L1 Lasso时，对应正则化框架

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}]

当使用L2 Ridge（岭回归）时，对应正则化框架

\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]

对于L2 Ridge，估计 $\hat{\omega}$ 有

\begin{aligned} J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\\ &=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\\ &=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\\ &=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\\ \hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\\ \frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\\ 2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\\ \hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y \end{aligned}

利用2范数进行正则化不仅可以使模型选择 $\omega$ 较小的参数，同时也避免 $X^{T}X$ 不可逆的问题

作者：tsyw

链接：线性回归 · 语雀 (yuque.com)

在前面已经知道

\begin{gathered} y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \\ \epsilon \sim (0,\sigma^{2})\\y|x;\omega \sim N(\omega^{T}x,\sigma^{2}) \end{gathered}

假设权重先验也为高斯分布，即取先验分布 $\omega \sim N(0,\sigma_{0}^{2})$ ，又有

\begin{aligned} p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\\ p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)} \end{aligned}

因此对于 $\omega$ 的最大后验，有

\begin{aligned} \hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 这里应该是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最后再写不影响\\ &=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\\ &=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\\ &=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right] \end{aligned}

从这里就可以看出，正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验

再加上之前的，没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计

我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前，有⼈问我们哪个盒⼦被选中，那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率（prior probability），因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦，我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率（posterior probability），因为它是我们观察到F之后的概率。注意，在这个例⼦中，选择红盒⼦的先验概率是 $\frac{4}{10}$ ，所以与红盒⼦相⽐，我们更有可能选择蓝盒⼦。然⽽，⼀旦我们观察到选择的⽔果是橘⼦，我们发现红盒⼦的后验概率现在是 $\frac{2}{3}$ ，因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符，因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多，因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上，这个证据相当强，已经超过了先验的假设，使得红盒⼦被选择的可能性⼤于蓝盒⼦。

来源：《PRML Translation》-P19

作者：马春鹏

原著：《Pattern Recognition and Machine Learning》

作者：Christopher M. Bishop

小结

线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为高斯分布的时候，MLE 的解等价于最小二乘误差，而增加了正则项后，最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解，加上 L1 正则项后，等价于 Laplace 噪声先验。

作者：tsyw

链接：线性回归 · 语雀 (yuque.com)

该部分在PRML中P27,28页中有提到