详解线性回归-正则化-岭回归-频率角度【白板推导系列笔记】

119 阅读3分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

在之前已知

Loss Function:L(ω)=i=1NωTxiyi2解得ω^=(XTX)1XTY \begin{gathered} Loss \space Function:L(\omega)=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}\\ 解得\hat{\omega}=(X^{T}X)^{-1}X^{T}Y \end{gathered}

 

在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:

1.  加数据

2.  特征选择(降低特征维度)如 PCA 算法。

3.  正则化

正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)

作者:tsyw

链接:线性回归 · 语雀 (yuque.com)

 

一般的,正则化框架有

argminω[L(ω)Loss+λP(ω)penalty] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\underbrace{\lambda P(\omega)}_{penalty}]

当使用L1 Lasso时,对应正则化框架

argminω[L(ω)Loss+ω1] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||_{1}]

当使用L2 Ridge(岭回归)时,对应正则化框架

argminω[L(ω)Loss+ω22]=argminω[L(ω)Loss+ωTω] \mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+||\omega||^{2}_{2}]=\mathop{argmin }\limits_{\omega}[\underbrace{L(\omega)}_{Loss}+\omega^{T}\omega]

 

对于L2 Ridge,估计ω^\hat{\omega}

J(ω)=i=1NωTxiyi2+λωTω=(ωTXTYT)(XωY)+λωTω=ωTXTXω2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω2ωTXTY+YTYω^=argminωJ(ω)J(ω)ω=2(XTX+λI)ω2XTY2(XTX+λI)ω2XTY=0ω^=(XTX+λI)1XTY \begin{aligned} J(\omega)&=\sum\limits_{i=1}^{N}||\omega^{T}x_{i}-y_{i}||^{2}+\lambda \omega^{T}\omega\\ &=(\omega^{T}X^{T}-Y^{T})(X \omega-Y)+\lambda \omega^{T}\omega\\ &=\omega^{T}X^{T}X \omega-2\omega^{T}X^{T}Y+Y^{T}T+\lambda \omega^{T}\omega\\ &=\omega^{T}(X^{T}X+ \lambda I)\omega-2\omega^{T}X^{T}Y+Y^{T}Y\\ \hat{\omega}&=\mathop{argmin }\limits_{\omega}J(\omega)\\ \frac{\partial J(\omega)}{\partial \omega}&=2(X^{T}X+\lambda I)\omega-2X^{T}Y\\ 2(X^{T}X+\lambda I)\omega-2X^{T}Y&=0\\ \hat{\omega}&=(X^{T}X+\lambda I)^{-1}X^{T}Y \end{aligned}

 

利用2范数进行正则化不仅可以使模型选择ω\omega较小的参数,同时也避免XTXX^{T}X不可逆的问题

作者:tsyw

链接:线性回归 · 语雀 (yuque.com)

 

在前面已经知道

y=f(ω)+ϵ=ωTx+ϵϵ(0,σ2)yx;ωN(ωTx,σ2) \begin{gathered} y=f(\omega)+\epsilon =\omega^{T}x+\epsilon \\ \epsilon \sim (0,\sigma^{2})\\y|x;\omega \sim N(\omega^{T}x,\sigma^{2}) \end{gathered}

假设权重先验也为高斯分布,即取先验分布ωN(0,σ02)\omega \sim N(0,\sigma_{0}^{2}),又有

p(yω)=12πσexp[(yωTx)22σ2]p(ω)=12πσ0exp[ω22σ02]p(ωy)=p(yω)p(ω)p(y) \begin{aligned} p(y|\omega)&=\frac{1}{\sqrt{2\pi}\sigma}\text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}\right]\\ p(\omega)&=\frac{1}{\sqrt{2\pi}\sigma_{0}}\text{exp}\left[- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ p(\omega|y)&=\frac{p(y|\omega)p(\omega)}{p(y)} \end{aligned}

因此对于ω\omega的最大后验,有

ω^=argmax ωp(ωy)这里应该是i=1Np(ωyi),但最后再写不影响=argmax ωp(yω)p(ω)=argmax ωlog[p(yω)p(ω)]=argmax ωlog(12πσ12πσ0)+logexp[(yωTx)22σ2ω22σ02]=argmin ω[(yωTx)22σ2+ω22σ02]=argmin ω[(yωTx)2+σ2σ02ω2]=argmin ω[i=1N(yiωTxi)2+σ2σ02ω2] \begin{aligned} \hat{\omega}&=\mathop{argmax\space}\limits_{\omega}p(\omega|y)\quad 这里应该是\prod\limits_{i=1}^{N}p(\omega|y_{i}),但最后再写不影响\\ &=\mathop{argmax\space}\limits_{\omega}p(y|\omega)\cdot p(\omega)\\ &=\mathop{argmax\space}\limits_{\omega}\log[p(y|\omega)\cdot p(\omega)]\\ &=\mathop{argmax\space}\limits_{\omega}\log\left(\frac{1}{\sqrt{2\pi}\sigma} \frac{1}{\sqrt{2\pi}\sigma_{0}}\right)+\log \text{exp}\left[- \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}- \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[ \frac{(y-\omega^{T}x)^{2}}{2\sigma^{2}}+ \frac{||\omega||^{2}}{2\sigma_{0}^{2}}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[(y-\omega^{T}x)^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}||\omega||^{2}\right]\\ &=\mathop{argmin\space}\limits_{\omega}\left[\sum\limits_{i=1}^{N}(y_{i}-\omega^{T}x_{i})^{2}+ \frac{\sigma^{2}}{\sigma_{0}^{2}}|| \omega||^{2}\right] \end{aligned}

从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验

再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计

 

我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 410\frac{4}{10},所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是23\frac{2}{3},因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。

来源:《PRML Translation》-P19

作者:马春鹏

原著:《Pattern Recognition and Machine Learning》

作者:Christopher M. Bishop

 

小结

线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。

作者:tsyw

链接:线性回归 · 语雀 (yuque.com)

 

该部分在PRML中P27,28页中有提到