本文已参与「新人创作礼」活动,一起开启掘金创作之路。
在之前已知
Loss Function:L(ω)=i=1∑N∣∣ωTxi−yi∣∣2解得ω^=(XTX)−1XTY
在实际应用时,如果样本容量不远远大于样本的特征维度,很可能造成过拟合,对这种情况,我们有下面三个解决方式:
1. 加数据
2. 特征选择(降低特征维度)如 PCA 算法。
3. 正则化
正则化一般是在损失函数(如上面介绍的最小二乘损失)上加入正则化项(表示模型的复杂度对模型的惩罚)
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
一般的,正则化框架有
ωargmin[LossL(ω)+penaltyλP(ω)]
当使用L1 Lasso时,对应正则化框架
ωargmin[LossL(ω)+∣∣ω∣∣1]
当使用L2 Ridge(岭回归)时,对应正则化框架
ωargmin[LossL(ω)+∣∣ω∣∣22]=ωargmin[LossL(ω)+ωTω]
对于L2 Ridge,估计ω^有
J(ω)ω^∂ω∂J(ω)2(XTX+λI)ω−2XTYω^=i=1∑N∣∣ωTxi−yi∣∣2+λωTω=(ωTXT−YT)(Xω−Y)+λωTω=ωTXTXω−2ωTXTY+YTT+λωTω=ωT(XTX+λI)ω−2ωTXTY+YTY=ωargminJ(ω)=2(XTX+λI)ω−2XTY=0=(XTX+λI)−1XTY
利用2范数进行正则化不仅可以使模型选择ω较小的参数,同时也避免XTX不可逆的问题
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
在前面已经知道
y=f(ω)+ϵ=ωTx+ϵϵ∼(0,σ2)y∣x;ω∼N(ωTx,σ2)
假设权重先验也为高斯分布,即取先验分布ω∼N(0,σ02),又有
p(y∣ω)p(ω)p(ω∣y)=2πσ1exp[−2σ2(y−ωTx)2]=2πσ01exp[−2σ02∣∣ω∣∣2]=p(y)p(y∣ω)p(ω)
因此对于ω的最大后验,有
ω^=ωargmax p(ω∣y)这里应该是i=1∏Np(ω∣yi),但最后再写不影响=ωargmax p(y∣ω)⋅p(ω)=ωargmax log[p(y∣ω)⋅p(ω)]=ωargmax log(2πσ12πσ01)+logexp[−2σ2(y−ωTx)2−2σ02∣∣ω∣∣2]=ωargmin [2σ2(y−ωTx)2+2σ02∣∣ω∣∣2]=ωargmin [(y−ωTx)2+σ02σ2∣∣ω∣∣2]=ωargmin [i=1∑N(yi−ωTxi)2+σ02σ2∣∣ω∣∣2]
从这里就可以看出,正则化后的最小二乘估计等价于噪声为高斯分布、先验分布为高斯分布的最大后验
再加上之前的,没有正则化的最小二乘估计等价于噪声为高斯分布的极大似然估计
我们可以按照下⾯的⽅式表述贝叶斯定理。如果在我们知道⽔果的种类之前,有⼈问我们哪个盒⼦被选中,那么我们能够得到的最多的信息就是概率p(B)。我们把这个叫做先验概率(prior probability),因为它是在我们观察到⽔果种类之前就能够得到的概率。⼀旦我们知道⽔果是橘⼦,我们就能够使⽤贝叶斯定理来计算概率p(B | F )。这个被称为后验概率(posterior probability),因为它是我们观察到F之后的概率。注意,在这个例⼦中,选择红盒⼦的先验概率是 104,所以与红盒⼦相⽐,我们更有可能选择蓝盒⼦。然⽽,⼀旦我们观察到选择的⽔果是橘⼦,我们发现红盒⼦的后验概率现在是32,因此现在实际上更可能选择的是红盒⼦。这个结果与我们的直觉相符,因为红盒⼦中橘⼦的⽐例⽐蓝盒⼦⾼得多,因此观察到⽔果是橘⼦这件事提供给我们更强的证据来选择红盒⼦。事实上,这个证据相当强,已经超过了先验的假设,使得红盒⼦被选择的可能性⼤于蓝盒⼦。
来源:《PRML Translation》-P19
作者:马春鹏
原著:《Pattern Recognition and Machine Learning》
作者:Christopher M. Bishop
小结
线性回归模型是最简单的模型,但是麻雀虽小,五脏俱全,在这里,我们利用最小二乘误差得到了闭式解。同时也发现,在噪声为高斯分布的时候,MLE 的解等价于最小二乘误差,而增加了正则项后,最小二乘误差加上 L2 正则项等价于高斯噪声先验下的 MAP解,加上 L1 正则项后,等价于 Laplace 噪声先验。
作者:tsyw
链接:线性回归 · 语雀 (yuque.com)
该部分在PRML中P27,28页中有提到