贝叶斯方法与Ridge回归有什么联系?废话少说,我们直接来看。
为了方便说明问题,考虑一维的自变量,将一系列自变量排成向量的形式:x=(x1,⋯,xN)T,对应的目标函数为t=(t1,⋯,tN)T。
我们假设样本中每个t都独立,且服从正态分布,分布的均值为y(x,w)=∑j=0Mwjxj(也可以不指定形式,只要是关于x和w的函数即可),方差的倒数为β,则似然函数为
p(t∣x,w,β)=n=1∏NN(tn∣y(x,w),β−1)
将似然函数取对数,再把正态分布的具体形式写出来,有
lnp(t∣x,w,β)=−2βn=1∑N[y(xn,w)−tn]2+2Nlnβ−2Nln(2π)
最大化似然函数,等价于最小化它的负对数,也等价于最小化∑n=1N[y(xn,w)−tn]2。我们发现,其实这就是用OLS解线性回归问题。换句话说,用OLS解线性回归,相当于在正态分布假设下,求解最大似然问题。
那么在贝叶斯方法下,又会有什么事情发生呢?由于贝叶斯方法需要一个参数的先验分布,在这里就假设参数w的先验分布是一个由超参数α控制的简单的正态分布,注意这里是多维的正态分布:
p(w∣α)=N(w∣0,α−1I)=(2πα)2M+1exp(−2αwTw)
其中M+1是w的元素的总数。
根据贝叶斯定理,有
p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)
我们要最大化的就是w的后验概率,这样的方法就是MAP(maximum posterior)。
对上式右边取负对数,并舍去与w无关的项后,变为:
2βn=1∑N[y(xn,w)−tn]2+2αwTw
我们发现,在原本的数据服从正态分布的假设中,再加入关于参数的零均值、同方差且无相关的多维正态分布的假设后,贝叶斯方法要最优化的东西,就是Ridge回归中要最优化的东西,取正则化参数λ=βα,二者的结果是一致的。