最小二乘法在回归问题中的应用

269 阅读1分钟

最小二乘法在回归问题中的应用

线性回归基础知识

假设我们有样本D={(x1,y1),(x2,y2),.....(xn,yn)}D =\{(x_1,y_1),(x_2,y_2),.....(x_n,y_n)\},其中 xix_inn 维向量,也就是第ii个样本的nn个特征,而 yiy_i 就是第 ii 个样本的取值。我们需要根据已知的 DD 来构建模型,之后当我们有新的 xnx_n 输入时,根据模型就可以得出 yny_n 的预测值。

我们将信息表示的更完整一些:

xi=[xi0xi1xin]x_i = \left[ \begin{matrix}x_{i0}\\x_{i1}\\\vdots\\x_{in}\end{matrix} \right] 某一个样本的 nn 个特征,

我们把 pp 个样本的集合写作: X=[x1x2x3xp]T=[x11x12x13x1nx21x22x23x2nxp1xp2xp3xpn]X =\left[\begin{matrix}x_1&x_2&x_3&\cdots&x_p\end{matrix}\right]^T =\left[\begin{matrix}x_{11}&x_{12}&x_{13}&\cdots&x_{1n}\\x_{21}&x_{22}&x_{23}&\cdots&x_{2n}\\\vdots\\x_{p1}&x_{p2}&x_{p3}&\cdots&x_{pn}\end{matrix}\right]

我们的目标就是找到一组参数 w=[w1w2w3wn]w =\left[\begin{matrix}w_1\\w_2\\w_3\\\vdots\\w_n\end{matrix}\right]和一个偏置 bb (数)

可以得:[x11w1x12w2x13w3x1nwnx21w1x22w2x23w3x2nwnxp1w1xp2w2xp3w3xpnwn]+b=[y1y2y3yn]\left[\begin{matrix}x_{11}*w_1&x_{12}*w_2&x_{13}*w_3&\cdots&x_{1n}*w_n\\x_{21}*w_1&x_{22}*w_2&x_{23}*w_3&\cdots&x_{2n}*w_n\\\vdots\\x_{p1}*w_1&x_{p2}*w_2&x_{p3}*w_3&\cdots&x_{pn}*w_n\end{matrix}\right] +b=\left[\begin{matrix}\stackrel{-}{y_1}\\\stackrel{-}{y_2}\\\stackrel{-}{y_3}\\\vdots\\\stackrel{-}{y_n}\end{matrix}\right]

ww参数的计算--最小二乘法

最小二乘规定损失函数L(w)=i=1nwTxiyi2L(w)=\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2,我们的目标就是找到 ww 使得 L(w)L(w) 最小。

那为什么是最小二乘法,而不是三乘法,四乘法呢?

具体的我们可以从几何和概率两个角度来解释。

几何角度

我们来看 XwXw,是一个向量空间,真实的 YY 向量不在蓝色的向量空间内,我们需要在蓝色的向量空间内找到一个与 YY 最相似的向量,而这个向量的 ww 就是我们要求的参数。

在这里插入图片描述

两个向量的欧式距离越近,说明两个向量越相似,而欧式距离的公式为:i=1nwTxiyi2\sqrt{\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2} ,为了简化计算,我们算最小距离就是最小平方。

概率角度

我们知道 ϵ=yiyi\epsilon = y_i-\stackrel{-}{y_i} ,误差 ϵ\epsilon 是符合高斯分布的,我们从中心极限定理可知。

ϵN(0,σ2),ϵ=yiyi\because\epsilon \sim N(0,\sigma^2), \epsilon = y_i-\stackrel{-}{y_i}

yiN(y^i,σ2)\therefore y_i\sim N(\hat y_i,\sigma^2)

yiN(wTxi,σ2)\therefore y_i\sim N(w^Tx_i,\sigma^2)

我们利用极大似然估计求ww

最后可得argmini=1N(yiwTxi)2argmin\sum_{i=1}^N(y_i - w^Tx_i)^2

计算ww

我们要计算argminL(w)argmin L(w),对 ww 求导即可,具体过程建议看b站的www.bilibili.com/video/BV1aE… 过程非常详细。

如有错误,欢迎指教~