最小二乘法在回归问题中的应用

线性回归基础知识

假设我们有样本 $D =\{(x_1,y_1),(x_2,y_2),.....(x_n,y_n)\}$ ，其中 $x_i$ 是 $n$ 维向量，也就是第 $i$ 个样本的 $n$ 个特征，而 $y_i$ 就是第 $i$ 个样本的取值。我们需要根据已知的 $D$ 来构建模型，之后当我们有新的 $x_n$ 输入时，根据模型就可以得出 $y_n$ 的预测值。

我们将信息表示的更完整一些：

$x_i = \left[ \begin{matrix}x_{i0}\\x_{i1}\\\vdots\\x_{in}\end{matrix} \right]$ 某一个样本的 $n$ 个特征，

我们把 $p$ 个样本的集合写作： $X =\left[\begin{matrix}x_1&x_2&x_3&\cdots&x_p\end{matrix}\right]^T =\left[\begin{matrix}x_{11}&x_{12}&x_{13}&\cdots&x_{1n}\\x_{21}&x_{22}&x_{23}&\cdots&x_{2n}\\\vdots\\x_{p1}&x_{p2}&x_{p3}&\cdots&x_{pn}\end{matrix}\right]$

我们的目标就是找到一组参数 $w =\left[\begin{matrix}w_1\\w_2\\w_3\\\vdots\\w_n\end{matrix}\right]$ 和一个偏置 $b$ (数)

可以得： $\left[\begin{matrix}x_{11}*w_1&x_{12}*w_2&x_{13}*w_3&\cdots&x_{1n}*w_n\\x_{21}*w_1&x_{22}*w_2&x_{23}*w_3&\cdots&x_{2n}*w_n\\\vdots\\x_{p1}*w_1&x_{p2}*w_2&x_{p3}*w_3&\cdots&x_{pn}*w_n\end{matrix}\right] +b=\left[\begin{matrix}\stackrel{-}{y_1}\\\stackrel{-}{y_2}\\\stackrel{-}{y_3}\\\vdots\\\stackrel{-}{y_n}\end{matrix}\right]$

$w$ 参数的计算--最小二乘法

最小二乘规定损失函数 $L(w)=\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2$ ，我们的目标就是找到 $w$ 使得 $L(w)$ 最小。

那为什么是最小二乘法，而不是三乘法，四乘法呢？

具体的我们可以从几何和概率两个角度来解释。

几何角度

我们来看 $Xw$ ，是一个向量空间，真实的 $Y$ 向量不在蓝色的向量空间内，我们需要在蓝色的向量空间内找到一个与 $Y$ 最相似的向量，而这个向量的 $w$ 就是我们要求的参数。

在这里插入图片描述

两个向量的欧式距离越近，说明两个向量越相似，而欧式距离的公式为： $\sqrt{\displaystyle \sum^n_{i=1}|w^Tx_i-y_i|^2}$ ，为了简化计算，我们算最小距离就是最小平方。

概率角度

我们知道 $\epsilon = y_i-\stackrel{-}{y_i}$ ，误差 $\epsilon$ 是符合高斯分布的，我们从中心极限定理可知。

$\because\epsilon \sim N(0,\sigma^2), \epsilon = y_i-\stackrel{-}{y_i}$

$\therefore y_i\sim N(\hat y_i,\sigma^2)$

$\therefore y_i\sim N(w^Tx_i,\sigma^2)$

我们利用极大似然估计求 $w$

最后可得 $argmin\sum_{i=1}^N(y_i - w^Tx_i)^2$

计算 $w$

我们要计算 $argmin L(w)$ ，对 $w$ 求导即可，具体过程建议看b站的www.bilibili.com/video/BV1aE… 过程非常详细。

如有错误，欢迎指教~

最小二乘法在回归问题中的应用

最小二乘法在回归问题中的应用

线性回归基础知识

www参数的计算--最小二乘法

那为什么是最小二乘法，而不是三乘法，四乘法呢？

几何角度

概率角度

计算www

$w$ 参数的计算--最小二乘法

计算 $w$