【机器学习-04】最小二乘法的推导过程及使用方法（python代码实现）最小二乘法是一种常用的数据拟合方法，它可以通过最

最小二乘法是一种常用的数据拟合方法，它可以通过最小化残差平方和来找到数据的最佳拟合线。有了上述内容铺垫之后，本文将介绍最小二乘法的推导过程，并提供使用Python实现最小二乘法的代码示例。

1.模型及方程组的矩阵形式改写

首先，我们对 $f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$ 模型进行矩阵形式改写。

模型改写称矩阵表达式

首先，假设多元线性方程有如下形式 $f(x) = w_1x_1+w_2x_2+...+w_dx_d+b$ 令 $w = [w_1,w_2,...w_d]^T$ ， $x = [x_1,x_2,...x_d]^T$ ，则上式可写为

$f(x) = w^Tx+b$

在机器学习领域，我们使用线性回归模型来建模自变量和因变量之间的关系。在这个模型中，我们引入自变量的系数，通常被称为权重（weight）。这些权重反映了自变量对因变量的影响程度。因此，我们将线性回归模型中的自变量系数命名为w，这是“weight”的简写。通过调整这些权重，我们可以控制自变量对因变量的贡献程度，从而更好地拟合数据并进行预测。

将带入数据后的方程组改写为矩阵方程

并且，假设现在总共有m条观测值， $x^{(i)} = [x_1^{(i)}, x_2^{(i)},...,x_d^{(i)}]$ ，则带入模型可构成m个方程：在这里插入图片描述

然后考虑如何将上述方程组进行改写，首先，我们可令

$\hat w = [w_1,w_2,...,w_d,b]^T$

$\hat x = [x_1,x_2,...,x_d,1]^T$

$\hat X = \left [\begin{array}{cccc} x_1^{(1)} &x_2^{(1)} &... &x_d^{(1)} &1 \\ x_1^{(2)} &x_2^{(2)} &... &x_d^{(2)} &1 \\ ... &... &... &... &1 \\ x_1^{(m)} &x_2^{(m)} &... &x_d^{(m)} &1 \\ \end{array}\right]$

$y = \left [\begin{array}{cccc} y_1 \\ y_2 \\ . \\ . \\ . \\ y_m \\ \end{array}\right]$

$\hat y = \left [\begin{array}{cccc} \hat y_1 \\ \hat y_2 \\ . \\ . \\ . \\ \hat y_m \\ \end{array}\right]$

其中

$\hat w$ ：方程系数所组成的向量，并且我们将自变量系数和截距放到了一个向量；
$\hat x$ ：方程自变量和1共同组成的向量；
$\hat X$ ：样本数据特征构成的矩阵，并在最后一列添加一个全为1的列；
$y$ ：样本数据标签所构成的列向量;
$\hat y$ ：预测值的列向量。

因此，上述方程组可表示为 $\hat X \cdot \hat w = \hat y$

模型进一步改写在改写了 $\hat x$ 和 $\hat w$ 之后，线性模型也可以按照如下形式进行改写：

$f(\hat x) = \hat w^T \cdot \hat x$

2.构造损失函数

在方程组的矩阵表示基础上，我们可以以SSE作为损失函数基本计算流程构建关于 $\hat w$ 的损失函数： $SSELoss(\hat w) = ||y - X\hat w||_2^2 = (y - X\hat w)^T(y - X\hat w)$

需要补充两点基础知识：

向量的2-范数计算公式
上式中， $||y - X\hat w^T||_2$ 为向量的2-范数的计算表达式。向量的2-范数计算过程为各分量求平方和再进行开平方。例如 $a=[1, -1,]$ ，则 $||a||_2= \sqrt{1^2+(-1)^2}=\sqrt{2}$ 。

向量的1-范数为各分量绝对值之和。值得注意的是，矩阵也有范数的概念，不过矩阵的范数计算要比向量复杂得多。

2-范数计算转化为内积运算
向量的2-范数计算结果其实就是向量（将其是做矩阵）的交叉乘积计算结果后开平方。例如， $a=[1, -1]$ ，则 $a$ 的交叉乘积为 $a \cdot a^T = [1, -1] \cdot \left [\begin{array}{cccc} 1 \\ -1 \\ \end{array}\right]=2$ ，开平方后等于其2-范数计算结果。

3.最小二乘法求解损失函数的一般过程

在确定损失函数的矩阵表示形式之后，接下来即可利用最小二乘法进行求解。其基本求解思路仍然和Lesson 0中介绍的一样，先求导函数、再令导函数取值为零，进而解出参数取值。只不过此时求解的是矩阵方程。

在此之前，需要补充两点矩阵转置的运算规则： $(A-B)^T=A^T-B^T$ $(AB)^T=B^TA^T$

接下来，对 $SSELoss(w)$ 求导并令其等于0：

$\begin{aligned} \frac{SSELoss(\hat w)}{\partial{\boldsymbol{\hat w}}} &= \frac{\partial{||\boldsymbol{y} - \boldsymbol{X\hat w}||_2}^2}{\partial{\boldsymbol{\hat w}}} \\ &= \frac{\partial(\boldsymbol{y} - \boldsymbol{X\hat w})^T(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}} \\ & =\frac{\partial(\boldsymbol{y}^T - \boldsymbol{\hat w^T X^T})(\boldsymbol{y} - \boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ &=\frac{\partial(\boldsymbol{y}^T\boldsymbol{y} - \boldsymbol{\hat w^T X^Ty}-\boldsymbol{y}^T\boldsymbol{X \hat w} +\boldsymbol{\hat w^TX^T}\boldsymbol{X\hat w})}{\partial{\boldsymbol{\hat w}}}\\ & = 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty}+X^TX\hat w+(X^TX)^T\hat w \\ &= 0 - \boldsymbol{X^Ty} - \boldsymbol{X^Ty} + 2\boldsymbol{X^TX\hat w}\\ &= 2(\boldsymbol{X^TX\hat w} - \boldsymbol{X^Ty}) = 0 \end{aligned}$

即 $X^TX\hat w = X^Ty$ 要使得此式有解，等价于 $X^TX$ （也被称为矩阵的交叉乘积crossprod存在逆矩阵，若存在，则可解出 $\hat w = (X^TX)^{-1}X^Ty$

4.最小二乘法的简单实现(python实现)

使用方法：
现在我们将使用Python来实现最小二乘法，并拟合一组数据点。

首先，导入必要的库：

import numpy as np
接下来，定义数据点：

x = np.array([1, 2, 3, 4, 5])
y = np.array([2, 3, 5, 6, 8])
然后，计算最小二乘法的参数：

n = len(x)
m = (n * np.sum(x * y) - np.sum(x) * np.sum(y)) / (n * np.sum(x**2) - np.sum(x)**2)
b = (np.sum(y) - m * np.sum(x)) / n
最后，打印拟合的直线方程：

print(f"拟合直线方程：y = {m}x + {b}")
运行代码，将得到拟合的直线方程。

【补充阅读】简单线性回归方程的参数计算

如果是简单线性回归，方程组形式也可快速推导自变量系数与截距。在简单线性回归中，w只包含一个分量，x也只包含一个分量，我们令此时的 $x_i$ 就是对应的自变量的取值，此时求解过程如下

损失函数为： $SSELoss = \sum^m_{i=1}(f(x_i)-y_i)^2$

通过偏导为零求得最终结果的最小二乘法求解过程为：

其中， $\bar x = \frac{1}{m}\sum^m_{i=1}x_i，x_i$ 为x的均值，并且 $(x_i,y_i)$ 代表二维空间中的点。此外，我们也可以通过前文介绍的 $\hat w = (X^TX)^{-1}X^Ty$ 结论，通过设置 $w$ 为两个分量的参数向量反向求解对应方程表达式来进行求解。

【补充阅读】简单线性回归的“线性”与“回归”形象理解

对于简单线性回归来说，由于模型可以简单表示为 $y=wx+b$ 形式，因此我们可以用二维平面图像来进行对应方程的函数图像绘制。例如，当模型为 $y=x+1$ 时，函数图像如下所示：

import matplotlib as mpl
import matplotlib.pyplot as plt

x = np.arange(-5,5,0.1)
y = x + 1
plt.plot(x, y, '-', label='y=x+1')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(loc = 2)

在这里插入图片描述

于此同时，我们的建模数据为：

Whole weight	Rings
1	2
3	4

将特征是为x、将标签是为y，则绘制图像可得：

# 绘制对应位置元素点图
A = np.arange(1, 5).reshape(2, 2)
plt.plot(A[:,0], A[:, 1], 'ro')

# 线性回归直线
plt.plot(x, y, '-', label='y=x+1')
plt.xlabel('x')
plt.ylabel('y')
plt.legend(loc = 2)

在这里插入图片描述

由于模型方程是基于满足数据中x和y基本关系构建的，因此模型这条直线最终将穿过这两个点。而简单线性回归的几何意义，就是希望找到一条直线，尽可能的接近样本点。或者说，我们是通过一条直线去捕捉平面当中的点。当然，大多数情况下我们都无法对平面中的点进行完全的捕捉，而直线和点之间的差值，实际上就是SSE。

而线性回归中回归的含义，则是：如果模型真实有效，则新数据也会像朝向这条直线“回归”一样，最终分布在这条直线附近。这就是简单线性回归中的“线性”和“回归”的形象理解。

当然，对于线性回归中的参数b，其实是bias（偏差或者截距）的简写，当x去职位0时，y=b，就好像直线在y轴上的截距，或者距离y=0的偏差。

形象理解只是辅助理解，若要从机器学习角度建好一个线性回归模型，需要从特征加权求和汇总角度理解模型本质。