最小二乘 Least Squares Method最小二乘 Least Squares Method **核心思想：**

最小二乘 Least Squares Method

**核心思想：**什么是最小二乘法？

在一张散点图上有很多数据点，最小二乘法的目标是找到一条线（或者一个曲线），这条线能够“最佳地”拟合这些数据点

**最佳：**使得所有数据点到这条线的“误差”的平方和最小

误差：对于每一个数据点 (x_i,y_i)，其真实值 y_i 和拟合线上对应点的预测值 $haty_i$ 之间的差值，即 $e\_i = y\_i - \hat{y}\_i$
平方和：将每一个点的误差都进行平方（这样可以消除正负号，并且对较大的误差给予更大的“惩罚”），然后将它们全部加起来，得到总的误差平方和 (Sum of Squared Residuals, SSR)
最小化：算法的目标就是调整拟合线的位置和角度，直到这个总的误差平方和达到最小值

数学原理

最常见和最简单的应用是普通最小二乘法，用于线性回归

假设要拟合的线性模型是一条直线，其方程为： $\hat{y} = \beta_0 + \beta_1 x$

算法的目标就是找到最优的 $\beta_0 和 \beta_1$

$S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2$

对 $\beta_0 和 \beta_1$ 求偏导：

$\begin{cases} \frac{\partial S}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0 \\ \frac{\partial S}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \end{cases}$

计算得出：

$\begin{cases} \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \\ \beta_0 = \bar{y} - \beta_1 \bar{x} \end{cases}$

为什么使用平方而不是绝对值？

消除符号：误差有正有负，直接相加会相互抵消。平方后所有误差都变为正数
惩罚大误差：一个为4的误差，平方后是16；一个为2的误差，平方后是4。平方运算会不成比例地放大较大误差的影响，使得模型倾向于修正那些离群较远的点
便利性：平方函数是连续且可微的，这使得使用微积分（求导）来找到最小值变得非常容易和直接。而绝对值函数在零点处不可微，求解会更复杂

缺点：

对异常值敏感：由于误差是平方的，一个远离群体的异常值（outlier）会产生巨大的误差平方，从而对拟合线产生过大的影响，可能导致结果偏离
假设限制：标准的普通最小二乘法依赖一些假设（如线性关系、误差独立同分布等）。如果这些假设不成立，得到的结果可能不是最优的或具有误导性

独立同分布性：

独立性：一个数据点的误差与任何其他数据点的误差都是互不相关、互不影响的

eg：

满足独立性：随机选择100块独立的田地进行实验。第一块田的误差（可能源于其独特的土壤、光照等随机因素）与第二块田的误差没有关系
违反独立性（自相关）：如果研究的是某支股票每日的价格，今天的预测误差很可能与昨天的误差有关。比如，如果昨天模型的预测价格比实际价格低了（一个正误差），那么今天也很有可能出现类似方向的误差。这种在时间序列数据中常见的现象被称为自相关

同分布性：

数据点应该均匀地、松散程度一致地分布在拟合直线的两侧
满足同分布（方差齐性）：无论是在施肥量低、中、还是高的水平上，产量的实际值偏离模型预测值的幅度都差不多
违反同分布（异方差性, Heteroscedasticity）：在研究收入（y）与受教育年限（x）的关系时，可能会发现：受教育年限较低时，人们的收入水平普遍较低且差异不大（误差小）；而受教育年限较高时，人们的收入可能性范围变得非常大，从普通职员到CEO都有（误差大）

“误差独立同分布” (i.i.d. errors) 是一个理想化的假设，它描述了一个“行为良好”的误差项应该是什么样子：

独立：每个误差都是一个独立的随机事件
同分布：所有这些随机事件都遵循着同一个规律，有着相同的波动范围

加权最小二乘法(Weighted Least Squares WLS)

普通最小二乘法 (OLS) 的一个重要假设是方差齐性 (Homoscedasticity)，即所有误差项的方差都相同

当这个假设被违反时，就出现了异方差性 (Heteroscedasticity) 的问题：不同数据点的误差方差不同。这意味着某些数据点的可靠性（或精度）低于其他数据点

加权最小二乘法 (WLS) 正是为解决异方差性问题而设计的

高权重：分配给那些误差方差较小（精度高）的数据点
低权重：分配给那些误差方差较大（噪声大）的数据点

在WLS中，目标函数被修改为最小化加权残差平方和 (WSSR)：

$\text{Minimize: } \quad S_w = \sum_{i=1}^{n} w_i e_i^2 = \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2$

这里的 w_i 就是第 i 个数据点的权重

$w_i = \frac{1}{\sigma_i^2}$

如果误差方差 $\sigma_i^2$ 很大（数据点不可靠），那么它的倒数 $W_i$ 很小
如果误差方差 $\sigma_i^2$ 很小（数据点可靠），那么它的倒数 $W_i$ 很大

颜色代表方差
红色普通最小二乘：由于右侧的黄色数据点非常分散且远离中心趋势，它们对 OLS 拟合线产生了巨大的“拉力”。为了照顾这些“噪声大”的点，OLS 线被向上或向下拖拽，从而偏离了真实的黑色虚线
蓝色加权最小二乘：WLS 更加关注权重高的点，所以它主要致力于拟合好左侧的数据，而相对“忽视”了右侧噪声点的影响。因此，蓝色线没有被右侧的离群点严重带偏，从而更贴近黑色的真实关系线