最小二乘 Least Squares Method

165 阅读5分钟

最小二乘 Least Squares Method

**核心思想:**什么是最小二乘法?

在一张散点图上有很多数据点,最小二乘法的目标是找到一条线(或者一个曲线),这条线能够“最佳地”拟合这些数据点

**最佳:**使得所有数据点到这条线的“误差”的平方和最小

  1. 误差:对于每一个数据点 (x_i,y_i),其真实值 y_i 和拟合线上对应点的预测值 hatyihaty_i ​之间的差值,即e_i=y_iy^_ie\_i = y\_i - \hat{y}\_i
  2. 平方和:将每一个点的误差都进行平方(这样可以消除正负号,并且对较大的误差给予更大的“惩罚”),然后将它们全部加起来,得到总的误差平方和 (Sum of Squared Residuals, SSR)
  3. 最小化:算法的目标就是调整拟合线的位置和角度,直到这个总的误差平方和达到最小值

数学原理

最常见和最简单的应用是普通最小二乘法,用于线性回归

假设要拟合的线性模型是一条直线,其方程为:y^=β0+β1x \hat{y} = \beta_0 + \beta_1 x

算法的目标就是找到最优的 β0β1\beta_0 和 \beta_1

S(β0,β1)=i=1n(yiy^i)2=i=1n(yi(β0+β1xi))2S(\beta_0, \beta_1) = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (\beta_0 + \beta_1 x_i))^2

β0β1\beta_0 和 \beta_1求偏导:

{Sβ0=2i=1n(yiβ0β1xi)=0Sβ1=2i=1nxi(yiβ0β1xi)=0\begin{cases} \frac{\partial S}{\partial \beta_0} = -2 \sum_{i=1}^{n} (y_i - \beta_0 - \beta_1 x_i) = 0 \\ \frac{\partial S}{\partial \beta_1} = -2 \sum_{i=1}^{n} x_i (y_i - \beta_0 - \beta_1 x_i) = 0 \end{cases}

计算得出:

{β1=i=1n(xixˉ)(yiyˉ)i=1n(xixˉ)2β0=yˉβ1xˉ\begin{cases} \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} \\ \beta_0 = \bar{y} - \beta_1 \bar{x} \end{cases}


为什么使用平方而不是绝对值?

  1. 消除符号:误差有正有负,直接相加会相互抵消。平方后所有误差都变为正数
  2. 惩罚大误差:一个为4的误差,平方后是16;一个为2的误差,平方后是4。平方运算会不成比例地放大较大误差的影响,使得模型倾向于修正那些离群较远的点
  3. 便利性:平方函数是连续且可微的,这使得使用微积分(求导)来找到最小值变得非常容易和直接。而绝对值函数在零点处不可微,求解会更复杂

缺点:

  1. 对异常值敏感:由于误差是平方的,一个远离群体的异常值(outlier)会产生巨大的误差平方,从而对拟合线产生过大的影响,可能导致结果偏离
  2. 假设限制:标准的普通最小二乘法依赖一些假设(如线性关系、误差独立同分布等)。如果这些假设不成立,得到的结果可能不是最优的或具有误导性

独立同分布性:

独立性:一个数据点的误差与任何其他数据点的误差都是互不相关、互不影响

eg:

  1. 满足独立性:随机选择100块独立的田地进行实验。第一块田的误差(可能源于其独特的土壤、光照等随机因素)与第二块田的误差没有关系
  2. 违反独立性(自相关):如果研究的是某支股票每日的价格,今天的预测误差很可能与昨天的误差有关。比如,如果昨天模型的预测价格比实际价格低了(一个正误差),那么今天也很有可能出现类似方向的误差。这种在时间序列数据中常见的现象被称为自相关

同分布性:

  1. 数据点应该均匀地、松散程度一致地分布在拟合直线的两侧
  2. 满足同分布(方差齐性):无论是在施肥量低、中、还是高的水平上,产量的实际值偏离模型预测值的幅度都差不多
  3. 违反同分布(异方差性, Heteroscedasticity):在研究收入(y)与受教育年限(x)的关系时,可能会发现:受教育年限较低时,人们的收入水平普遍较低且差异不大(误差小);而受教育年限较高时,人们的收入可能性范围变得非常大,从普通职员到CEO都有(误差大)

“误差独立同分布” (i.i.d. errors) 是一个理想化的假设,它描述了一个“行为良好”的误差项应该是什么样子:

  1. 独立:每个误差都是一个独立的随机事件
  2. 同分布:所有这些随机事件都遵循着同一个规律,有着相同的波动范围

加权最小二乘法(Weighted Least Squares WLS)

普通最小二乘法 (OLS) 的一个重要假设是方差齐性 (Homoscedasticity),即所有误差项的方差都相同

当这个假设被违反时,就出现了异方差性 (Heteroscedasticity) 的问题:不同数据点的误差方差不同。这意味着某些数据点的可靠性(或精度)低于其他数据点

加权最小二乘法 (WLS) 正是为解决异方差性问题而设计的

  1. 高权重:分配给那些误差方差较小(精度高)的数据点
  2. 低权重:分配给那些误差方差较大(噪声大)的数据点

在WLS中,目标函数被修改为最小化加权残差平方和 (WSSR):

Minimize: Sw=i=1nwiei2=i=1nwi(yiy^i)2\text{Minimize: } \quad S_w = \sum_{i=1}^{n} w_i e_i^2 = \sum_{i=1}^{n} w_i (y_i - \hat{y}_i)^2

这里的 w_i 就是第 i 个数据点的权重

wi=1σi2w_i = \frac{1}{\sigma_i^2}

  1. 如果误差方差σi2\sigma_i^2很大(数据点不可靠),那么它的倒数WiW_i很小
  2. 如果误差方差σi2\sigma_i^2很小(数据点可靠),那么它的倒数WiW_i很大

Figure_1.png

  1. 颜色代表方差
  2. 红色普通最小二乘:由于右侧的黄色数据点非常分散且远离中心趋势,它们对 OLS 拟合线产生了巨大的“拉力”。为了照顾这些“噪声大”的点,OLS 线被向上或向下拖拽,从而偏离了真实的黑色虚线
  3. 蓝色加权最小二乘:WLS 更加关注权重高的点,所以它主要致力于拟合好左侧的数据,而相对“忽视”了右侧噪声点的影响。因此,蓝色线没有被右侧的离群点严重带偏,从而更贴近黑色的真实关系线