最小二乘法

149 阅读3分钟

最小二乘法是一种用于拟合数据的统计方法,通常用于线性回归分析。下面是简单讲解:

概念

最小二乘法的目标是通过找到一条线(或曲线),使得这条线与给定数据点之间的距离(误差)的平方和最小化。

步骤

  1. 收集数据:假设你有一些数据点,比如每个月的销售额与广告支出。
  2. 选择模型:假设你要用一条直线来表示它们的关系,形式为 ( y = ax + b ),其中 ( y ) 是销售额,( x ) 是广告支出,( a ) 是斜率,( b ) 是截距。
  3. 计算误差:对于每一个数据点,计算预测值与实际值之间的差(误差),即 ( y_i - (ax_i + b) )。
  4. 平方和:将每个误差平方并求和,得到总误差。公式为:
    S=(yi(axi+b))2S = \sum (y_i - (ax_i + b))^2
  5. 求最小值:通过调整 ( a ) 和 ( b ) 的值,使 ( S ) 最小化,找到最佳的直线。

应用

使用最小二乘法,我们可以预测未来的数据趋势,分析变量之间的关系。

简单来说,最小二乘法就是通过调整参数找到最能代表数据的模型,以减少预测误差。

为什么是将每个误差平方求和得到总误差,不是直接用减法做误差判断?

直接用减法计算误差会有几个问题:

  1. 正负抵消:如果有些误差是正的,有些是负的,直接相减可能会得到零,无法反映总的误差大小。

  2. 强调较大误差:平方操作会放大较大的误差,使得模型更关注那些偏离较大的数据点,而在实际应用中,这有助于更好地拟合数据。

  3. 适应性:平方的形式保证了总误差始终为非负数,这样更易于进行数学分析和优化。

因此,平方和是更有效的误差度量方法,使得我们能够更准确地找到最佳拟合线。

公式解释?

这个公式是线性回归中的最小二乘法误差计算公式的表现形式。下面我会对每个符号进行最简单的解释:

公式:S=(yi(axi+b))2S = \sum (y_i - (ax_i + b))^2

  1. SS:代表误差平方和,即所有数据点的预测误差平方后的总和。
  2. \sum:求和符号,表示对括号内的表达式进行求和操作。
  3. yiy_i:表示第ii个数据点的实际观测值。
  4. xix_i:表示第ii个数据点的输入值或自变量值。
  5. aa:直线的斜率,描述自变量与因变量之间的变化关系。
  6. bb:直线的截距,即当自变量为0时,因变量的值。
  7. -:减号,用于计算预测值与实际值之间的差异。
  8. (axi+b)(ax_i + b):表示根据线性模型计算的第ii个数据点的预测值。
  9. 2^2:表示平方操作,用于计算误差的平方。

为了更容易理解这个公式,你可以这样想:你有一组数据点,每个点都有一个实际的值和一个根据模型预测的值。这个公式就是在计算所有预测值与真实值之间的差异,并将这些差异平方后加起来,得到一个总的误差值。最小二乘法的目标就是找到一条直线(或其他模型),使得这个误差值最小。为了做到这一点,你需要了解一些基础知识,如线性代数、统计学和数学优化理论。