机器学习之多元线性回归

303 阅读5分钟

欢迎点击「算法与编程之美」↑关注我们!

本文首发于微信公众号:"算法与编程之美",欢迎关注,及时了解更多此系列文章。

1 多元线性回归概念

在回归分析中,如果有两个或两个以上的自变量,就称为多元回归。社会经济现象的变化往往受到多个因素的影响,例如,家庭消费支出,除了受家庭可支配收入的影响外,还受诸如家庭所有的财富、物价水平、金融机构存款利息等多种因素的影响。因此,一般要进行多元回归分析,我们把包括两个或两个以上自变量的回归称为多元线性回归。一元线性回归是一个主要影响因素作为自变量来解释因变量的变化。事实上,一种现象常常是与多个因素相联系的,由多个自变量的最优组合共同来预测或估计因变量,比只用一个自变量进行预测或估计更有效,更符合实际。因此多元线性回归比一元线性回归的实用意义更大。

多元线性回归与一元线性回归类似,可以用最小二乘法估计模型参数,也需对模型及模型参数进行统计检验。

选择合适的自变量是正确进行多元回归预测的前提之一,多元回归模型自变量的选择可以利用变量之间的相关矩阵来解决。

2 多元线性回归服从正态分布

多元线性回归要求服从高斯分布也就是正态分布。

正态分布函数:

640?wx_fmt=jpeg

3 多元线性回归模型

多元线性回归模型为:

640?wx_fmt=jpeg

  其中,b0为常数项,b1,b2…bk为回归系数,b1为X1,X2…Xk固定时,x1每增加一个单位对y的效应,即x1对y的偏回归系数;同理b2为X1,X2…Xk固定时,x2每增加一个单位对y的效应,即,x2对y的偏回归系数,等等。如果两个自变量x1,x2同一个因变量y呈线相关时,可用二元线性回归模型描述为:

640?wx_fmt=jpeg

  用最小二乘法求解参数。以二线性回归模型为例,求解回归参数的标准方程组为:

640?wx_fmt=jpeg

  解此方程可求得b0,b1,b2的数值。亦可用下列矩阵法求得:640?wx_fmt=jpeg

  即:

640?wx_fmt=jpeg

  最大似然估计和最小二乘法:

  又比如两个变量:

640?wx_fmt=jpeg

  使用最大似然估计解释最小二:

640?wx_fmt=jpeg

  高斯的对数似然与最小二乘:640?wx_fmt=jpeg

4 多元回归模型的检测与评价

  多元性回归模型与一元线性回归模型一样,在得到参数的最小二乘法的估计值之后,也需要进行必要的检验与评价,以决定模型是否可以应用。需要以下几个步骤:

1)拟合程度的测定

  与一元线性回归中可决系数R2相对应,多元线性回归中也有多重可决系数R2,它是在因变量的总变化中,由回归方程解释的变动(回归平方和)所占的比重,R2越大,回归方各对样本数据点拟合的程度越强,所有自变量与因变量的关系越密切。

计算公式为:640?wx_fmt=jpeg

2)估计标准误差

  估计标准误差,即因变量y的实际值与回归方程求出的估计值 之间的标准误差,估计标准误差越小,回归方程拟合程度越好。

640?wx_fmt=jpeg

  其中,k为多元线性回归方程中的自变量的个数。

3)回归方程的显著性检验

  回归方程的显著性检验,即检验整个回归方程的显著性,或者说评价所有自变量与因变量的线性关系是否密切。

能常采用F检验,F统计量的计算公式为:

640?wx_fmt=jpeg

  根据给定的显著水平a,自由度(k,n-k-1)查F分布表,得到相应的临界值Fa,若F > Fa,则回归方程具有显著意义,回归效果显著:F<Fa,则回归方程无显著意义,回归效果不显著。

5 多元线性回归的应用

(1)确定几个特定的变量之间是否存在相关关系,如果存在的话,找出它们之间合适的数学表达式;

(2)根据一个或几个变量的值,预测或控制另一个变量的取值,并且可以知道这种预测或控制能达到什么样的精确度;

(3)进行因素分析。例如在对于共同影响一个变量的许多变量(因素)之间,找出哪些是重要因素,哪些是次要因素,这些因素之间又有什么关系等等。

  实际生活中,多元线性回归可以分析许多东西,如:居民储蓄存款的影响因素分析,房价的影响因素分析,医疗费用的分析,老人高血压的影响因素分析,艾滋病患者生活质量分析。

更多精彩文章:


640?wx_fmt=png

温馨提示: 点击页面右下角“写留言”发表评论,期待您的参与!期待您的转发!