数学建模 多元线性回归分析

1,863 阅读6分钟

回归的概念介绍

横截面数据往往可以使用回归来进行建模,我们通过回归可以得到自变 量与因变量之间的相关关系以及自变量的重要程度

时间序列数据往往需要进行我们进行预测,时间序列模型的选择也很多, 大家需要选择合适的模型对数据进行建模。

线性回归的“线性”: 指的是回归系数的线性,自变量和因变量不一定是线性关系

扰动项μ:包含了所有与y相关,但未添加到回归模型中的变量 如果这些变量和我们已经添加的自变量相关,则存在内生性

内生性:x和μ的相关性,如图,越相关,回归系数k的估计值越不稳定;在实际应用中,我们只要保证核心解释变量与𝝁不相关即可

核心解释变量:我们最感兴趣的变量,因此我们特别希望得到对其系数的 一致估计(当样本容量无限增大时,收敛于待估计参数的真值)。

控制变量:我们可能对于这些变量本身并无太大兴趣;而之所以把它们也 放入回归方程,主要是为了“控制住” 那些对被解释变量有影响的遗漏因素。

虚拟变量:如果自变量中有定性变量,例如性别、地域等,在 回归中要怎么处理呢?

多分类的虚拟变量

含有交互项的自变量

trick:取对数

☆回归的假设以及假设不成立时存在的问题以及解决办法以及回归的评价指标

详见:blog.csdn.net/liunian9203…

blog.csdn.net/Noob_daniel…

☆☆回归分析的五个基本假设以及假设失效的解决办法

五个基本假设

异方差

回归系数的p值大部分都>0.05,即回归系数大部分都没用,就有可能出现异方差或多重共线性问题,逐一检验!

出现异方差的解决办法

  • 因为标准误失效-----使用稳健的标准误+OLS(第一点)
  • 广义最小二乘法GLS---方差小的数据给更大的权重

判断假设是否失效--假设检验方法

  • 异方差性---散点图判断,BP检验、怀特检验√

残差即扰动项

图一:拟合值很小的时候没有什么波动,较大的时候波动较大==方差变化==异方差

图二:一开始波动很大,后面波动很小,同样是存在异方差

H0:"不存在异方差"

一般用怀特检验!

存在异方差的解决方法:
第一点是好的,第二点(标准误失效了,故t检验失效了,故假设检验失效了)和第三点是坏的;随着x增大,方差在变==异方差

把最下面那句话写在论文里!

多重共线性

完全多重共线性=最小二乘法解不出来=回归模型失效

我们要检验的是是否存在近似的多重共线性--->♥♥♥♥♥♥会使得回归系数的方差变大,使得系数估计不准确,回归结果不可靠;症状:虽然拟合优度R方很大,F联合显著性检验也很显著,但是单个系数的t检验不显著或者系数估计值不合理

多重共线性检验方法

求VIF(方差膨胀因子),回归模型的VIF=max{各自变量的VIF},当VIF>10,则认为该回归方程存在严重的多重共线性;stata命令Stata计算各自变量VIF的命令(在回归结束后使用): estat vif

假设失效的解决办法

  • 多重共线性--

  • 法一:直接删除导致多重共线性的变量(删除vif>10的变量)再进行回归

  • 法234:主成分分析法降维岭回归逐步回归(会有内生性的问题,主成分会更好);为了避免完全多重共线性的影响,引入虚拟变量的个数一般是分类数减1

  • 在逐步回归中会逐一加入自变量,如果时显著的或者时又多重共线性的就可以直接去除该自变量

可用的图

逐步回归

向后逐步回归效果比较好!

其他假设

判断假设是否失效--假设检验方法

  • 误差项是否呈正态分布---QQ图判断

☆实操

stata在虚拟变量的处理上比spss方便

转换为虚拟变量
tabulate 配方,gen(A)
tabulate 奶源产地 ,gen(B)
tabulate 国产或进口 ,gen(C)
tabulate 适用年龄岁 ,gen(D)
tabulate 包装单位 ,gen(E)
tabulate 分类 ,gen(F)
tabulate 段位 ,gen(G)

进行回归并存储结果
regress 评价量 团购价元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace

做题步骤:

  • stata描述性统计,给个表出来,写几句话分析一下
  • 进行多元线性回归,分析所有自变量前的回归系数联合显著性检验,p<0.05,则拒绝原假设,β不全为0
  • 分析回归结果,各个自变量的回归系数是否显著

  • 进行异方差检验,三种方法:①画残差-拟合值散点图,比较分散就不存在异方差②怀特检验,p>0.05则不存在异方差
  • 进行多重共线性检验,计算VIF,总VIF>10则存在多重共线性
  • 存在多重共线性---->使用逐步回归

【注】

  • 如果是分析谁最重要---->用标准化回归(注意标准化回归后线性模型没有常数项)

论文模板:www.bilibili.com/video/BV1i7…

操作截图

stata描述性统计

import excel"E:\我的文件\bg\数学建模\建模资料\上课用的课件和代码(下载后记得解压,所有视频配套的都在里面)\第7讲.多元回归分析\代码和例题数据",sheet("Sheet1") firstrow

summarize  单产 种子费 化肥费 农药费 机械费 灌溉费

求解多元线性回归模型:

regress  单产  种子费 化肥费 农药费 机械费 灌溉费

进行联合显著性检验:

【注】P>0.05,则接受原假设,p<0.05,则拒绝原假设:p值越小说明一个非常小概率时间居然发生了,所以拒绝原假设。详见:www.zhihu.com/question/35…

异方差检验:

散点图

怀特检验

多重共线性检验:

向后逐步回归