数学建模:回归模型

1,252 阅读3分钟

散点图

一元线性回归模型

诶普森诺是不可观察的随机因素

E诶普森诺:期望为0(平均值是0)

D诶普森诺:方差为西格玛的平方(点与直线之间距离的平均值是西格玛的平方)

  1. 对测试值做估计
  2. 回归系数做假设
  3. 对因变量预测

回归分析及MATLAB实现

区间估计

点估计:300人成绩,抽取30人(随机,容量),算这30人平均成绩,代表300人。

区间估计:300人成绩,这300人平均成绩落在某个区间的概率越大越好,区间长度越小越好。

残差

回归模型观测值与计算值的偏差

置信区间

要求长度越小越好,概率越大越好。

显著性水平

抽取数据对应假设是否成立:

例如实际90,假设80,但是抽取的成绩(不随机)都是80算出来平均为80,属于取伪错误。

  1. 取伪错误,是指原假设为假,但检验的结果接受了原假设。
  2. 弃真错误,是指原假设为真,但检验的结果拒绝了原假设;

这两个错误不能同时增加或减小,通常取0.05

处理办法:增大样本容量

模型的参数估计

回归系数的最小二乘估计

星号为观测值,y尖是对应值。最好的直线是观测值与对应值之差的平方和最小。

  1. 找β0和β1是关键

  2. 先算x和y的拔,然后带入方程求β0和β1

  1. 求出来之后,使用MATLAB实现: 使用regress回归命令:

其中那一列1意思是β0的系数都是1

MATLAB实现

  1. 得出β0和β1

  2. 因为取得样本是随机的,所以β0和β1取值也是随机的,需要通过算出置信区间估计,我们一般取 α(一般取0.05)。

  1. n个数据n个残差

  残差作图:点代表残差,区间代表残差置信区间(落的范围),越接近0越好,置信区间包括0。查出异常点可以去掉。

其他

总体平方和:观测数据间偏差的大小。

回归平方和:估计值与平均值偏差大小。

残值平方和:观测值与估计值偏差大小。

总体=回归+残差

stats

  1. 拟合优度R²统计,希望接近1。即RSS↓ ,TSS↑

  1. F统计量检验

H0是原假设,H1是备择假设。

如果β1是0,说明y=β0,说明y与x没有线性关系,否则回归方程无意义

n是样本容量

  1. P值

犯错概率(一般小于0.05/0.01)

  1. seigema平方

回归题目

  1. 得到b(估计值),bint(置信区间),stats(r²,F,P)

  1. 残差分析

第一题总结

  1. 散点图,观察有没有关系
  2. 做回归分析
  3. 残差分析
  4. 预测

多元回归

得到回归平面

对β和seigema的估计

  1. yi观测值和实际计算值的偏差平方和:使用矩阵转置算β三角。然后带入回归平面方程。

  2. 回归检验

系数不全为0

原假设是系数β全为0,再使用F检验法判断是否有线性关系:

也可以使用R检验,等效。

预测

确定回归系数的点估计值

一个例子

对数据进行处理,变成矩阵形式:

写代码:

出结果:

一般R²不小于0.85,F越大越好(看不出来)

分析残差图:16个样本是异常点

逐步回归分析:

使用MATLAB实现逐步回归分析:

例子:

取全部变量
移去变量x3和x4
仅仅对x1和x2做回归

非线性回归

散点图不像一条直线:

常见曲线

处理方法:

换元,使曲线变成线性。

例如双曲线:令y'等于1/y,x'等于1/x。

幂函数,指数函数,倒指数函数:取对数再换元

s型曲线:倒数再换元

如果都配不上

多项式回归:

例子: