数学建模：回归模型

谁住在深海的大包络里

2020-07-11 1,252 阅读3分钟

散点图

一元线性回归模型

诶普森诺是不可观察的随机因素

E诶普森诺：期望为0（平均值是0）

D诶普森诺：方差为西格玛的平方（点与直线之间距离的平均值是西格玛的平方）

对测试值做估计
回归系数做假设
对因变量预测

回归分析及MATLAB实现

区间估计

点估计：300人成绩，抽取30人（随机，容量），算这30人平均成绩，代表300人。

区间估计：300人成绩，这300人平均成绩落在某个区间的概率越大越好，区间长度越小越好。

残差

回归模型观测值与计算值的偏差

置信区间

要求长度越小越好，概率越大越好。

显著性水平

抽取数据对应假设是否成立：

例如实际90，假设80，但是抽取的成绩（不随机）都是80算出来平均为80，属于取伪错误。

取伪错误，是指原假设为假，但检验的结果接受了原假设。
弃真错误，是指原假设为真，但检验的结果拒绝了原假设；

这两个错误不能同时增加或减小，通常取0.05

处理办法：增大样本容量

模型的参数估计

回归系数的最小二乘估计

星号为观测值，y尖是对应值。最好的直线是观测值与对应值之差的平方和最小。

找β0和β1是关键
先算x和y的拔，然后带入方程求β0和β1

求出来之后，使用MATLAB实现：使用regress回归命令：

其中那一列1意思是β0的系数都是1

MATLAB实现

得出β0和β1
因为取得样本是随机的，所以β0和β1取值也是随机的，需要通过算出置信区间估计，我们一般取 α（一般取0.05）。

n个数据n个残差

残差作图：点代表残差，区间代表残差置信区间（落的范围），越接近0越好，置信区间包括0。查出异常点可以去掉。

其他

总体平方和：观测数据间偏差的大小。

回归平方和：估计值与平均值偏差大小。

残值平方和：观测值与估计值偏差大小。

总体=回归+残差

stats

拟合优度R²统计，希望接近1。即RSS↓ ，TSS↑

F统计量检验

H0是原假设，H1是备择假设。

如果β1是0，说明y＝β0，说明y与x没有线性关系，否则回归方程无意义

n是样本容量

P值

犯错概率（一般小于0.05/0.01）

seigema平方

回归题目

得到b（估计值），bint（置信区间），stats（r²，F，P）

残差分析

第一题总结

散点图，观察有没有关系
做回归分析
残差分析
预测

多元回归

得到回归平面

对β和seigema的估计

yi观测值和实际计算值的偏差平方和：使用矩阵转置算β三角。然后带入回归平面方程。
回归检验

系数不全为0

原假设是系数β全为0,再使用F检验法判断是否有线性关系：

也可以使用R检验，等效。

预测

确定回归系数的点估计值

一个例子

对数据进行处理，变成矩阵形式：

写代码：

出结果：

一般R²不小于0.85，F越大越好（看不出来）

分析残差图：16个样本是异常点

逐步回归分析：

使用MATLAB实现逐步回归分析：

例子：

取全部变量

移去变量x3和x4

仅仅对x1和x2做回归

非线性回归

散点图不像一条直线：

常见曲线

处理方法：

换元，使曲线变成线性。

例如双曲线：令y'等于1/y，x'等于1/x。

幂函数，指数函数，倒指数函数：取对数再换元

s型曲线：倒数再换元

如果都配不上

多项式回归：

例子：