散点图
一元线性回归模型
诶普森诺是不可观察的随机因素
E诶普森诺:期望为0(平均值是0)
D诶普森诺:方差为西格玛的平方(点与直线之间距离的平均值是西格玛的平方)
- 对测试值做估计
- 回归系数做假设
- 对因变量预测
回归分析及MATLAB实现
区间估计
点估计:300人成绩,抽取30人(随机,容量),算这30人平均成绩,代表300人。
区间估计:300人成绩,这300人平均成绩落在某个区间的概率越大越好,区间长度越小越好。
残差
回归模型观测值与计算值的偏差
置信区间
要求长度越小越好,概率越大越好。
显著性水平
抽取数据对应假设是否成立:
例如实际90,假设80,但是抽取的成绩(不随机)都是80算出来平均为80,属于取伪错误。
- 取伪错误,是指原假设为假,但检验的结果接受了原假设。
- 弃真错误,是指原假设为真,但检验的结果拒绝了原假设;
这两个错误不能同时增加或减小,通常取0.05
处理办法:增大样本容量
模型的参数估计
回归系数的最小二乘估计
-
找β0和β1是关键
-
先算x和y的拔,然后带入方程求β0和β1
- 求出来之后,使用MATLAB实现: 使用regress回归命令:
MATLAB实现
-
得出β0和β1
-
因为取得样本是随机的,所以β0和β1取值也是随机的,需要通过算出置信区间估计,我们一般取 α(一般取0.05)。
- n个数据n个残差
其他
总体平方和:观测数据间偏差的大小。
回归平方和:估计值与平均值偏差大小。
残值平方和:观测值与估计值偏差大小。
总体=回归+残差
stats
- 拟合优度R²统计,希望接近1。即RSS↓ ,TSS↑
- F统计量检验
H0是原假设,H1是备择假设。
如果β1是0,说明y=β0,说明y与x没有线性关系,否则回归方程无意义
n是样本容量
- P值
犯错概率(一般小于0.05/0.01)
- seigema平方
回归题目
- 得到b(估计值),bint(置信区间),stats(r²,F,P)
- 残差分析
第一题总结
- 散点图,观察有没有关系
- 做回归分析
- 残差分析
- 预测
多元回归
对β和seigema的估计
-
yi观测值和实际计算值的偏差平方和:使用矩阵转置算β三角。然后带入回归平面方程。
-
回归检验
系数不全为0
原假设是系数β全为0,再使用F检验法判断是否有线性关系:
预测
一个例子
出结果:
分析残差图:16个样本是异常点
逐步回归分析:
使用MATLAB实现逐步回归分析:
例子:
非线性回归
散点图不像一条直线:
常见曲线
处理方法:
换元,使曲线变成线性。
例如双曲线:令y'等于1/y,x'等于1/x。
幂函数,指数函数,倒指数函数:取对数再换元
s型曲线:倒数再换元
如果都配不上
多项式回归: