simple linear regression 简单线性回归
linear regression with one predictor variable 单预测变量线性回归
relations between variables 变量关系
regression modes and their uses 回归模型及用处
-
响应变量随着预测变量变化,Y的概率分布的均值随着X的变化而变化
-
点落在统计关系曲线附近,对于每一个确定的X,Y有确定的概率分布
-
预测变量的选取
-
回归关系的函数形式
-
模型的范围
-
描述变量之间的关系
-
理解变量之间的关系
-
给定预测变量,预测响应变量
-
描述
-
控制
-
预测
变量的相关性并不代表变量之间存在因果关系,变量之间的因果模式还需要其他分析加以验证,但是对变量进行回归分析是研究变量之间因果关系的必要步骤。
simple linear regression model with distribution of error terms unspecified 简单线性模型包含未知分布的误差项
Yi=β0+β1Xi+εi,i=1,2,...,n
Yi:响应变量
Xi:预测变量
εi:随机误差项,E(εi)=0,Var(εi)=σ2,误差之间不相关
β0,β1,σ2:未知参数(常数)
E{Yi}=E{β0+β1Xi+εi}=β+β1Xi+E{εi}=β0+β1XiVar{Yi}=Var{β0+β1Xi+εi}=Var{ϵi}=σ2cov{Yi,Yj}=cov{β0+β1Xi+εi,β0+β1Xj+εj}=cov{εi,εj}=0
overview of steps in regression analysis 回归分析步骤回顾
-
探索性分析
-
建立一个或多个探索性回归模型
-
修正回归模型或者建立新的方法
-
选择最合适的一个
-
根据回归模型进行推理
estimation of regression function 回归函数的估计
选择合适的b0,b1作为β0,β1的估计值,使得每个Yi,β0+β1Xi尽可能地近,使得Q=i=1∑nεi2=i=1∑n(Yi−β0−β1Xi)2最小
令
∂β0∂Q=2i=1∑n(Yi−β0−β1Xi)(−1)=0∂β1∂Q=2i=1∑n(Yi−β0−β1Xi)(−Xi)=0
得
i=1∑nYi=nb0+b1i=1∑nXii=1∑nXiYi=b0i=1∑nXi+b1i=1∑nXi2
整理得
b1=i=1∑n(Xi−Xˉ)2i=1∑n(Xi−Xˉ)(Yi−Yˉ)=SSXXSSXYb0=Yˉ−b1Xˉ
可以得到拟合曲线穿过(Xˉ,Yˉ)
-
真实回归曲线:E(Y)=β0+β1X
-
拟合回归曲线:Y^=b0+b1X
-
逐项残差:ei=Yi−Yi^
-
逐项误差:εi=Yi−E(Yi)
-
残差平方和:SSE=i=1∑nei2=i=1∑n(Yi−Y^i)2
- i=1∑nei=0
- i=1∑nei2最小
- i=1∑nYi=i=1∑nY^
- i=1∑nXiei=0
- i=1∑nY^iei=0
estimation of error terms variance σ2 误差的方差的估计
误差的方差未知,使用残差估计误差的方差
-
MSE 均方误差
使用残差的均方作为误差的方差的估计
s2=n−21i=1∑nei2=n−2SSE=MSE
-
估计量的性质
E(MSE)=σ2
最小二乘估计b0,b1是Yi的线性组合
最小二乘估计b0,b1是β0,β1的BLUE(best linear unbiased estimators)
normal error regression model 正态误差回归模型
Yi=β0+β1Xi+εi,i=1,2,...,n
εi独立同分布且εi∼N(0,σ2),其他条件与之前相同
则Yi∼N(β0+β1Xi,σ2),{Yi,i=1,2,...,n}独立
f(yi)=fi=2πσ1exp{−2σ2(yi−(β0+β1Xi))2},i=1,...,n
使用极大似然估计方法对分布的参数进行估计,可以得到
β1^=b1=SSXXSSXYβ0^=b0=Yˉ−β^1Xˉσ^2=nn−2MSE
- 参数β0,β1的MLEs和LSEs相同,是{Yi}的线性组合
- 参数β0,β1的MLEs是BLUEs且服从正态分布
- 参数σ2的MLE是有偏估计量
σ2SSE∼χ2(n−2),E(σ^2)=nn−2σ2→σ2
- (β0^,β1^,Yˉ),σ^2独立
参考文献:Applied Linear Statistical Models (Fifth Edition), Michael H. Kutner, Christopher J. Nachtsheim, John Neter, William Li.