回归分析学习笔记(一)

173 阅读2分钟

simple linear regression 简单线性回归

linear regression with one predictor variable 单预测变量线性回归

relations between variables 变量关系

  • 函数关系Y=f(X)Y=f(X)

  • 统计关系Y=f(X)+εY=f(X)+\varepsilon

regression modes and their uses 回归模型及用处

  • 回归模型特征
  1. 响应变量随着预测变量变化,YY的概率分布的均值随着XX的变化而变化

  2. 点落在统计关系曲线附近,对于每一个确定的XXYY有确定的概率分布

  • 回归模型的构建
  1. 预测变量的选取

  2. 回归关系的函数形式

  3. 模型的范围

  • 回归模型的目标
  1. 描述变量之间的关系

  2. 理解变量之间的关系

  3. 给定预测变量,预测响应变量

  • 回归模型的用处
  1. 描述

  2. 控制

  3. 预测

  • 回归与因果关系

变量的相关性并不代表变量之间存在因果关系,变量之间的因果模式还需要其他分析加以验证,但是对变量进行回归分析是研究变量之间因果关系的必要步骤。

simple linear regression model with distribution of error terms unspecified 简单线性模型包含未知分布的误差项

Yi=β0+β1Xi+εi,i=1,2,...,nY_i=\beta_0+\beta_1X_i+\varepsilon_i,i=1,2,...,n

YiY_i:响应变量

XiX_i:预测变量

εi\varepsilon_i:随机误差项,E(εi)=0,Var(εi)=σ2E(\varepsilon_i)=0,Var(\varepsilon_i)=\sigma^2,误差之间不相关

β0,β1,σ2\beta_0,\beta_1,\sigma^2:未知参数(常数)

E{Yi}=E{β0+β1Xi+εi}=β+β1Xi+E{εi}=β0+β1XiVar{Yi}=Var{β0+β1Xi+εi}=Var{ϵi}=σ2cov{Yi,Yj}=cov{β0+β1Xi+εi,β0+β1Xj+εj}=cov{εi,εj}=0E\{Y_i\}=E\{\beta_0+\beta_1X_i+\varepsilon_i\}=\beta+\beta_1X_i+E\{\varepsilon_i\}=\beta_0+\beta_1X_i\\ Var\{Y_i\}=Var\{\beta_0+\beta_1X_i+\varepsilon_i\}=Var\{\epsilon_i\}=\sigma^2\\ cov\{Y_i,Y_j\}=cov\{\beta_0+\beta_1X_i+\varepsilon_i,\beta_0+\beta_1X_j+\varepsilon_j\}=cov\{\varepsilon_i,\varepsilon_j\}=0\\

overview of steps in regression analysis 回归分析步骤回顾

  1. 探索性分析

  2. 建立一个或多个探索性回归模型

  3. 修正回归模型或者建立新的方法

  4. 选择最合适的一个

  5. 根据回归模型进行推理

estimation of regression function 回归函数的估计

  • 最小二乘法

选择合适的b0,b1b_0,b_1作为β0,β1\beta_0,\beta_1的估计值,使得每个Yi,β0+β1XiY_i,\beta_0+\beta_1X_i尽可能地近,使得Q=i=1nεi2=i=1n(Yiβ0β1Xi)2Q=\sum\limits_{i=1}^{n}\varepsilon_i^2=\sum\limits_{i=1}^n(Y_i-\beta_0-\beta_1X_i)^2最小

  • b0,b1b_0,b_1计算过程

Qβ0=2i=1n(Yiβ0β1Xi)(1)=0Qβ1=2i=1n(Yiβ0β1Xi)(Xi)=0\frac{\partial Q}{\partial \beta_0}=2\sum\limits_{i=1}^{n}(Y_i-\beta_0-\beta_1X_i)(-1)=0\\ \frac{\partial Q}{\partial \beta_1}=2\sum\limits_{i=1}^{n}(Y_i-\beta_0-\beta_1X_i)(-X_i)=0

i=1nYi=nb0+b1i=1nXii=1nXiYi=b0i=1nXi+b1i=1nXi2\sum\limits_{i=1}^nY_i=nb_0+b_1\sum\limits_{i=1}^{n}X_i\\ \sum\limits_{i=1}^nX_iY_i=b_0\sum\limits_{i=1}^nX_i+b_1\sum\limits_{i=1}^{n}X_i^2

整理得

b1=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2=SSXYSSXXb0=Yˉb1Xˉb_1=\frac{\sum\limits_{i=1}^n(X_i-\bar{X})(Y_i-\bar{Y})}{\sum\limits_{i=1}^n(X_i-\bar{X})^2}=\frac{SS_{XY}}{SS_{XX}}\\ b_0=\bar{Y}-b_1\bar{X}

可以得到拟合曲线穿过(Xˉ,Yˉ)(\bar{X},\bar{Y})

  • 一些概念
  1. 真实回归曲线:E(Y)=β0+β1XE(Y)=\beta_0+\beta_1X

  2. 拟合回归曲线:Y^=b0+b1X\hat{Y}=b_0+b_1X

  3. 逐项残差:ei=YiYi^e_i=Y_i-\hat{Y_i}

  4. 逐项误差:εi=YiE(Yi)\varepsilon_i=Y_i-E(Y_i)

  5. 残差平方和:SSE=i=1nei2=i=1n(YiY^i)2SSE=\sum\limits_{i=1}^ne_i^2=\sum\limits_{i=1}^n(Y_i-\hat{Y}_i)^2

  • 拟合回归曲线的性质
  1. i=1nei=0\sum\limits_{i=1}^ne_i=0
  2. i=1nei2\sum\limits_{i=1}^ne_i^2最小
  3. i=1nYi=i=1nY^\sum\limits_{i=1}^nY_i=\sum\limits_{i=1}^n\hat{Y}
  4. i=1nXiei=0\sum\limits_{i=1}^nX_ie_i=0
  5. i=1nY^iei=0\sum\limits_{i=1}^n\hat{Y}_ie_i=0

estimation of error terms variance σ2\sigma^2 误差的方差的估计

误差的方差未知,使用残差估计误差的方差

  • MSE 均方误差 使用残差的均方作为误差的方差的估计 s2=1n2i=1nei2=SSEn2=MSEs^2=\frac{1}{n-2}\sum\limits_{i=1}^ne_i^2=\frac{SSE}{n-2}=MSE

  • 估计量的性质 E(MSE)=σ2E(MSE)=\sigma^2 最小二乘估计b0,b1b_0,b_1Yi{Y_i}的线性组合 最小二乘估计b0,b1b_0,b_1β0,β1\beta_0,\beta_1的BLUE(best linear unbiased estimators)

normal error regression model 正态误差回归模型

Yi=β0+β1Xi+εi,i=1,2,...,nY_i=\beta_0+\beta_1X_i+\varepsilon_i,i=1,2,...,n

εi\varepsilon_i独立同分布且εiN(0,σ2)\varepsilon_i\sim N(0,\sigma^2),其他条件与之前相同

YiN(β0+β1Xi,σ2),{Yi,i=1,2,...,n}Y_i\sim N(\beta_0+\beta_1X_i,\sigma^2),\{Y_i,i=1,2,...,n\}独立

f(yi)=fi=12πσexp{(yi(β0+β1Xi))22σ2},i=1,...,nf(y_i)=f_i=\frac{1}{\sqrt{2\pi}\sigma}\exp\bigg\{-\frac{(y_i-(\beta_0+\beta_1X_i))^2}{2\sigma^2}\bigg\},i=1,...,n

使用极大似然估计方法对分布的参数进行估计,可以得到

β1^=b1=SSXYSSXXβ0^=b0=Yˉβ^1Xˉσ^2=n2nMSE\hat{\beta_1}=b_1=\frac{SS_{XY}}{SS_{XX}}\\ \hat{\beta_0}=b_0=\bar{Y}-\hat{\beta}_1\bar{X}\\ \hat{\sigma}^2=\frac{n-2}{n}MSE
  1. 参数β0,β1\beta_0,\beta_1的MLEs和LSEs相同,是{Yi}\{Y_i\}的线性组合
  2. 参数β0,β1\beta_0,\beta_1的MLEs是BLUEs且服从正态分布
  3. 参数σ2\sigma^2的MLE是有偏估计量 SSEσ2χ2(n2),E(σ^2)=n2nσ2σ2\frac{SSE}{\sigma^2}\sim\chi^2(n-2),E(\hat{\sigma}^2)=\frac{n-2}{n}\sigma^2\to\sigma^2
  4. (β0^,β1^,Yˉ),σ^2(\hat{\beta_0},\hat{\beta_1},\bar{Y}),\hat{\sigma}^2独立

参考文献:Applied Linear Statistical Models (Fifth Edition), Michael H. Kutner, Christopher J. Nachtsheim, John Neter, William Li.