Gitmodel-数据分析与统计建模 | task02 线性回归模型必知必会从建模的目的看回归：回归分析与分类分析都

概述与大纲

从建模的目的看回归

回归分析与分类分析

都是一种基于统计模型的统计分析方法。它们都研究因变量（被解释变量）与自变量（解释变量）之间存在的潜在关系，并通过统计模型的形式将这些潜在关系进行显式的表达。

不同的是，回归分析中因变量是连续变量，如工资、销售额；而分类分析中因变量是属性变量，如判断邮件“是or否”为垃圾邮件。

统计建模的主要任务有二：预测与推断。

预测

就是利用一个训练完毕的模型，根据输入的自变量X获得对应的输出Y。在预测任务中，如果模型𝑓̂ f^可以准确地提供预测，那么𝑓̂ f^是什么形式并不重要，不在意可解释性。

而如果𝑓̂ f^的形式非常复杂且难以解释，我们可以将之称为黑盒模型(Black Box) 。

举一个例子，假设𝑋1,𝑋2,⋯,𝑋𝑝X1,X2,⋯,Xp是某个病人的血样特征，𝑌Y测量了病人使用药物后出现严重不良反应的风险，那么如果存在一个模型可以很好地通过𝑋X以预测𝑌Y，那自然是再好不过的事了。此时，模型的形式、变量之间的关系在正确预测面前都显得不那么重要。事实上，当前具有强大预测性能的模型大多都是黑盒模型，如强大的Xgboost机器学习算法以及各种深度学习算法，它们的模型可解释性差，我们难以解释其中一些参数的含义与统计性质。

推断

在很多情况下，我们对当𝑋1,𝑋2,⋯,𝑋𝑝X1,X2,⋯,Xp变化时如何影响𝑌Y更感兴趣，此时，我们估计模型𝑓̂ f^的目的不是为了预测𝑌Y，而是想明白两者之间的关系，更深层次地讲，我们想要知道模型内各种参数的数值与统计推断性质等等。在这种情况下，模型的可解释性就非常重要了，而通常我们在推断任务中最常使用的模型正是线性回归模型。举一个例子，在研究各因素对商品销售量的场景中，我们会更关注以下问题：哪类媒体对销量有直接的贡献？增加电视广告费用能对销售量带来多少程度的增加？等等，这就是典型的推断问题。

回归分析更加注重对因变量与自变量之间潜在关系的推断，所使用的统计模型也相对简单（一般为线性模型），如果你在比赛中需要分析各变量间的潜在相关关系，便可以考虑使用回归分析。

回归模型总述

回归思想与一般回归模型

数据的分类：横截面数据，时间序列数据以及面板数据。

横截面数据是回归分析最主要的分析数据类型，它可以视为在同一时间点（或抽样时间差异可以被忽略） 上对多个抽样个体的观测数据。

就是我们可以将采集的数据(𝑥1,𝑦1),(𝑥2,𝑦2),…,(𝑥𝑛,𝑦𝑛)(x1,y1),(x2,y2),…,(xn,yn)近似视为来自一个潜在总体的随机样本，即假设

(𝑥1,𝑦1),⋯,(𝑥𝑛,𝑦𝑛)∼𝑖𝑖𝑑(𝑥,𝑦)

回归思想

我们进行数据分析的最终目的是为了找到𝑥x与𝑦y之间的关系并用模型显性表示出来，此时最理想的状态是使用一个条件分布刻画𝑥x对𝑦y的影响

𝐹𝑦∣𝑥Fy∣x

即在任意给定𝑥x的条件下都有一个明确的分布𝐹F刻画𝑦y的状态。但是在实际问题中，直接估计这个条件分布几乎是一件不可能的事，且我们也难以对分布进行解释与应用。于是，我们退而求其次通过分布的一般数字特征对两者的关系进行推断，如条件分布的中心位置，形状，即考虑条件均值、条件方差

𝐸(𝑦∣𝑥),Var(𝑦∣𝑥)E(y∣x),Var⁡(y∣x)

而回归正是利用条件均值𝐸(𝑦∣𝑥)E(y∣x)来刻画𝑥x与𝑦y的关系，回归建模的本质也正是“条件均值的建模”。

一般回归模型

事实上，如果我们将上述公式中的𝑥x泛化成条件均值𝐸(𝑦|𝑥)E(y|x)，那么我们就能得到最一般的回归模型

𝑦=𝐸(𝑦|𝑥)+𝑢y=E(y|x)+u

这也就意味着，所谓回归模型的建模，本质上就是条件均值建模

线性回归模型

线性模型形式

在实际建模中，为了有效的估计，我们必须对模型中𝑚(𝑥)m(x)的形式进行具体的假定。在所有模型假定形式中，线性回归模型是最常用假定形式，也是回归分析中最重要的模型，是本次课程重点讲解的内容。

线性模型假设有：

𝑚(𝑥)=𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝m(x)=β0+β1x1+⋯+βpxp

于是，线性回归模型可表示为：

𝑦=𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝑢,𝐸(𝑢∣𝑥1,⋯,𝑥𝑝)=0y=β0+β1x1+⋯+βpxp+u,E(u∣x1,⋯,xp)=0

回归分析主要研究如何有效地估计模型中的参数𝛽̂ 𝑖β^i，并利用模型进行推断与预测。

从简单线性回归到多元线性回归

先假设𝑥x是一维的，即只考虑一个因素对𝑦y的影响，此时亦称模型为简单线性回归，形式为

𝑦=𝛽0+𝛽1𝑥+𝑢,𝐸(𝑢∣𝑥)=0y=β0+β1x+u,E(u∣x)=0

𝛽0β0是截距项，可以理解为𝑥=0x=0时𝑦y的期望值，一般情况下，如果我们回归的任务是推断，则截距通常不重要； 𝛽1=Δ𝑚(𝑥)Δ𝑥β1=Δm(x)Δx，可理解为𝑥x每增加一个单位，𝑦y平均增加𝛽1β1个单位。

在实际问题中，我们更多地使用多元线性回归。一般的多元线性回归模型可写成：

𝑦=𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘+𝑢y=β0+β1x1+⋯+βkxk+u

𝑢u依旧为随机误差项，它表示除𝑥1x1,…,𝑥𝑘xk以外的其他因素对因变量𝑦y的影响，且同样满足假设

𝐸(𝑢∣𝑥1,⋯,𝑥𝑘)=0E(u∣x1,⋯,xk)=0

𝛽𝑖=∂𝑚(𝑥)∂𝑥𝑖βi=∂m(x)∂xi是回归函数对变量𝑥𝑖xi的偏导数，它被解释为在保持其他自变量不变的情况下，𝑥𝑖xi每增加一单位，𝑦y平均增加𝛽𝑖βi个单位

模型系数的估计方法——OLS估计及其性质

你这个线性回归模型里的参数是使用什么方法计算出来的呢？按照你这种方法计算出来的参数是否可靠呢？它们又具备哪些统计性质呢？

OLS估计的思想

直观上看，最佳的拟合直线应该尽可能的贴合样本点

不同的距离定义方法是不同估计法的一大区别，OLS对距离的定义是：残差的平方𝑢̂ 𝑖2u^i2。因此OLS估计的思想是：OLS估计求得的系数𝛽̂ 0β^0、𝛽̂ 1β^1，将使直线与所有样本的拟合残差的平方和最小，即

(𝛽̂ 0,𝛽̂ 1)=argmin∑𝑖=1𝑛(𝑦𝑖−𝛽̂ 0−𝛽̂ 1𝑥𝑖)2(β^0,β^1)=argmin⁡∑i=1n(yi−β^0−β^1xi)2

对于多元线性回归，OLS估计的思想也完全相同，只不过多元线性回归的模型不是一条直线，而是一个多维的超平面。对于多元线性回归的OLS估计目标函数，有

(𝛽̂ 0,⋯,𝛽̂ 𝑘)=argmin∑𝑖=1𝑛(𝑦𝑖−𝛽̂ 0−𝛽̂ 1𝑥1𝑖−𝛽̂ 𝑘𝑥𝑘𝑖)2

OLS估计的代数性质

使用OLS估计对线性回归模型进行参数估计，估计出来的模型将有许多重要的特性与性质。其中有的性质是OLS估计自身求解过程所带来的，我们称之为代数性质，这部分性质是天然成立的；而有的性质只有在某些特定的模型假设下才能成立，一旦实际数据违反了假设，这些性质将不再成立。

OLS估计的代数性质来自于其本身求解过程中的方程组。我们观察一下上面的方程组，可以很快地总结出以下两条公式 $\begin{aligned} &\sum_{i=1}^n{\left( y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\cdots -\hat{\beta}_kx_{ik} \right)}=\sum_{i=1}^n{\hat{u}_i}=0\\ &\sum_{i=1}^n{\left( y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\cdots -\hat{\beta}_kx_{ij} \right)}x_{ij}=\sum_{i=1}^n{\hat{u}_i}x_{ij}=0, j=1,\cdots ,k\\ \end{aligned}$

第一条公式意味着：OLS估计预测残差之和为0；此外，这可以推出预测残差的均值也为0，即。我们以之前的gpa1回归建模为例，看看模型在python中实际计算出来的残差之和是否为0

第二条公式可以进行以下恒等推导：

$\sum_{i=1}^n{x_{ik}}\hat{u}_i=\sum_{i=1}^n{x_{ik}}\left( \hat{u}_i-\bar{\hat{u}} \right) =\sum_{i=1}^n{\left( x_{ik}-\bar{x} \right)}\left( \hat{u}_i-\bar{\hat{u}} \right) =Cov\left( x_k,\hat{u} \right) =0, j=1,\cdots ,k$

这是OLS估计最重要的代数性质，它意味着OLS估计的残差与参与回归的自变量不相关。这预示着：如果我们消除因变量与某些自变量之间的线性相关性，可以先进行线性回归然后取残差！