概述与大纲
从建模的目的看回归
回归分析与分类分析
都是一种基于统计模型的统计分析方法。它们都研究因变量(被解释变量)与自变量(解释变量)之间存在的潜在关系,并通过统计模型的形式将这些潜在关系进行显式的表达。
不同的是,回归分析中因变量是连续变量,如工资、销售额;而分类分析中因变量是属性变量,如判断邮件“是or否”为垃圾邮件。
统计建模的主要任务有二:预测与推断。
预测
就是利用一个训练完毕的模型,根据输入的自变量X获得对应的输出Y。在预测任务中,如果模型𝑓̂ f^可以准确地提供预测,那么𝑓̂ f^是什么形式并不重要,不在意可解释性。
而如果𝑓̂ f^的形式非常复杂且难以解释,我们可以将之称为黑盒模型(Black Box) 。
举一个例子,假设𝑋1,𝑋2,⋯,𝑋𝑝X1,X2,⋯,Xp是某个病人的血样特征,𝑌Y测量了病人使用药物后出现严重不良反应的风险,那么如果存在一个模型可以很好地通过𝑋X以预测𝑌Y,那自然是再好不过的事了。此时,模型的形式、变量之间的关系在正确预测面前都显得不那么重要。事实上,当前具有强大预测性能的模型大多都是黑盒模型,如强大的Xgboost机器学习算法以及各种深度学习算法,它们的模型可解释性差,我们难以解释其中一些参数的含义与统计性质。
推断
在很多情况下,我们对当𝑋1,𝑋2,⋯,𝑋𝑝X1,X2,⋯,Xp变化时如何影响𝑌Y更感兴趣,此时,我们估计模型𝑓̂ f^的目的不是为了预测𝑌Y,而是想明白两者之间的关系,更深层次地讲,我们想要知道模型内各种参数的数值与统计推断性质等等。在这种情况下,模型的可解释性就非常重要了,而通常我们在推断任务中最常使用的模型正是线性回归模型。举一个例子,在研究各因素对商品销售量的场景中,我们会更关注以下问题:哪类媒体对销量有直接的贡献?增加电视广告费用能对销售量带来多少程度的增加?等等,这就是典型的推断问题。
回归分析更加注重对因变量与自变量之间潜在关系的推断,所使用的统计模型也相对简单(一般为线性模型),如果你在比赛中需要分析各变量间的潜在相关关系,便可以考虑使用回归分析。
回归模型总述
回归思想与一般回归模型
数据的分类:横截面数据,时间序列数据以及面板数据。
横截面数据是回归分析最主要的分析数据类型,它可以视为在同一时间点(或抽样时间差异可以被忽略) 上对多个抽样个体的观测数据。
就是我们可以将采集的数据(𝑥1,𝑦1),(𝑥2,𝑦2),…,(𝑥𝑛,𝑦𝑛)(x1,y1),(x2,y2),…,(xn,yn)近似视为来自一个潜在总体的随机样本,即假设
(𝑥1,𝑦1),⋯,(𝑥𝑛,𝑦𝑛)∼𝑖𝑖𝑑(𝑥,𝑦)
回归思想
我们进行数据分析的最终目的是为了找到𝑥x与𝑦y之间的关系并用模型显性表示出来,此时最理想的状态是使用一个条件分布刻画𝑥x对𝑦y的影响
𝐹𝑦∣𝑥Fy∣x
即在任意给定𝑥x的条件下都有一个明确的分布𝐹F刻画𝑦y的状态。但是在实际问题中,直接估计这个条件分布几乎是一件不可能的事,且我们也难以对分布进行解释与应用。于是,我们退而求其次通过分布的一般数字特征对两者的关系进行推断,如条件分布的中心位置,形状,即考虑条件均值、条件方差
𝐸(𝑦∣𝑥),Var(𝑦∣𝑥)E(y∣x),Var(y∣x)
而回归正是利用条件均值𝐸(𝑦∣𝑥)E(y∣x)来刻画𝑥x与𝑦y的关系,回归建模的本质也正是“条件均值的建模”。
一般回归模型
事实上,如果我们将上述公式中的𝑥x泛化成条件均值𝐸(𝑦|𝑥)E(y|x),那么我们就能得到最一般的回归模型
𝑦=𝐸(𝑦|𝑥)+𝑢y=E(y|x)+u
这也就意味着,所谓回归模型的建模,本质上就是条件均值建模
线性回归模型
线性模型形式
在实际建模中,为了有效的估计,我们必须对模型中𝑚(𝑥)m(x)的形式进行具体的假定。在所有模型假定形式中,线性回归模型是最常用假定形式,也是回归分析中最重要的模型,是本次课程重点讲解的内容。
线性模型假设有:
𝑚(𝑥)=𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝m(x)=β0+β1x1+⋯+βpxp
于是,线性回归模型可表示为:
𝑦=𝛽0+𝛽1𝑥1+⋯+𝛽𝑝𝑥𝑝+𝑢,𝐸(𝑢∣𝑥1,⋯,𝑥𝑝)=0y=β0+β1x1+⋯+βpxp+u,E(u∣x1,⋯,xp)=0
回归分析主要研究如何有效地估计模型中的参数𝛽̂ 𝑖β^i,并利用模型进行推断与预测。
从简单线性回归到多元线性回归
先假设𝑥x是一维的,即只考虑一个因素对𝑦y的影响,此时亦称模型为简单线性回归,形式为
𝑦=𝛽0+𝛽1𝑥+𝑢,𝐸(𝑢∣𝑥)=0y=β0+β1x+u,E(u∣x)=0
𝛽0β0是截距项,可以理解为𝑥=0x=0时𝑦y的期望值,一般情况下,如果我们回归的任务是推断,则截距通常不重要; 𝛽1=Δ𝑚(𝑥)Δ𝑥β1=Δm(x)Δx,可理解为𝑥x每增加一个单位,𝑦y平均增加𝛽1β1个单位。
在实际问题中,我们更多地使用多元线性回归。一般的多元线性回归模型可写成:
𝑦=𝛽0+𝛽1𝑥1+⋯+𝛽𝑘𝑥𝑘+𝑢y=β0+β1x1+⋯+βkxk+u
𝑢u依旧为随机误差项,它表示除𝑥1x1,…,𝑥𝑘xk以外的其他因素对因变量𝑦y的影响,且同样满足假设
𝐸(𝑢∣𝑥1,⋯,𝑥𝑘)=0E(u∣x1,⋯,xk)=0
𝛽𝑖=∂𝑚(𝑥)∂𝑥𝑖βi=∂m(x)∂xi是回归函数对变量𝑥𝑖xi的偏导数,它被解释为在保持其他自变量不变的情况下,𝑥𝑖xi每增加一单位,𝑦y平均增加𝛽𝑖βi个单位
模型系数的估计方法——OLS估计及其性质
你这个线性回归模型里的参数是使用什么方法计算出来的呢?按照你这种方法计算出来的参数是否可靠呢?它们又具备哪些统计性质呢?
OLS估计的思想
直观上看,最佳的拟合直线应该尽可能的贴合样本点
不同的距离定义方法是不同估计法的一大区别,OLS对距离的定义是:残差的平方𝑢̂ 𝑖2u^i2。因此OLS估计的思想是:OLS估计求得的系数𝛽̂ 0β^0、𝛽̂ 1β^1,将使直线与所有样本的拟合残差的平方和最小,即
(𝛽̂ 0,𝛽̂ 1)=argmin∑𝑖=1𝑛(𝑦𝑖−𝛽̂ 0−𝛽̂ 1𝑥𝑖)2(β^0,β^1)=argmin∑i=1n(yi−β^0−β^1xi)2
对于多元线性回归,OLS估计的思想也完全相同,只不过多元线性回归的模型不是一条直线,而是一个多维的超平面。对于多元线性回归的OLS估计目标函数,有
(𝛽̂ 0,⋯,𝛽̂ 𝑘)=argmin∑𝑖=1𝑛(𝑦𝑖−𝛽̂ 0−𝛽̂ 1𝑥1𝑖−𝛽̂ 𝑘𝑥𝑘𝑖)2
OLS估计的代数性质
使用OLS估计对线性回归模型进行参数估计,估计出来的模型将有许多重要的特性与性质。其中有的性质是OLS估计自身求解过程所带来的,我们称之为代数性质,这部分性质是天然成立的;而有的性质只有在某些特定的模型假设下才能成立,一旦实际数据违反了假设,这些性质将不再成立。
OLS估计的代数性质来自于其本身求解过程中的方程组。我们观察一下上面的方程组,可以很快地总结出以下两条公式
第一条公式意味着:OLS估计预测残差之和为0;此外,这可以推出预测残差的均值也为0,即。我们以之前的gpa1回归建模为例,看看模型在python中实际计算出来的残差之和是否为0
第二条公式可以进行以下恒等推导:
这是OLS估计最重要的代数性质,它意味着OLS估计的残差与参与回归的自变量不相关。这预示着:如果我们消除因变量与某些自变量之间的线性相关性,可以先进行线性回归然后取残差!