线性回归简介

84 阅读3分钟

开启掘金成长之旅!这是我参与「掘金日新计划 · 12 月更文挑战」的第12天,点击查看活动详情

  1. 什么是线性回归 其实回归算法是相对分类算法而言的,与我们想要预测的目标变量y的值类型有关。如果目标变量y是分类型变量,如预测用户的性别(男、女),预测月季花的颜色(红、白、黄……),预测是否患有肺癌(是、否),那我们就需要用分类算法去拟合训练数据并做出预测;如果y是连续型变量,如预测用户的收入(4千,2万,10万……),预测员工的通勤距离(500m,1km,2万里……),预测患肺癌的概率(1%,50%,99%……),我们则需要用回归模型。

聪明的你一定会发现,有时分类问题也可以转化为回归问题,例如刚刚举例的肺癌预测,我们可以用回归模型先预测出患肺癌的概率,然后再给定一个阈值,例如50%,概率值在50%以下的人划为没有肺癌,50%以上则认为患有肺癌。

这种分类型问题的回归算法预测,最常用的就是逻辑回归,后面我们会讲到。

2.一元线性回归 线性回归可以说是用法非常简单、用处非常广泛、含义也非常容易理解的一类算法,作为机器学习的入门算法非常合适。我们上中学的时候,都学过二元一次方程,我们将y作为因变量,x作为自变量,得到方程: y = β 0 + β 1 x y=\beta_{0}+\beta_{1} x y=β 0 ​ +β 1 ​ x 当给定参数β 0 \beta_{0}β 0 ​ 和β 1 \beta_{1}β 1 ​ 的时候,画在坐标图内是一条直线(这就是“线性”的含义)。 当我们只用一个x来预测y,就是一元线性回归,也就是在找一个直线来拟合数据。比如,我有一组数据画出来的散点图,横坐标代表广告投入金额,纵坐标代表销售量,线性回归就是要找一条直线,并且让这条直线尽可能地拟合图中的数据点。

这里我们得到的拟合方程是y = 0.0512x + 7.1884,此时当我们获得一个新的广告投入金额后,我们就可以用这个方程预测出大概的销售量。

数学理论的世界是精确的,譬如你代入x=0就能得到唯一的 y ^ , y ^ = 7.1884 \hat{y}, \hat{y}=7.1884 y ^ ​ , y ^ ​ =7.1884 (y上面加一个小帽子hat,表示这个y ^ \hat{y} y ^ ​ 不是我们真实观测到的,而是估计值)。但现实世界中的数据就像这个散点图,我们只能尽可能地在杂乱中寻找规律。用数学的模型去拟合现实的数据,这就是统计。统计不像数学那么精确,统计的世界不是非黑即白的,它有“灰色地带”,但是统计会将理论与实际间的差别表示出来,也就是“误差”。 因此,统计世界中的公式会有一个小尾巴μ \muμ ,用来代表误差,