机器学习入门|线性回归（一）

kissjz 2018-01-30 01:43:42 浏览28 评论0

摘要： 用一句话简单概括一下线性回归：线性回归是要求一个函数，通过这个函数来预测一个值。

用一句话简单概括一下线性回归：

线性回归是要求一个函数，通过这个函数来预测一个值。

举个例子，比如你要去银行贷款，那银行肯定不能随便给你钱吧。假设，银行会根据3个指标来决定带给你的额度：工资，年龄，房产，分别设为 $x_{1}$ , $x_{2}$ , $x_{3}$ ,这些就是我们的特征，再设Y为银行借给我们的钱。于是，可以得到:

Y=θ0+θ1x1+θ2x2+θ3x3.

其中， $theta_{i}$ 就是这个线性回归模型的参数了，分别表示同特征对贷款额度的影响程度，比如 $theta_{1}=10,theta_{2}=100,theta_{3}=1000$ ,那所表明的意思就是房产占的比重最大，年龄其次。 $theta_{0}$ 叫做偏置项，可以理解成根据贷款之前银行偏于借的多还是借的少，这个跟每个去银行借款的个人没有关系。

线性回归就是找到最合适的一条线（可以想象一个高维），来最好的拟合我们的数据点。
WeChat_Image_20180112183936_1_
拟合的平面： $h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}$ .
整合一下： $h_{theta}(x)=sum_{i=0}^{n}theta_{i}x_{i}=theta^{T}x$ （其中， $x_{0}=1$ ）
真实值和预测值之间肯定是要存在误差的，我们用 $\varepsilon$ 表示。
对于每个样本： $y^{(i)}=\theta^{T}x^{(i)}+\varepsilon ^{(i)}$ .
误差 $varepsilon ^{(i)}$ 是独立并且具有相同分布，根据大数定理，服从均值为0，方差为 $theta^{2}$ 的高斯（正态）分布。
独立可以这么理解，小明和小红一起贷款，他俩是没关系的。同分布的意思可以可解为他俩都是来的一家银行贷款的，都服从这家银行的规则。正态分布，银行可能多给也可能少，但是绝大多数情况下这个浮动不会太大，极小情况下浮动会比较大，但属于正常情况。

数学分析：

预测值和误差： $y^{(i)}=\theta^{T}x^{i}+\varepsilon ^{(i)}$ (1)
由于误差服从正态分布： $p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon ^{(i)})^{2}}{2\sigma^{2}})$ (2)
将（1）带入（2）中： $p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})$
因为我们要跟银行贷款，但不知道银行能给我们多少额度，肯定的银行不会告诉你这些参数，于是我们就要通过似然函数来求参数。
似然函数，之前说贝叶斯的时候理论讲的很清楚了。今天又看见一个特别好的CSDN博客，但是公式是用照片传上来的，我把公式重新编辑了一下，转载来 **白水东城-最大似然估计学习总结------MadTurtle（转载）了（￣︶￣）↗
似然函数: $L(\theta)=\prod_{i=1}^{m}p(y^{i}|x^{i};\theta)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})$
这里简单解释一下似然函数的意思，似然是知道了大概是啥分布，但参数不知道，我们根据结果去求什么样的参数能使得到这个结果的概率最大。又因为要对每一个样本都成立，所以所求到的参数不光是使小王在银行取钱符合正态分布，也要使对于小明一样，所以就要把每一个结果（也就是 $y^{(i)}$ ）在这个参数下的概率都是最大，因此连乘。
对数似然: $logL(\theta)=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})$
化简得： $mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2}$
最后我们当然要求最大似然，因此即求:
J(θ)=m∑i=1(y(i)−θTx(i))2
的最小值。上式不正就是最小二乘吗？数学原理原来是这样~~
下面就是求使上式（最小二乘，也就是能拟合的平面）最小的 $\theta$ 值了。
目标函数： $J(\theta)=\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}=(\mathbf{X}\theta-\mathbf{y})^{T}(\mathbf{X}\theta-\mathbf{y})$ (加粗的使表示矩阵或向量）
对 $theta$ 求偏导： $triangledown_{theta}J(theta)=0$
得： $\theta=(X^{T}X)^{-1}X^{T}y$ 版权声明：本文内容由互联网用户自发贡献，版权归作者所有，本社区不拥有所有权，也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件至：yqgroup@service.aliyun.com 进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容。

用云栖社区APP，舒服~

【云栖快讯】新年大招！云栖社区为在读大学生/研究生准备了一份学（huan）习（zhuang）攻略，发布博文即有机会赢得iPad mini 4等大奖，学习换装两不误！欢迎报名参与~ 详情请点击评论文章 (0) (0) (0)

机器学习入门|线性回归（一）

机器学习入门|线性回归（一）

数学分析：

相关文章

网友评论