机器学习入门|线性回归(一)

230 阅读4分钟
原文链接: click.aliyun.com

机器学习入门|线性回归(一)

kissjz 2018-01-30 01:43:42 浏览28 评论0

云栖社区 机器学习 函数 线性回归 换装攻略

摘要: 用一句话简单概括一下线性回归:线性回归是要求一个函数,通过这个函数来预测一个值。

用一句话简单概括一下线性回归:

线性回归是要求一个函数,通过这个函数来预测一个值。

举个例子,比如你要去银行贷款,那银行肯定不能随便给你钱吧。假设,银行会根据3个指标来决定带给你的额度:工资,年龄,房产,分别设为x_{1},x_{2},x_{3},这些就是我们的特征,再设Y为银行借给我们的钱。于是,可以得到:

Y=θ0+θ1x1+θ2x2+θ3x3.

其中,theta_{i}就是这个线性回归模型的参数了,分别表示同特征对贷款额度的影响程度,比如theta_{1}=10,theta_{2}=100,theta_{3}=1000,那所表明的意思就是房产占的比重最大,年龄其次。theta_{0}叫做偏置项,可以理解成根据贷款之前银行偏于借的多还是借的少,这个跟每个去银行借款的个人没有关系。

线性回归就是找到最合适的一条线(可以想象一个高维),来最好的拟合我们的数据点。
WeChat_Image_20180112183936_1_
拟合的平面: h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\theta_{3}x_{3}.
整合一下: h_{theta}(x)=sum_{i=0}^{n}theta_{i}x_{i}=theta^{T}x(其中,x_{0}=1
真实值和预测值之间肯定是要存在误差的,我们用\varepsilon表示。
对于每个样本:y^{(i)}=\theta^{T}x^{(i)}+\varepsilon ^{(i)}.
误差varepsilon ^{(i)}是独立并且具有相同分布,根据大数定理,服从均值为0,方差为theta^{2}的高斯(正态)分布。
独立可以这么理解,小明和小红一起贷款,他俩是没关系的。同分布的意思可以可解为他俩都是来的一家银行贷款的,都服从这家银行的规则。正态分布,银行可能多给也可能少,但是绝大多数情况下这个浮动不会太大,极小情况下浮动会比较大,但属于正常情况。

数学分析:

预测值和误差y^{(i)}=\theta^{T}x^{i}+\varepsilon ^{(i)} (1)
由于误差服从正态分布: p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon ^{(i)})^{2}}{2\sigma^{2}}) (2)
将(1)带入(2)中p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})
因为我们要跟银行贷款,但不知道银行能给我们多少额度,肯定的银行不会告诉你这些参数,于是我们就要通过似然函数来求参数。
似然函数,之前说贝叶斯的时候理论讲的很清楚了。今天又看见一个特别好的CSDN博客,但是公式是用照片传上来的,我把公式重新编辑了一下,转载来 **白水东城-最大似然估计学习总结------MadTurtle(转载)了( ̄︶ ̄)↗
似然函数:L(\theta)=\prod_{i=1}^{m}p(y^{i}|x^{i};\theta)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})
这里简单解释一下似然函数的意思,似然是知道了大概是啥分布,但参数不知道,我们根据结果去求什么样的参数能使得到这个结果的概率最大。又因为要对每一个样本都成立,所以所求到的参数不光是使小王在银行取钱符合正态分布,也要使对于小明一样,所以就要把每一个结果(也就是 y^{(i)})在这个参数下的概率都是最大,因此连乘。
对数似然: logL(\theta)=log\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^2}{2\sigma^{2}})
化简得mlog\frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{2\sigma^{2}}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2}
最后我们当然要求最大似然,因此即求:
J(θ)=m∑i=1(y(i)−θTx(i))2
的最小值。上式不正就是最小二乘吗?数学原理原来是这样~~
下面就是求使上式(最小二乘,也就是能拟合的平面)最小的\theta值了。
目标函数J(\theta)=\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})^{2}=(\mathbf{X}\theta-\mathbf{y})^{T}(\mathbf{X}\theta-\mathbf{y}) (加粗的使表示矩阵或向量)
theta求偏导:triangledown_{theta}J(theta)=0
\theta=(X^{T}X)^{-1}X^{T}y 版权声明:本文内容由互联网用户自发贡献,版权归作者所有,本社区不拥有所有权,也不承担相关法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

用云栖社区APP,舒服~

【云栖快讯】新年大招!云栖社区为在读大学生/研究生准备了一份学(huan)习(zhuang)攻略,发布博文即有机会赢得iPad mini 4等大奖,学习换装两不误!欢迎报名参与~  详情请点击 评论文章 (0) (0) (0)

相关文章

网友评论