Machine Learning(监督机器学习回归和分类Week3)

100 阅读4分钟

上周:线性回归:可以预测一个数字

这周,分类 输出变量y只能取可能值中的一个,而不是无限数字了

动机与目的

训练特征集得出的结果仅为概率的参考

垂直分界线:决策边

3dfe037b2d073cd203fa3abb77e62d3.jpg

逻辑回归算法

logistic regression逻辑回归(注意属于分类算法而不是回归算法) 得出的值仅在0-1 帮助分类

f(x)得出的值小于0.5,则y hat = 0;f(x)得出的值大于0.5,则y hat = 1

(后面的z就是前面的f) 2a393c5b8e426fa57c65cd13e7b11b8.jpg

560370812d71ad33600aa7753372f36.jpg 得出Sigmoid函数

Sigmoid函数

一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增及反函数单增等性质,Sigmoid函数常被用作神经网络的阈值函数,将变量映射到0和1之间。(该题重点在于Sigmoid函数得出g(z)的值为得癌症的概率

1c2ca4df40c50eb7276d9100bf3ea20.jpg

在图得出y=0.7时通过Sigmoid函数图(z为自变量,g(z)为阈值的图)得出

c984795719dc2394bfe854adb138750.jpg

(e取值2.7)

转变为70%的可能性为恶性肿瘤

总结:由已给特征集合锻炼出x为未知数的,w和b为已知数的式子f:1. 当带入f得出大于0.5,则z大于0,则f概率确诊,确诊力度大;2. 当带入f后小于0.5,z小于0,则f概率确诊,确诊力度小

决策边界

反推过程 c89d59f054047cd835f9f2c36f750d2.jpg x1 + x2 - b = 3 为边界线

以上是普通的决策边界,以下举例另一种决策边界(圆)

81a714bff482eea145f58ed76d7db0e.jpg

还有一些更复杂的决策边界

逻辑回归中的代价函数

d074a44fdb136da052215d9c2ea782d.jpg 总的代价函数为1/m × 损失函数的累和

6840620fb2d32474cc9fecfec104f18.jpg

f是对应的按照我们自己的逻辑回归函数和对应的wbx推出来的。损失函数就是用于预测我们推断结果与真实结果的误差

c870bd588c34912d1a68f7fb522de1b.jpg

若L函数接近1,则说明误差小

(后面偏难 仅贴图) 若之后有新的更贴合的解释会添加文字说明

简化逻辑回归代价函数

本节目的是简化(去掉损失函数和成本函数),使得梯度函数拟合更简单

5c64c54c290dc654aff947d13b46c91.jpg

损失函数简化过程

上面两个公式合成以下一个公式

23e7ab82c7be3aae63803f844d3b60c.jpg

简化成本函数

通过损失函数简化

7de18324626fabf625a79543a727af6.jpg

梯度下降

在此推荐一个机器学习——逻辑斯特回归(包含梯度下降推导) - 知乎 (zhihu.com)有助于理解

逻辑回归梯度下降推导

d47c8ded5fb690d523698e6fb38aab5.jpg

过拟合 overfitting(正则化regularization)

过拟合就是太过于合适数据 (中间是just right恰到好处;右边是overfit)

ae4265a41c9e0d8b83849db51738c07.jpg

7128e0fafa5b593d00f23d2af9aaf11.jpg

第一个是偏差(高偏差即使过拟合),第二个是方差(高方差high variance):都是过度合适数据

如何查找最合适呢:笔者认为应该是根据给的特征个数决定初始幂次,再根据特征的范围设定幂次

如何解决

  1. 获取更多的data数据
  2. 尝试选择和使用特征的一个子集
  3. reduce size of parameters 正则化 例如 神经网络

寻找特征集的子集

fdbeac87aa00e8fe42a121fce0382fb.jpg

正则化

正则化尝试让w1到wn变小 使得 过度拟合减小

在大部分情况下w有影响而b无影响

a6320c3f2afbbd04ccf0badd5959157.jpg

为什么加一个项却是使得n个特征削弱呢? 增加了后面的大系数二次项后为了代价函数取值较小,就只能将相应的w值减小了,最终呈现的结果是w变小了

dd54718242f0421bfcae2aa0bb6d052.jpg

我们希望减小最小化原始成本(第一个加式),即均方误差成本加上额外的第二项,并尽量减少第二个任期(使第二项w保持较小),这有助于减少过拟合(损失函数尽量小,即J尽量小。当lamada大时,只能w变小)

用于线性回归的正则方法

ec36bc1f0f91e3f78484069c4b7d1ad.jpg

第一部分是 平方误差成本函数 第二部分是额外的 正则化项(lamda是正则化参数)

用于逻辑回归的正则方法

8dec89b88019c1e5f1664b18737e3c2.jpg

两者相似

偏导数求导的链式法则