机器学习笔记5-支持向量机2

537 阅读2分钟

1.低维到高维的映射

根据上一节的结论,我们主要要做的就是解决线性可分的问题,线性可分的问题最后会被转换为一个凸函数的问题就认为是有解的。 但是并不是每个问题都是线性可分的。遇到线性不可分的问题,我们可以将低维映射到高维。比如,二维映射到三维:
当特征空间的维度M上升时,对应的(ω,b)待估计参数的维度也会随之上升,整个模型的自由度也会随之上升,就有更大的概率将低维数据分开。 这里问题就由线性不可分变成了怎么找到φ(x),来完成低维到高维的映射。

2.核函数

为了解决上面找φ(x)的问题,引入了一个新的概念:核函数 核函数是一个实数,φ(x)T,φ(x)是维数相同的两个向量,又因为φ(x)T是和φ(x)的转置,两个维数相同的向量的内积就会得到一个数。

核函数K和φ(x)是一一对应的关系,核函数的形式不能随意的取,要满足下面的两个条件(这是一个定理,先记住就好了): Mercer定理:

3.对偶问题

原问题:

对偶问题定义:

定理一:

对偶差距: 原问题和对偶问题的差就是对偶差距

强对偶定理: 原问题的目标函数是凸函数的话,限制条件如果是线性函数,那么原问题的解和对偶问题的解是相同的

kkt条件:

总结:

1.先讲了因为很多情况是无法直接做到线性可分的,所以有了低维到高维的映射,来解决地位线性不可分的情况,转换到高维变成线性可分的,再用线性可分的方式来解决问题
2.低维到高维的映射关键是要找到φ(x)Tφ(x),引入核函数K(x1,x2)来替换φ(x)Tφ(x),接着讲到了核函数和φ(x)Tφ(x)是一一对应的,只要知道了其中一个就可以转换为另一个形式,并且讲到了 mercer定理。
3.讲了对偶问题,将原问题的求最小值转换为了最大值,证明了对偶问题是怎么推导出来的,并且引申出对偶差距,强对偶定理,kkt条件等概念。