这是我参与更文挑战的第2天
1. 线性支持向量机
支持向量机的思想就是给定训练样本集 ,在样本空间中找到一个划分的超平面,例如下图:
但如果遇到某一些数据,并没有这么容易可以用一个平面分隔开,像如下的环形数据:
现实中非线性的数据还是很多数的,而解非线性问题要远比线性问题复杂得多,花费的资源也会成倍的增加,为此我们使用了核技巧(kernel trick)。
2. 核函数
如果原始空间是有限维,即属性数有限,那么一定存在一个高维特征空间使得样本可分。1
简单地讲,就是把数据映射到一个更加高维的空间,让数据在此高维空间上的映射线性可分。文字可能不太容易懂,看图的话,我们会比较直观。
还是如上面的环形数据,利用了核函数映射后在三维空间上的分布,如下图所示:
利用 scikit-learn 计算的关于原点 (0, 0) 的 RBF(高斯)映射,结尾会附上代码。
不难看出,在这个三维空间上的点,能够简单的用一个平面就分隔开,这样就避免了解非线性问题。
2.1. 径向基函数(Radial Basis Function)
所谓径向基函数,就是某种沿径向对称的标量函数。 通常定义为空间中任一点 到某一中心 之间欧氏距离的单调函数。 越远离中心,函数的取值就越小。2
一般 RBF 核又指高斯核,其形式为:
其中 为高斯核的带宽(其实意义与高斯分布的差不多), 就是第 个数据。
2.2. 计算核函数
计算核函数可以使用 sklearn 的 sklearn.metrics.pairwise.rbf_kernel 来计算:(具体的代码,可以在我的 Github 上下载,如果对你有帮助,希望可以给我个 star。)
>>> from sklearn.metrics import pairwise
>>> # draw circles data
>>> X, y = make_circles(100, factor=.1, noise=.1)
>>> # calculate the rbf (gaussian) kernel between X and (0, 0)
>>> K = pairwise.rbf_kernel(X, np.array([[0, 0]]))
>>> print(K)
[[0.58581766]
[0.74202632]
...
[0.63660304]
[0.98952965]]
利用这种变换,我们就可以用 SVM 在数据之间找到一个可以把两个类别区分开来的平面了: