应该对现有流行并将继续流行下去的分类模型有深刻的了解。随机森林和支持向量机(svm)
上篇文章简单介绍了随机森林,这篇文章简单介绍一下支持向量机(svm)。
偏重应用,轻数学解释推导。
线性分类器
一个非常简单的分类问题。

用一条直线,将两种颜色的点分开,如图所示(可以有无数条这样的直线)。 假如将黑点记作-1, 白点+1。直线f(x) = wx+b。这里的x, w是向量,其实也可以写成这种形式。f(x) = w1x1 + w2x2 + ... + wnxn + b(w0x0),当向量x的维度是2的时候,f(x)表示二维空间中的一条直线,当x的维度等于3的时候,f(x)表示3维空间中的一个平面;当x的维度n大于3的时候,表示的是n维空间中的n-1维超平面。 当有一个新的点需要预测分类的时候,就用sgn(f(x))。sgn表示符号函数,当f(x) > 0, 属于黑点;否则属于白点。
但是,对于无数条可能的直线,哪条效果是最好的?




上图就是对间隙的一个描述。Classifier Boundary就是fx, 红蓝线就是support vertor 所在面。红色,蓝色线之间的间隙就是要最大化的分类间的间隙。 直接给出M的公式:



线性不可分
由于线性可分的情况太少,下图是一个典型的线性不可分的分类图。


- 用图示曲线将其完全分开
- 另一种还是直线, 不用保证可分性, 包容分错。
针对第二种情况,假如惩罚函数,使的分错的情况越合理越好。可以为分错的点加上一点惩罚,对一个分错的点的惩罚函数就是这个点到其正确位置的距离:


核函数
刚刚提到,可以使用非线性的方法来完美划分。 让空间从原来的线性空间变成一个更高维的空间,在这个高维的线性空间下,在用一个超平面进行分割。



上面就是对svm的简单理解,笔者也不太懂,只是做个记录,期待后面有能力填坑。