支持向量机（Support Vector Machine）

线性可分(Linear Separable)：存在一条直线（2D）/平面（3D）/超平面（>=4dim），可以将两类分开

线性不可分(Nonlinear Separable)：不存在一条直线/平面/超平面，可以将两类分开

1. 数学表达

截屏2021-04-15 16.15.46.png

用数学严格定义训练样本以及他们的标签

假设我们有N个训练样本和他们的标签 $\{(X_1,y_1),(X_2,y_2),...,(X_N,y_N)\}$

其中 $X_i = [x_{i1},x_{i2}]^T$ , $y_i = \{+1,-1\}$

$y_i$ 是标签，如果 $X_i$ 属于 $C_1$ ，则 $y_i = +1$ ; 如果 $X_i$ 属于 $C_2$ ，则 $y_i = -1$ .

用向量形式来定义线性可分

假设 $X_i = \left[ \begin{matrix} x_{i1} \\ x_{i2} \end{matrix} \right]$ $w = \left[ \begin{matrix} w_1 \\ w_2 \end{matrix} \right]$

(1) 若 $y_i = +1$ ，则 $w^TX_i + b>0$

(2) 若 $y_i = -1$ ，则 $w^TX_i + b<0$

如果 $y_i = +1$ 或 $-1$ ，则一个训练样本集 $\{(X_i, y_i)\}$ ，在 $i=1\sim N$ 线性可分，是指存在 $(w,b)$ ，使得对 $i=1\sim N$ ，有： $y_i(w^TX_i + b) > 0$

2. 如何解决线性可分问题

截屏2021-04-15 16.44.23.png

支持向量机寻找的最优分类直线应满足：

该直线分开了两类；
该直线最大化间隔(margin)；
该直线处于间隔的中间，到所有支持向量距离相等。

扩展到多维环境，支持向量机要找一个超平面，使它的间隔最大，并且离两边所有支持向量的距离相等。为了推出最优问题，我们要注意以下事实。

事实一

$w^Tx + b = 0$ 与 $(aw^T)x + (ab) = 0$ 是同一个超平面。 $(a \not= 0)$

事实二

一个点 $X_0$ 到超平面 $w^x + b = 0$ 的距离 $d = \frac{|w^T x_{0} + b|}{||w||}$

基于事实一，我们用a去缩放w b，使得 $(w, b) \rightarrow (aw, ab)$ ，最终在支持向量 $x_0$ 上有 $|w^Tx_0 + b| = 1$ ，而在非支持向量上 $|w^Tx_0 + b| > 1$ .

基于事实二，支持向量 $x_0$ 到超平面的距离将会变为 $d = \frac{|w^Tx_0 + b|}{||w||}= \frac{1}{||w||}$ . 由此可见，如果我们要最大化支持向量到超平面的距离，那么等价于最小化 $||w||$ . 因此我们把优化问题定为最小化 $\frac{1}{2}||w||^2$ ，便于求导。

可证 $\frac{\partial \frac{1}{2}||w||^2}{\partial w} = w$

其中 $w$ 是一个 $n \times 1$ 的向量， $w=\left[\begin{matrix}w_1 \\w_2 \\...\\w_n \end{matrix}\right]$ .

综合上述事实，限制条件为： $y_i(w^Tx_i + b) \geq 1, i=1\sim N$

其中 $1$ 可以改为任意的正数。 $y_i$ 的作用是协调超平面的左右，使得一边 $w^Tx_i + b>1$ ，另一边 $w^Tx_i + b<1$ .

综上所述，线性可分情况下，支持向量机寻找最佳超平面的优化问题可以表示为

最小化(Minimize): $\frac{1}{2}||w||^2$
限制条件: $y_i(w^Tx_i + b) \geq 1$ $(i=1\sim N)$

上述问题是二次规划问题，目标函数是二次项，限制条件是一次项。

3. 如何解决线性不可分问题

我们需要放松限制条件，即对每个训练样本和标签，引入松弛变量(slack variable) $\delta_i$ .

限制条件改写为 $y_i(w^Tx_i + b) \geq 1 -\delta_i$ $(i=1\sim N)$

3.1 改造后的Opt SVM

最小化： $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i$ 或 $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i^2$
限制条件：
- $\delta_i \geq 0$ $(i=1\sim N)$
- $y_i(w^Tx_i + b) \geq 1 -\delta_i$ $(i=1\sim N)$

其中比例因子 $C$ 是人为事先设定的（算法的超参数），比如10000，在实际应用中不断变化 $C$ 的值，同时测试算法的识别率，再选取最佳的超参数。

4. 低维到高维的映射

支持向量机的优点在于，它可以通过将特征空间由低维映射到高维来扩大可选函数范围，值得注意的是，SVM在高维空间中，仍然用线性超平面对数据进行分类。

这与其他类型的算法不同，例如人工神经网络、决策树，采用的是直接产生更多可选函数。比如在人工神经网络中，采用多层非线性函数的组合。

例子一

人为指定一个二维到五维的映射 $\varphi(x)$ ，线性不可分数据集变成了一个线性可分的数据集。截屏2021-04-18 14.56.00.png

截屏2021-04-18 14.56.53.png

截屏2021-04-18 14.57.26.png

定理

假设：在一个M维空间上随机取N个训练样本，随机地对每个训练样本赋予标签 +1或 -1。这些训练样本线性可分的概率为P(M)。那么，当M趋于无穷大时，P(M)=1。

理解：当我们增加特征空间的维度M的时候，超平面待估计的的参数 $(w,b)$ 会增加，整个算法模型的自由度也会增加，就更有可能分开低维时候无法分开的数据集。

结论： 将训练样本由低维映射到高维，能够增加线性可分的概率。

支持向量机优化问题

假设 $\varphi(x)$ 已经确定，只需修改SVM中优化问题 $x$ 为 $\varphi(x)$ 即可。

最小化： $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i$ 或 $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i^2$
限制条件：
- $\delta_i \geq 0$ $(i=1\sim N)$
- $y_i[w^T\varphi(x_i) + b] \geq 1 -\delta_i$ $(i=1\sim N)$

所有的 $x_i$ 被 $\varphi(x_i)$ 替代。

隐含的前提条件：在低维中， $w_i$ 维度与 $x_i$ 维度相同，在高维中， $w$ 维度与 $\varphi(x_i)$ 相同。

5. 核函数的定义

支持向量机创始人Vapnik在此问题上继续前进，他指出，我们可以不用知道 $\varphi(x)$ 的具体形式，取而代之，如果对空间任意向量，我们知道 $K(X_1,X_2)=\varphi(X_1)^T\varphi(X_2)$ ，则仍然能通过SVM，计算 $w^T\varphi(x)+b$ 的值，进而得出 $x$ 所属的类别。

定义核函数K 和映射 $\varphi$ ，它们是一一对应的关系。在说明如何通过核函数计算 $w^T\varphi(x)+b$ 之前，我们先研究核函数满足什么性质，才能存在 $\varphi(x)$ ，使得 $K(X_1,X_2)=\varphi(X_1)^T\varphi(X_2)$ 。

上述充要条件即为Mercer's Theorem。可以举例高斯核函数 $K(X_1,X_2)=e^{-\frac{||X_1-X_2||^2}{2\sigma^2}}$ ，满足Mercer's Theorem。但是在该例子中， $\varphi(x)$ 不能写成显式表达式。尽管如此，我们依然能够通过一些方法知道 $w^T\varphi(x)+b$ 的值，从而知道一个测试样本 $x$ 所属的类别。

6. 原问题(Prime Problem)和对偶问题(Dual Problem)

深入研究之前需要补充优化问题中的原问题与对偶问题的基础知识。定义复习凸优化:)嘿嘿

原问题(Prime Problem)

最小化(Minimize): $f(w)$

限制条件(Subject to):

$g_i(w)\leq 0$ $,i=1\sim K$

$h_i(w)=0$ $,i=1\sim M$

对偶问题(Dual Problem)

定义 $L(w,\alpha, \beta )=f(w)+\sum_{i=1}^K\alpha_ig_i(w)+\sum_{i=1}^M\beta_ih_i(w)=f(w)+\alpha^Tg(w)+\beta^Th(w)$

其中

$\alpha = [\alpha_1, \alpha_2,...,\alpha_K]^T$

$\beta = [\beta_1, \beta_2,...,\beta_M]^T$

$g(w) = [g_1(w), g_2(w),...,g_K(w)]^T$

$h(w) = [h_1(w), h_2(w),...,h_M(w)]^T$

对偶问题为

最大化(Maximize): $\theta(\alpha,\beta)=\inf_{w}L(w,\alpha, \beta)$

限制条件(Subject to): $\alpha_i \geq 0$ $, i = 1\sim K$

6.1 强对偶定理

如果原问题的目标函数是凸函数，限制条件是线性函数，则 $f(w^*)=\theta(\alpha^*,\beta^*)$ ，此时的对偶差距 $f(w^*)-\theta(\alpha^*,\beta^*)$ 等于0。

6.2 KKT条件

假如 $f(w^*)=\theta(\alpha^*,\beta^*)$ ，则定理一中必然能够推出，对于所有的 $i=1\sim K$ ， $\alpha_i g_i(w^*)=0$ ，即要么 $\alpha_i=0$ ，要么 $g_i(w^*)=0$ 。

7. SVM转化为对偶问题

7.1 原问题

最小化： $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i$ 或 $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i^2$
限制条件：
- $\delta_i \geq 0$ $(i=1\sim N)$
- $y_i(w^T\varphi(x_i) + b) \geq 1 -\delta_i$ $(i=1\sim N)$

首先将 $\delta_i \geq 0$ $(i=1\sim N)$ 转换成 $\delta_i \leq 0$ $(i=1\sim N)$ ，得到

最小化： $\frac{1}{2}||w||^2-C\sum_{i=1}^N \delta_i$ 或 $\frac{1}{2}||w||^2+C\sum_{i=1}^N \delta_i^2$
限制条件：
- $\delta_i \leq 0$ $(i=1\sim N)$
- $1 +\delta_i-y_i(w^T\varphi(x_i) + b) \leq 0$ $(i=1\sim N)$

容易发现，此时的限制条件都是线性的，而目标函数是凸的，满足强对偶定理。

接下来我们需要求解该对偶问题，值得注意的是，自变量 $w$ 变成了 $(w,b,\delta_i)$ 。 $g_i(w)$ 包括两个不等式，并且该问题中不包括 $h_i(w)$ 。

7.2 对偶问题

针对 $\frac{1}{2}||w||^2-C\sum_{i=1}^N \delta_i$ 来说：

最大化： $\theta(\alpha,\beta)=\inf_{w,\delta,b}\{\frac{1}{2}||w||^2-C\sum_{i=1}^N \delta_i+\sum_{i=1}^N\beta_i\delta_i+\sum_{i=1}^N\alpha_i[1+\delta_i-y_i(w^T\varphi(x_i) + b)]\}$
限制条件：
- $\alpha_i \geq0$ $(i=1\sim N)$
- $\beta_i \geq 0$ $(i=1\sim N)$

对 $(w,b,\delta_i)$ 求导并令导数为0,

截屏2021-04-18 16.46.40.png

把(1)(2)(3)式代入目标函数，得到

截屏2021-04-18 17.04.47.png

其中限制条件的第一条是基于 $\alpha_i \geq 0, \beta_i \geq 0$ 且 $\alpha_i+\beta_i=C$ 得到的。

8. 求解算法流程

上述问题也是一个二次规划问题，解此问题时，由于 $\varphi(X_i)^T\varphi(X_j)=K(X_i,X_j)$ 核函数，所以我们只需要知道核函数，无需知道 $\varphi(X)$ 的显式表达，就能求解这个对偶问题，得到 $\alpha_i,i=1\sim N$ 。解出 $\alpha$ 之后，可以根据 $w=\sum_{i=1}^N\alpha_iy_i\varphi(X_i)$ ，得到 $w$ 。

因为 $\varphi(x)$ 不一定具有显式表达式，所以 $w$ 也不一定具有显式表达式。下面将要说明，在不知道 $w$ 的显式表达的情况下，我们也能计算 $w^Tx+b$ 的值。

首先我们要求解 $b$ 。

根据KKT条件，对于所有 $i=1\sim N$ ，有 $\alpha_i[1 +\delta_i-y_i(w^T\varphi(X_i) + b)]=0$ ，且 $\beta_i\delta_i=0 \rightarrow (c-\alpha_i)\delta_i=0$ 。由于 $w=\sum_{j=1}^N\alpha_jy_j\varphi(X_j)$ ，则 $w^T\varphi(X_i)=\sum_{j=1}^N\alpha_jy_j\varphi^T(X_j)\varphi(X_i)=\sum_{j=1}^N\alpha_jy_jK(X_j,X_i)$

另一方面，如果对某个 $i$ ， $\alpha_i\neq0$ 且 $\alpha_i \neq c$ ，则根据KKT条件，必有 $\delta_i=0$

$1 +\delta_i-y_i(w^T\varphi(X_i) + b)=0$

其中 $y_iw^T\varphi(X_i)=\sum_{j=1}^N\alpha_jy_iy_jK(X_j,X_i)$

所以只需要找一个 $0<\alpha_i<c$ ，则 $b$ 能够被计算得到。

$b=\frac{1-\sum_{j=1}^N\alpha_iy_iy_jK(X_j,X_i)}{y_i}$

下面考虑对于一个测试样本X，我们需要判断其所属的类别，我们计算 $w^T\varphi(X)+b = \sum_{i=1}^N\alpha_iy_i\varphi(X_i)^T\varphi(X)+b=\sum_{i=1}^N\alpha_iy_iK(X_i,X)+b$

由此可见，即使 $\varphi(x)$ 未知，依然可以通过核函数来算出 $w^T\varphi(X)+b$ 。【Kernal Trick】

8.1 结论

判决标准为：

如果 $\sum_{i=1}^N\alpha_iy_iK(X_i,X)+b \geq 0$ ，那么 $X \in C_1$

如果 $\sum_{i=1}^N\alpha_iy_iK(X_i,X)+b < 0$ ，那么 $X \in C_2$

最终，我们只通过核函数，也能完成对 $X$ 的类别判决。

8.2 一些常用核函数介绍

(Linear)线性内核 $K(X_1,X_2)=X_1^TX_2$ $\rightarrow$ 没有实用价值
(Ploy)多项式核 $K(X_1,X_2)=(X_1^TX_2+1)^d$
(Rbf)高斯径向基函数核 $K(X_1,X_2)=e^{-\frac{||X_1-X_2||^2}{2\sigma^2}} \rightarrow$ 最常用的核函数
(tanh)sigmoid核 $K(X_1,X_2)=\tanh (\beta X_1^TX_2+b)$ ， $\tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}$

9. 国际象棋的兵王问题

图中是数据集样本，字母与数字对代表黑方王、白方王和白方兵在棋盘上的位置，"draw"表示和棋，"six"表示白方最多用六步将死黑方。

截屏2021-04-27 18.41.43.png

截屏2021-04-27 18.42.03.png

具体实例matlab见支持向量机（兵王问题MATLAB程序），注意其中svmtrain函数不适用于matlab2019之后的版本，需自行调整参数。

10. 识别系统的性能度量

不能简单地使用识别率来评价性能。

10.1 混淆矩阵

Confusion Matrix

截屏2021-04-27 19.34.41.png

例如兵王问题中的混淆矩阵，总共有 $TP+FN$ 个正样本， $FP+TN$ 个负样本，识别率为 $\frac{TP+TN}{TP+FN+FP+TN}$

截屏2021-04-27 19.36.33.png

混淆矩阵的概率关系 $TP+FN=1,FP+TN=1$ 。

截屏2021-04-27 19.39.33.png

10.2 ROC曲线

越贴近左上角的曲线，系统性能就越好。AUC越大，系统性能越好。EER越低，系统性能越好。

AUC

截屏2021-04-27 19.47.48.png

EER FP=FN

截屏2021-04-27 19.48.02.png

11. 处理多分类问题

SVM有三种方式处理多类问题，即类别大于2的问题：

改造优化的目标函数和限制条件（不常用）
一类 VS 其他类
一类 VS 另一类

11.1 一类 VS 其他类

构造N个

设有 $C_1,C_2,C_3$ 三类

SVM1: (C1C2) VS (C3)

SVM2: (C1C3) VS (C2)

SVM3: (C2C3) VS (C1)

假设 $y=+1$ 指向第一列的类， $y=-1$ 指向第二列的类。则可以通过hard decision来判断新样本X属于哪一类。

例如 $y=+1,y=+1,y=-1$ ，则 $X \in C_1$ 。如果 $y=+1,y=-1,y=-1$ ，则落在C1或C2，需要根据 $\alpha_iy_iK(X_i,X)+b$ 的值进行soft decision，哪一个值越小（负得越多）就是在哪一个类里。

11.2 一类 VS 另一类

构造 $\frac{N*(N-1)}{2}$ 个