本文已参与「新人创作礼」活动，一起开启掘金创作之路。

感知机与SVM

1. 超平面

在介绍感知机与SVM之前，我们有必要补充一下超平面的概念。超平面是具有下面形式的点的集合：

\{x|a^Tx=b\} \tag{1}

其中 $a\in R^n, a \neq 0$ 且 $b\in R$ 。 解析意义：超平面是关于 $x$ 的非齐次线性方程组的解空间（是一个仿射集合）。 几何意义：超平面是与给定向量 $a$ 的内积为常数的点的集合；也可以看成法线方向为 $a$ 的超平面，常数 $b\in R$ 决定了这个平面相对原点的偏移，每个轴上偏移了 $\frac{b}{a_i}$ 。超平面外任意一点 $y$ 到超平面的距离计算过程：在超平面上任取一点 $x$ ，则 $y$ 到超平面的距离可表示为：

d=\frac{|a^T(y-x)|}{||a||}=\frac{|a^Ty-b|}{||a||} \tag{2}

在感知机与SVM的相关理论推导中，我们一般将超平面写成如下形式：

\{x|w^Tx+b=0\} \tag{3}

2. 感知机（perception）

感知机是二类分类问题的线性分类模型。其输入为实例的特征向量，输出为实例的类别，取+1和-1二值。感知机学习旨在求出将训练数据进行线性划分的分离超平面。假设对所有 $y^{(i)}=+1$ 的点，有 $w^Tx^{(i)}+b>0$ ；对所有 $y^{(i)}=-1$ 的点，有 $w^Tx_i+b<0$ 。则对于给定数据集

T={(x^{(1)},y^{(1)}),\cdots,(x^{(N)},y^{(N)})}\tag{4}

线性可分的定义是： $\exists$ 某个超平面 $\{x|w^Tx+b=0\}$ 使得 $\forall(x^{(i)},y^{(i)})$ 有 $y^{(i)}(w^Tx^{(i)}+b)>0$ 也即对误分类的点有：

-y^{(i)}(w^Tx^{(i)}+b)>0\tag{5}

我们假设感知机的训练数据都是线性可分的。误分类点到超平面的总距离为：

-\frac{1}{\left \|w \right \|}\sum_{x^{(i)}\in M}y^{(i)}(w^Tx+b) \tag{6}

$M$ 为误分类点的集合。可以将 $(6)$ 作为优化的损失函数。我们可以把 $\frac{1}{\left \|w \right \|}$ 扔掉而不影响优化结果，因为我们假设数据集是线性可分的，因此最后损失函数必然为零，即无误分类点。去掉后，我们得到的loss function如下：

-\sum_{x^{(i)}\in M}y^{(i)}(w^Tx^{(i)}+b) \tag{7}

$(7)$ 是关于 $w,b$ 的连续可导线性函数，梯度为： $\nabla_wL(w,b)=-\sum_{x^{(i)}\in M}y^{(i)}x^{(i)} \tag{8}$ $\nabla_bL(w,b)=-\sum_{x^{(i)}\in M}y^{(i)} \tag{9}$ 可以利用随机梯度下降法轻松地进行优化： (1) 选取初值 $w_0,b_0$ (2) 在训练集中选取数据 $x^{(i)},y^{(i)}$ (3) $if$ $-y^{(i)}(w^Tx+b)\geq 0$ $w\leftarrow w+\eta y^{(i)}x^{(i)} \tag{10}$ $b\leftarrow b+\eta y^{(i)} \tag{11}$ $else$ 算法停止 (4) 转至(2)，直至训练集中没有误分类点。

3. 支持向量机（SVM）

感知机模型得到的分离超平面不是唯一的，会随着初值不同而不同。而SVM试图寻找一个最佳的超平面来划分数据。所谓“最优的超平面”，就是指“最中间的”的超平面，也即“与数据点间隔最大”的超平面。定义样本点 $(x^{i},y^{i})$ 与超平面 $w^Tx+b=0$ 的几何间隔为：

\gamma^{(i)}=\frac{y^{(i)}(w^Tx^{(i)}+b)}{\left \|w \right \|} \tag{12}

几何间隔其实就是 $(1)$ 中的距离。定义超平面与整个数据集的几何间隔为：

\gamma=\min \limits_{i=1,\cdots,N}\gamma^{(i)} \tag{13}

其物理含义为离超平面最近的点到超平面的几何距离。

定义样本点 $(x^{i},y^{i})$ 与超平面 $w^Tx+b=0$ 的函数间隔为：

{\hat \gamma}^{(i)}={y^{(i)}(w^Tx^{(i)}+b)}\tag{14}

函数间隔可以相对地表示点 $x$ 与超平面 $w^Tx^{(i)}+b)$ 的远近程度（在超平面确定的情况下）定义超平面与整个数据集的函数间隔为：

\hat\gamma=\min \limits_{i=1,\cdots,N}\hat\gamma^{(i)} \tag{15}

注意，当 $w$ 和 $b$ 同比例变化时，函数间隔也会同比例变化，但是超平面不变，这点性质对后面的推导很重要！！！根据上面的铺垫，SVM模型可表示为：

\begin{aligned} \max\limits_{w,b}\quad & \gamma \\ s.t.\quad & \gamma^{(i)}\geq \gamma,\quad i=1,\cdots,N \\ \tag{16} \end{aligned}

考虑到几何间隔与函数间隔的比例关系， $(16)$ 可以写成：

\begin{aligned} \max\limits_{w,b}\quad & \frac{\hat\gamma}{\left \|w \right \|} \\ s.t.\quad & \hat\gamma^{(i)}\geq \hat\gamma,\quad i=1,\cdots,N \\ \tag{17} \end{aligned}

而根据前面的分析我们可以知道，我们总可以同比例缩放 $(w,b)$ 使得 $\hat\gamma=1$ ，而超平面不变。因此 $(17)$ 可以进一步写成：

\begin{aligned} \max\limits_{w,b}\quad & \frac{1}{\left \|w \right \|} \\ s.t.\quad & \hat\gamma^{(i)}\geq 1,\quad i=1,\cdots,N \\ \tag{18} \end{aligned}

$(18)$ 可以再进一步写成：

\begin{aligned} \min\limits_{w,b}\quad & \frac{1}{2}{\left \|w \right \|}^2 \\ s.t.\quad & {y^{(i)}(w^Tx^{(i)}+b)}\geq 1,\quad i=1,\cdots,N \\ \tag{19} \end{aligned}

这样SVM就转化为了一个凸二次规划问题，可以用一些软件包方便得求解。但是这种问题的直接求解比较低效，为此可以使用Lagrange乘子法得到其对偶问题，这样不仅能简化计算，还可以为后面引入kernel的概念做铺垫。

3. SVM的Lagrange对偶问题

对 $(19)$ 的每一个不等式约束引进拉格朗日乘子（Lagrange multiplier） $\alpha_i\geq0,i=1,\cdots,N$ ，定义拉格朗日函数：

L(w,b,\alpha)=\frac{1}{2}{\left \|w \right \|}^2-\sum_{i=1}^{N}\alpha_iy^{(i)}(w^Tx^{(i)}+b)+\sum_{i=1}^{N}\alpha_i \tag{20}

$(19)$ 的原问题（primer problem）是如下所示的极小极大问题：

\min\limits_{\alpha}\max\limits_{w,b}L(w,b,\alpha) \tag{21}

$(19)$ 的对偶问题（dual problem）是如下所示的极大极小问题：

\max\limits_{\alpha}\min\limits_{w,b}L(w,b,\alpha) \tag{22}

先求 $\min\limits_{w,b}L(w,b,\alpha)$ 。将 $L(w,b,\alpha)$ 分别对 $w,b$ 求导并令其等于0：

\begin{aligned} \nabla_wL(w,b,\alpha)&=w-\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)}=0\\ \nabla_bL(w,b,\alpha)&=-\sum_{i=1}^N\alpha_iy^{(i)}=0\\ \tag{23} \end{aligned}

可得：

\min\limits_{w,b}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j{x^{(i)}}^Tx^{(i)}+\sum_{i=1}^{N}\alpha_i \tag{24}

因此 $(22)$ 可转化为：

\begin{aligned} \max\limits_{\alpha}\quad & -\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_j{x^{(i)}}^Tx^{(i)}+\sum_{i=1}^{N}\alpha_i \\ s.t.\quad &\alpha_i\geq0,i=1,\cdots,N\\ & \sum_{i=1}^N\alpha_iy^{(i)}=0\\ \tag{25} \end{aligned}

易证强对偶性成立。（原问题是凸问题且Slater条件成立）求解出最优的 $\alpha_i^*$ 后，就可以根据 $(23)$ 进一步求出 $w^*$ （也可以根据下面的KKT条件得到 $w^*$ 的公式）。那怎么求 $b^*$ 呢？根据KKT条件：

\begin{aligned} {y^{(i)}(w^Tx^{(i)}+b)} &\geq 1,\quad i=1,\cdots,N\\ \alpha_i &\geq 0,\quad i=1,\cdots,N\\ \alpha\Big({y^{(i)}(w^Tx^{(i)}+b)-1}\Big) &= 0,\quad i=1,\cdots,N\\ \nabla_wL(w,b,\alpha)=w-\sum_{i=1}^N\alpha_iy^{(i)}x^{(i)}&=0,\quad i=1,\cdots,N\\ \nabla_bL(w,b,\alpha)=-\sum_{i=1}^N\alpha_iy^{(i)}&=0,\quad i=1,\cdots,N\\ \tag{25} \end{aligned}

可以进一步求出 $b$ 。我们可以断定， $\exists \alpha_j^*>0$ （否则可推出 $w=0$ ，违背超平面的定义）。注意到，当 $\alpha_j^*>0$ 时，意味着 ${y^{(i)}(w^Tx^{(i)}+b)-1}=0$ ，也即这时候样本点在最大间隔边界上（称为支持向量）。

这显示出支持向量机的一个重要性质：训练完成后，大部分的训练样本都不需要保留，最终模型仅与支持向量有关。 $w^*$ 的表达式为：

w^*=\sum_{i\in S}\alpha_iy^{(i)}x^{(i)}\tag{26}

其中 $S$ 表示支持向量的下标集合。 $b^*$ 的表达式为：

b^*=y_j-\sum_{i\in S}\alpha_iy^{(i)}x^{(i)}x^{(j)}\tag{27}

于是，理论上可以选取任意支持向量求解 $b^*$ 。注意到对任意支持向量 $(x^{(s)},y^{(s)})$ ，都有：

{y^{(s)}(w^Tx^{(s)}+b)-1}=0\tag{28}

通过 $(26)$ 即可求出 $b^*$ 。实际上可以采用一种更鲁棒的做法：使用所有支持向量求解的结果的平均值：

b^*=\frac{1}{\left \| S\right \|}\sum_{s\in S}({y^{(s)}-w^Tx^{(s)}})\tag{29}

机器学习之感知机与SVM详细推导

感知机与SVM

1. 超平面

2. 感知机（perception）

3. 支持向量机（SVM）

3. SVM的Lagrange对偶问题