支持向量机

最大化间隔

原始代价函数

max\frac{2}{||w||} \\ \ \\ s.t.\ \ \ y_i(wx_i+b) \ge 1

约束条件表示所有样本都在两条线外

要计算最大化间隔, 可以转成拉格朗日乘子法求极值

L = \frac{||w||^2}{2} + \sum_{i=1}^m\alpha_i(1-y_i(wx_i+b))

其中 经验风险 为

\sum_{i=1}^m\alpha_i(1-y_i(wx_i+b))

结构风险 为

\frac{||w||^2}{2}

经验风险用来度量预测模型与训练数据的误差, 结构风险用来避免 过拟合

拉格朗日法求得模型参数 w 和 b 后得到判决函数

f(x_i, w) = \begin{cases} 1 & wx_i + b \ge 1 \\ -1 & wx_i + b \le -1 \end{cases}

将拉格朗日函数转换成计算(称为原始代价函数的 最大最小对偶 )

\underset{\alpha}{max} (\underset{w,b}{min} L)

先对 w 和 b 求导

\frac{\partial L}{\partial w} = w - \sum_{i=1}^m \alpha_iy_ix_i = 0

\frac{\partial L}{\partial b} = - \sum_{i=1}^m \alpha_iy_i = 0

计算得到 w 代入拉格朗日函数中

\begin{aligned} \underset{w,b}{min} L &= \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_ix_j-\sum_{i=1}^m\alpha_iy_i\left(\left(\sum_{j=1}^m\alpha_jy_jx_j\right)x_i+b\right)+\sum_{i=1}^m\alpha_i \\ &= \sum_{i=1}^m\alpha_i - \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_ix_j \end{aligned}

再利用拉格朗日乘子法求 α 极大 (又称为 $\alpha_i$ 的 二次规划 )

\underset{\alpha}{max} L \\ \ \\ s.t. \ \ \ \sum_{i=1}^m \alpha_iy_i = 0

计算得到 w 的最优解

w^* = \sum_{i=1}^m \alpha^*_i y_i x_i

再选择一个 $\alpha_i^* > 0$ 来计算 $b^*$

b^* = y_i - \sum_{i=1}^m \alpha_i^* y_i x_i x_j

得到判决函数

f(x) = sign(wx+b) = sign\left(\sum_{i=1}^m \alpha_i y_i x_i x + b\right)

没办法完美的区分在两条线外时

max\frac{2}{||w||} + C\sum_{i=1}^m\xi_i \\ \ \\ s.t.\ \ \ y_i(wx_i+b) \ge 1 - \xi_i

\begin{cases} \xi_i = 1 - y_i(wx_i + b) \\ \xi_i \ge 0 \end{cases}

当 $y_i = 1$ (正例) 时, $wx+b \le 1$ , 则 $0 \le 1-y_i(wx+b) \le 1$

当 $wx+b\ge1$ 时, $\xi_i=0$ , 表示惩罚(误差)为 0

\xi = max(0, 1-y_i(wx+b))

L = \frac{||w||^2}{2} + \sum_{i=1}^m\alpha_i(1-y_i(wx_i+b))+C\sum_{i=1}^m\xi_i - \sum_{i=1}^m\mu_i\xi_i

\underset{\theta}{min} C\sum_{i=1}^m \left[ y^{(i)}cost_1(\theta x^{(i)}) + (1-y^{(i)})cost_0(\theta x^{(i)}) \right] +\frac{1}{2}\sum_{i=1}^n\theta_j^2

将非线性可分问题转变为 线性可分 问题

K(x,y) =exp\left(\frac{-||x-y||^2}{2\sigma^2}\right) =exp\left(-\frac{\sum_{k=1}^n(x_k - y_k)^2}{2\sigma^2}\right)

s = sum((x1 - x2).^2);
sim = exp(-s / 2 / sigma^2);

f(x) 与 y 的差异大于 e 时才计算损失

\underset{w,b}{min}\frac{1}{2}||w||^2 + C\sum_{i=1}^m max(0, |f(x_i) - y| - e)