1.1 凸函数

1.1.1 基本概念

凸集： 对数据集合C，内的任意两点x1,x2∈C，那么连接x1,x2其连线上的点也属于集合C： $\theta x_1+(1−\theta)x_2∈C(∀0≤\theta≤1)$ 则我们称集合C是凸的，则C是一个凸集。

凸函数： 凸集上的函数如果满足以下式子: $f(θx_1+(1−θ)x_2)≤θf(x_1)+(1−θ)f(x_2)(∀0≤θ≤1)$ 则我们称这个函数是凸函数。

反之如果: $f(θx_1+(1−θ)x_2) ≤ θf(x_1)+(1−θ)f(x_2)(∀0≤θ≤1)$ 那我们称这个函数是凹函数。 `1 那么也就是得到高数常用的结论:当f(x)是凸函数的时候 $f^{(2)}(x) <= 0$ ,当f(x)是凹函数的时候 $f^{(2)}(x) >= 0$ 。

1.1.2 梯度

多维函数有 $y = f(x_1,x_2,x_3..,x_n)$ 是可导的，他的各个方向的梯度就是对不同x的偏导。

偏导在一起，那就是梯度: $▽f(x) = (\dfrac{\partial f(x)}{\partial x_1},\dfrac{\partial f(x)}{\partial x_2},....,\dfrac{\partial f(x)}{\partial x_n})$

然后f(x)在x_1点泰勒展开是: $f(x)=f(x_1)+f′(x_1)(x - x_1)....$

关于凸函数,在f(x)上,随机取两个相邻的点 $x_1,x_2$ ,不妨设 $x_{2} > x_{1}$ ,把 $f(x_{1})$ 加上 $f(x_{1})$ 相对 $f(x_{2})$ 增长的一部分就等于 $f(x_{2})$ 。

那么增长的一部分等于什么?

那肯定是在 $x_1$ 处的切线 $f^{'}(x)$ 与 $x = x1,x = x2,y =0$ 围成的面积啦。(为了方便这里只讨论二维)

那么当 $x_{2}$ 无限趋向于 $x_{1}$ 时， $f^{'}(x)$ 是不变的 $f^{'}(x_{1}) = f^{'}(x_{2})$ ，此时定义域 $[x_{1},x_{2}]$ 内的所有的斜率都等于 $f′(x_1)$ .所以把f^{'}(x_{1}) $乘$ x_{2} - x_{1} $就等于$ f(x_{1}) $相对相对相对$ f(x_{2})$增长的一部分.

但是当 $x_{1}$ 与 $x_{2}$ 没有那么近的时候，凸函数的导数是不断变大的，也就是说 $f^{'}(x_{1})是小于f^{'}(x_{2})$ 的，那么 $f(x_{1})$ 相对 $f(x_{2})$ 增长的一部分是大于 $f^{'}(x_{1})$ 乘 $x_{2} - x_{1}$ 的。

也就是下面这个式子:

$f(x_2)\ge f(x_1) + \bigtriangledown f(x_1) ^T (x_2 -x_1)$

我们可以知道，f(x)在定义域中任意点的一阶泰勒展开是其下界（你看他没加二阶三阶等肯定是少加了很多鸭)。

1.1.3 强凸函数

一般的一维函数只要求函数曲线在其切线之上，并没有对这个"上"做具体的要求，并不强制要求一定要完美贴着。那么如果追求梯度优化的过程中，可以在接近的过程中无限接近于这个贴合的点，但是这种无限接近意味着梯度优化中会出现一些微弱的梯度变化，导致优化速度变慢。那么我们可以加一个二次项，保证有一个二次下界，这样就不会出现贴着曲线的情况，优化就会变的简单。

一个可微的强凸函数的定义是: $f(x_1) ≥ f(x_2) + ▽f(x_2)^T (x_1 - x_2) + \frac{\lambda}{2}||x_1 - x_2||^2$ ,这个式子保证了曲线不仅在切线上方，且始终大于某个距离。满足上面这个式子的强凸函数又称λ-强凸函数。

1.1.4 l-Lipschits连续

若 $f$ 函数的局部变动不超过某个幅度，那么 $\exists l∈R_{+}$ 使得 $\forall x_{1},x_{2} ∈ \psi$ ( $\psi$ 表示合集) 都有: $f(x_2) - f(x_1) \le l||x_2 -x_1||$ 则称函数f(x)为l-Lipschitz连续，进一步若可微函数f(x)的梯度 $▽f(x)$ 满足l-Lipschitz连续,则称函数f(x)为l−光滑。

1.1.5 Hessian矩阵

Hessian矩阵是函数f(x)在定义域上的二阶导数的矩阵: $\bigtriangledown^2 f(x) \in R^d *R^d$ 。其中 $\bigtriangledown^2 f(x)_{ij} = \frac{\partial^2f(x)}{\partial x_i\partial x_j}$ 。

若函数f(x)二阶可微，则它是凸函数当且仅当其的定义域来源于凸集，并且 $▽^2f(x)⪰0$ (意思是这个Hessian矩阵是半正定矩阵)。

1.1.6 不改变凹凸性的数学变化

$f$ 是凸函数， $f(Ax+B)$ 也是凸函数。
$f_1,f_2..f_n$ 是凸函数， $\omega_1,\omega_2...\omega_n \geq 0$ , $f(x) = \sum_{i=1}^{N}\omega_nf_n$ 也是凸函数。
$f_1,f_2..f_n$ 是凸函数， $f(x) = max \{ f_1(x),f_2(x)..f_n(x) \}$ 也是凸函数。
$\forall z ∈ X$ $f(x,z)$ 是关于x的凸函数，则 $g(x) = \sup_{z∈X}f(x,z)$ 也是关于x的凸函数，(调参，任意一个z，或者说固定z的时候，都有一个x把函数f(x,z)，调到上确界)

1.1.7 共轭函数

$f:R^d↦R$ 的共轭函数定义为: $f_*(z) =sup_{x∈\psi} (z^Tx - f(x))$ ，共轭函数的定义域为 $\psi_* = \{z|\sup_{x∈\psi }(z^Tx - f(x)) < ∞\}$

共轭函数反应的是线性函数 $z^Tx$ 与 $f(x)$ 的最大差值。

比如: $f(x) = \frac{1}{2}x^{2}$ ，共轭函数 $f_*(z)$ 在 $z = 2$ (固定z)的值,就等于 $2x$ 与 $f(x)$ 之间的最大差值,因为是凸函数， $f^{'}(x)$ 在定域内是单调递增的，当 $f^{'}(x) < 2$ 的时候 $f(x)$ 与 $2x$ 之间的差值是不断变大的，也就是说 $x<2$ 的时候 $2x$ 的导数更大， $2x$ 变化的更多，当￥f^{'}(x) > 2 $的时候$ f(x) $的导数更大，$ f(x) $变化变化的更多，差值在变小，所以$ f^{'}(x) = 2$的时候差值最大.

共轭函数有很好的性质:

无论原函数是否是凸函数，共轭函数一定是凸函数。
若原函数可微，则: $f_*( \bigtriangledown f(x)) = \bigtriangledown f(x)^Tx-f(x)=-[f(x)+ \bigtriangledown f(x)^T(0-x)]$

1.2 重要不等式

不理解的先不要管，留着证明用到或者以后学到再看,等结束完入门，一起推导。

1.2.1 Jensen不等式

对任意凸函数f(x)有 $f(EX) ≤ Ef(X)$

1.2.2 Holder不等式

对 $p,q∈R_+$ 且 $\frac{1}{q} + \frac{1}{p} = 1$ 有 $E|XY| ≤ (E|X|^p)^\frac{1}{p} (E|X|^q)^\frac{1}{q}$

1.2.3 Cauchy-Schwarz不等式

针对随机变量和向量有不同的形式

对任意随机变量X,Y有 $E|XY| ≤ \sqrt{EX^2EY^2}$
对任意向量 $x,y ∈ R^d$ ，有 $|x^Ty| ≤||x|| ||y||$

向量的l2范数为 $||x||^2=(|x_1|^2+⋅⋅⋅+|x_m|^2)$

对任意向量 $x,y ∈ R^d$ 和正定矩阵 $A∈R^{d×d}$ ，有 $|x^Ty| ≤||x||_A ||y||_A^{-1}$

注意 $||x||_A = \sqrt{x^TAx}$

1.2.4 Lyapunov不等式

对 $0<r≤s$ 有 $(E|X|^r)^\frac{1}{r} ≤(E|X|^s)^\frac{1}{s}$

1.2.5 Minkowski不等式

对 $1≤p$ 有 $(E|X+Y|^p)^\frac{1}{p} ≤ (E|X|^p)^\frac{1}{p}+(E|Y|^p)^\frac{1}{p}$

1.2.6 Bhatia-Davis不等式

对 $X∈[a,b]$ 有 $DX≤（b-EX)(EX-a) ≤ \frac{{b-a}^2}{4}$

1.2.7 联合界不等式

$P(X∪Y）≤ P(x) + P(Y)

1.2.8 Markov不等式

对 $X≥0$ , $\forall \epsilon > 0$ 有 $P(X≥\epsilon ) ≤\frac{EX}{\epsilon }$

1.2.9 Chebyshev不等式

$P(|X - EX|≥ \epsilon)≤ \frac{DX}{\epsilon ^2}$

1.2.10 Cantelli不等式

$\forall \epsilon > 0$ 有 $P(X - EX ≥ \epsilon) ≤ \frac{DX}{DX + \epsilon^2}$

$\forall \epsilon > 0$ 有 $P(X - EX ≤ -\epsilon) ≤ \frac{DX}{DX + \epsilon^2}$

1.2.11 Chernoff不等式

$\forall t > 0$ 有 $P(X ≥ \epsilon) = P(e^{tX} ≥ e^{t\epsilon})≤ \frac{Ee^{tX}}{e^{t\epsilon}}$

$\forall t < 0$ 有 $P(X ≤ \epsilon) = P(e^{tX} ≥ e^{t\epsilon})≤ \frac{Ee^{tX}}{e^{t\epsilon}}$

对于离散的数据: $\overline{X} = \frac{\sum^m_{i=1}X_i}{m}$ 对 $r∈[0,1]$ 有

$P(\overline{X} ≥(1+r)E\overline{X}) ≤ e^{-mr^2E\overline{X} / 3}$

$P(\overline{X} ≤ (1-r)E\overline{X}) ≤ e^{-mr^2E\overline{X} / 2}$

1.2.12 Hoeffding不等式

对m个独立随机变量 $X_i ∈[0,1]$ ， $i \in \{m\}$ 令 $\overline{X} = \frac{\sum^m_{i=1}X_i}{m}$ ，有 $p(\overline{X} - E\overline{X} \geq \epsilon) \leq e^{-2m\epsilon^2}$

另一种表达形式为: $\overline{X} \leq E\overline{X} + \sqrt{\frac{1}{2m}ln \frac{1}{\delta}}$

考虑 $X_i∈[a,b]$ ， $i∈[m]$ 则得到更一般的形式

$p(\overline{X} - E\overline{X} \geq \epsilon) \leq e^{-2m\epsilon^2/(b-a)^2}$

$p(\overline{X} - E\overline{X} \geq -\epsilon) \leq e^{-2m\epsilon^2/(b-a)^2}$

1.2.13 McDiarmid不等式

对m个独立随机变量 $X_i ∈[0,1]$ ， $i \in \{m\}$ ，若 $f:\chi^m \rightarrow R$ 是关于 $X_i$ 的实值函数且 $\forall x_1,...x_m,x_i^l \in \chi$ 都有 $|f(x_1,...,x_i,..,x_m) - f(x_1,...,x_i^l,..,x_m) \leq c_i$ ,则 $\forall \epsilon > 0$ 有 $P(f(X_1,...,X_m)-Ef(X_1,...,X_m) \geq \epsilon) \leq e^{-2\epsilon ^ 2 / \sum^m_{i=1}c_i^2}$ , $P(f(X_1,...,X_m)-Ef(X_1,...,X_m) \geq \epsilon) \geq e^{-2\epsilon ^ 2 / \sum^m_{i=1}c_i^2}$

1.2.14 Bennett不等式

对m个独立随机变量 $X_i ∈[0,1]$ ， $i \in \{m\}$ 令 $\overline{X} = \frac{\sum^m_{i=1}X_i}{m}$ ，若 $X_i - EX_i \leq 1$ 则有 $P(\overline{X} \geq E\overline{X} + \epsilon) \leq e^{-m\epsilon ^2 / (2DX_1 + 2\epsilon/3)}$

机器学习中常用到另外一种形式: $P(\overline{X} \geq E\overline{X} + \epsilon) \leq e^{-m\epsilon ^2 / (2DX_1 + 2\epsilon/3)} = \delta$ 则下面式子至少以 $1-\delta$ 概率成立： $\overline{X} \leq E\overline{X} + \epsilon \leq E\overline{X} + \frac{2ln(1/\delta)}{3m} + \sqrt{\frac{2D\overline{X}}{m}ln(\frac{1}{\delta})}$

1.2.15 Bernstein不等式

对m个独立随机变量 $X_i ∈[0,1]$ ， $i \in \{m\}$ 令 $\overline{X} = \frac{\sum^m_{i=1}X_i}{m}$ ，若存在b > 0,使得 $\forall k \geq 2$ 有 $E|X_i|^k \leq k!b^{k-2}DX_1/2$ 成立则有: $P(\overline{X} \geq E\overline{X} + \epsilon)\leq e^{\frac{-m\epsilon^2}{2DX_1+2b\epsilon}}$

1.2.16 Azuma不等式

若 $Z_{i+1}$ 对 $Z_0,Z_1...Z_i$ 的条件期望等于 $Z_i$ 且与 $Z_0,Z_1,...Z_{i-1}$ 无关，则这个序列就是鞅，是一个无后效性的序列。

对于均值为 $\mu$ 的鞅 ${Z_m,m \geq 1}$ 令 $Z_0 = \mu$ 若 $-c_i \leq Z_i - Z_{i-1} \leq c_i$ ，则 $\forall \epsilon > 0$ 有

$P(Z_m - \mu \geq \epsilon) \leq e^{-\epsilon^2/(2\sum_{i=1}^mc_i^2)}$

$P(Z_m - \mu \leq -\epsilon) \leq e^{-\epsilon^2/(2\sum_{i=1}^mc_i^2)}$

令 $X_i = Z_i - Z_{i-1}$ 可以得到鞅差序列 $X1,X2,...Xm$ 于是有

$P(\sum_{i=1}^mX_i \geq \epsilon) \leq e^{-\epsilon^2/(2\sum_{i=1}^mc_i^2)}$

$P(\sum_{i=1}^mX_i \leq -\epsilon) \leq e^{-\epsilon^2/(2\sum_{i=1}^mc_i^2)}$

1.3最优化基础

1.3.1 什么是最优化

相信各位都学过极值，我们的极值就是我们要求的一个最优解。

问题的最优解可以表达为:

$f(x_0)\le f(x) ,x∈Ω$

那么 $x_0$ 就是极小值，极大值类似，最优化就是找到这个极值。

函数可能有多个极值，我们希望找到函数里的最值，但是梯度下降等一些算法只能找到局部最优解，也就是这个局部的最值，不一定是全部的最值。

如果目标函数跟约束函数都是凸函数，那么这个问题就成了凸优化的问题了。

1.3.2 优化问题

一般一个优化问题可以表达为:

$\min\limits_{x} f(x)$

$s.t. h_i(x) \leq 0 (i \in \{m\})$

其中 $f:R^d \rightarrow R$ 称为优化目标函数， $h_i:R^d\rightarrow R (i \in \{m\})$ 称为约束函数，表示在满足 $h_i(x) \leq 0$ 条件下，寻找 $f(x)$ 最小化。

当f(x)和h(x)都是凸的时候，则称为凸优化问题。

1.3.3 主问题与对偶问题

一个优化问题可以从两个方面来考虑，也就是主问题和对偶问题。

主问题就是：显式列出m个不等式约束和n个等式约束。写为：

$\substack{\min\\x} f(x)$

$s.t. h_{i}(x) \leq 0 \quad(i∈[m])$

$s.t. g_{j}(x) = 0 \quad(j∈[n])$

当主问题难解的时候，但是其对偶问题容易求解，且通过求解对偶问题能得到原始问题的最优解。

主(原)问题如何转换对偶问题？

(分界线)	原问题	对偶问题
决策变量	n个；>=0;<=0;无约束	n个；>=0;<=0; =0
线性约束	m个;<=0;>=0;=0	m个；>=0;<=0;无约束
目标	求max，系数是对偶问题中线性约束常数	求min，系数是原问题中线性约束常数

例子：

小明有一个打印机，可以用来赚钱。
把打印机出租给小杨，通过出租赚钱。

从小明的角度看不管是1，2哪个条件，小明是想最大化自己的利润，从小杨角度看，小杨是想最大化自己的收入，再联系现有条件，也就是看小杨的支付的最小租金。这就是一对对偶问题。

1.3.4 拉格朗日对偶

为什么需要使用拉格朗日对偶性把原始问题改为对偶问题?

答:无论原问题是什么形式，其对偶问题都是凸问题。

为什么对偶函数一定是凹函数？

也就是证明 $g(\theta \lambda_1 + (1-\theta)\lambda_2,\theta \nu_1 + (1-\theta)\nu_2) \geq \theta g(\lambda_1,\nu_1)+(1-\theta)g(\lambda_2,\nu_2)$

对偶函数就是把 $\lambda$ 和 $\nu$ 当成常量，x变化时候的最小值，如果拉格朗日函数没有最小值，则对偶函数取负无穷，所以可以把对偶函数用下面式子表达: $g(\theta,\nu) = min\{L(x_1,\theta,\nu),L(x_n,\theta,\nu)...L(x_n,\theta,\nu)\},n\rightarrow+∞$

令 $\gamma = (\theta,\nu)$ 可以得到:

$g(\theta \gamma_1 + (1-\theta)\gamma_2) = min\{L(x_1,\theta,\nu),L(x_n,\theta,\nu)...L(x_n,\theta,\nu)\}$

所以: $g(\theta \gamma_1 + (1-\theta)\gamma_2) \geq min\{\theta L(x_1,\gamma_1)+(1-\theta )L(x_1,\gamma_2),\theta L(x_2,\gamma_1)+(1-\theta )L(x_2,\gamma_2),.....\theta L(x_n,\gamma_1)+(1-\theta )L(x_n,\gamma_2)\} \geq \theta min\{L(x_1,\gamma_1),L(x_2,\gamma_1)...,L(x_n,\gamma_1)\}+(1-\theta)min\{L(x_1,\gamma_2),L(x_2,\gamma_2)...,L(x_n,\gamma_2)\} = \theta g(\gamma_1) + (1- \theta)g(\gamma_2))$

所以上述公式得到证明，原命题得到证明。

1.3.5 广义拉格朗日函数

可以用广义拉格朗日函数来找最值, $\lambda_i$ 与 $\mu$ 分别是针对不等式约束 $h_i(x) \le 0$ 和 $g_i(x) = 0$ 引入的拉格朗日乘子。

$L(x,\lambda,\mu)=f(x)+\sum_{i=0}^n \lambda_i h_i(x) +\sum_{j=0}^m \mu g_j(x)$

相应的拉格朗日对偶函数为:

$Г(\lambda,\mu) = \substack{\inf\\x∈\psi} L(x,\lambda,\mu) =\substack{\inf\\x∈\psi} (f(x)+\sum_{i=0}^n \lambda_i h_i(x) +\sum_{j=0}^m \mu_j g_j(x))$

因为 $h_i(x) \le 0$ 与 $g_i(x) = 0$ ,所以 $\sum_{i=0}^n \lambda_i h_i(x) +\sum_{j=0}^m \mu g_j(x) \le 0$

对于 $x∈ \psi$ 有: $Г(\lambda,\mu) = \substack{\inf\\x∈\psi} L(x,\lambda,\mu) \le L(x,\lambda,\mu) \le f(x)$

所以拉格朗日 $Г(\lambda,\mu)$ 给出了 $L(\lambda,\mu)$ 的目标函数f(x)最优值(设为 $p^*$ )的下界。

也就是 $\forall \lambda \succeq 0$ 都有 $Г(\lambda,\mu) \le p^*$ 。

设对偶函数 $Г(\lambda,\mu)$ 的目标函数的最优值是 $d^*$ ，则 $d^*$ 是 $p^*$ 的下界,也就是:

$d^* \le p^*$

这是弱对偶性

$d^* = p^*$

这是强对偶性,强对偶性一般不成立，但是若主问题为凸优化问题，且可行域中至少有一处使不等式约束严格成立，则强对偶性成立。

1.3.6 KKT条件

KKT条件主要是用来刻画主问题与对偶问题的最优解之间的关系，令 $x^*$ 为主问题的最优解， $(\lambda^*,\mu^*)$ 为对偶问题的最优解，当强对偶成立时：

$f(x^*) = \Gamma(\lambda, \mu) = \inf\limits_{x}( f(x)+\sum_{i=0}^n \lambda^*_i h_i(x) +\sum_{j=0}^m \mu^*_j g_j(x))\leq f(x^*)+\sum_{i=0}^n \lambda^*_i h_i(x^*) +\sum_{j=0}^m \mu^*_j g_j(x^*) \leq f(x^*$

所以此时不等式应该取等号，所以下面两个条件应该成立:

互补松弛条件：

$\lambda^*h_i(x^*) = 0 \ \ \ i∈[m]$

也就是说这个时候 $\lambda^* > 0 得到 h_i(x^*) = 0$ 以及 $\lambda^* \neq 0 得到 h_i(x^*) = 0$

$x^*$ 是下面问题的最优解：

$x^* = \substack{\arg \min\\x∈\psi}L(x,\lambda^*,\mu^*) =\substack{\arg \min\\x∈\psi} f(x)+\sum_{i=0}^n \lambda^*_i h_i(x) +\sum_{j=0}^m \mu^*_j g_j(x)$

通常 $\psi$ 为全集或 $x^*$ 位于 $\psi$ 内部因此拉格朗日函数 $L(x,\lambda,\mu)$ 在 $x^*$ 处的梯度为0，也就是:

$\nabla f(x^*)+\sum_{i=0}^n \lambda_i \nabla h_i(x^*) +\sum_{j=0}^m \mu_j \nabla g_j(x^*) = 0$

所以KKT条件由以下几个部分组成:

主问题约束: $h_{i}(x^*) \leq 0 \quad(i∈[m])$ 和 $g_{j}(x^*) = 0 \quad(i∈[m])$
对偶问题约束: $\lambda^* \succeq 0$
互补松弛条件: $\lambda^* h_{i}(x^*) = 0\quad(i∈[m])$
拉格朗日函数在x∗x^*x∗处的梯度为0: $\nabla f(x^*)+\sum_{i=0}^n \lambda_i \nabla h_i(x^*) +\sum_{j=0}^m \mu_j \nabla g_j(x^*) = 0$

KKT条件具有如下重要性质:

强对偶性成立时，对于任意的优化的问题，KKT条件是最优解的必要条件。
对于凸优化问题，KKT条件是充分条件，即满足KKT条件的解一定是最优解。
对于强对偶性成立的凸优化问题，KKT条件是充要条件，也就是当 $x^*$ 是原始问题的最优解当且仅当存在 $(\lambda^* ,\mu^*)$ 满足KKT条件。

1.4 支持向量机

给定训练集 $D = \{(x_1,y_1),(x_2,y_2),...,(x_n,y_n)\}$ ,其中 $y_i \in \{+1,-1\}$ ,支持向量机试图找到一个分界线，把所有的样本以某种规则划分成两部分，得到的线就是划分超平面 $w^Tx + b =0$ ，如下图:(来自周志华等老师的 《机器学习理论导引》)

距离划分超平面最近的几个点叫支持向量，两个异类支持向量到超平面的距离之和为间隔。

假设超平面 $(w,b)$ 能将训练集正确分类，即对于 $(x_i,y_i) \in D$ ,若 $y_i = +1$ ，则有 $w^T+b \geq 0$ ;若 $y_i = -1$ ，则有 $w^T+b \leq 0$ 。

令 $w^T+b \geq +1,y_i = +1;w^T+b \geq -1,y_i = -1$

则求解最大间隔问题划分超平面对应于优化问题:

$\min\limits_{w,b} \frac{1}{2}||w||^2$

$s.t. (w^Tx+b)y_i \geq 1$

求优化问题得到的拉格朗日余子式为:

$L(w,b,a) = \frac{1}{2}||w||^2 + \sum_{i=1}^m a_i(1-y_i($ w^T+b))$

其中拉格朗日乘子 $a_i \geq 0$ ,然后求L的对w,b的偏导:

$w = \sum_{i=1}^m a_ix_iy_i$

$\sum_{i=1}^m a_iy_i = 0$

式子联立，消去拉格朗日余子式的 $w,b$ 可以得到:

$\min\limits_{\alpha} \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m a_i a_j y_i y _j x_i^Tx_j - \sum_{i=1}^m a_i$

$s.t. \sum_{i=1}^m a_iy_i = 0, a_i \geq 0$

这个过程满足KKT条件：

$w = \sum_{i=1}^m a_ix_iy_i$

$\sum_{i=1}^m a_iy_i = 0$

$a_i \geq 0$

$((w^Tx_i+b)y_i - 1) \geq 0$

$(((w^Tx_i+b)y_i - 1)) = 0$

如果样本在二维空间不可分，就升维到更高维的说不定就可分了。如图:(依旧出自《机器学习导引》)

从而x映射为 $\phi(x)$ ,那么主问题会变成:

$\min\limits_{w,b} \frac{1}{2}||w||^2$

$s.t. (w^T\phi(x)+b)y_i \geq 1$

相应的对偶问题会变成

$\min\limits_{\alpha} \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m a_i a_j y_i y _j \phi(x)_i^T\phi(x)_j - \sum_{i=1}^m a_i$

$s.t. \sum_{i=1}^m a_iy_i = 0, a_i \geq 0$

其中 $\phi(x)_i^T\phi(x)_j$ 的计算是 $x_i$ $x_j$ 映射特征空间之后的内积，由于特征空间的维数可能很高，直接计算可能很麻烦，所以需要考虑核函数。

$\kappa (x_i,x_j) = \phi(x)_i^T\phi(x)_j$

即 $x_i$ $x_j$ 在特征空间的内积等于原始样本通过函数 $\kappa$ 计算的结果，这样就不用计算高维甚至无穷维特征空间的内积，所以对偶问题会变成:

$\min\limits_{\alpha} \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m a_i a_j y_i y _j \kappa(x_i,x_j)- \sum_{i=1}^m a_i$

$s.t. \sum_{i=1}^m a_iy_i = 0, a_i \geq 0$

令 $X$ 为输入空间， $\kappa$ 是定义在 $X×X$ 的对称函数，则 $\kappa$ 是和函数当且仅当对于任意数据 $\{x_1,x_2,...,x_n\}$ 核矩阵 $K$ 是一个半正定的n阶方阵 $K_{i,j} = \kappa(x_i,x_j)$

常用核函数如下表(依旧出自《机器学习导引》)

每个核函数都隐式的定义了一个特征空间，称为再生核希尔伯特空间。特征空间是否适合对模型的性能至关重要。现实生活中很难确定合适的和函数使得训练样本在特征空间中线性可分，有时貌似线性可分的结果是由于过拟合造成的，因此有必要允许模型在少量样本上出错。

因此引入软间隔允许某些样本不满足约束:

$(w^T\psi(x)+b)y_i \geq 1$

在最大化间隔的同时，不满足约束的样本尽可能少，于是优化的目标可以写为:

$\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T\psi(x)+b)-1)$

其中 $\beta > 0$ 是一个常数, $\zeta_{0/1}(x)$ 是0/1损失函数。

$\zeta_{0/1} (x) = \mathbb{I}(x < 0)$

当 $\beta$ 为无穷大的时候， $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T \psi(x)+b)-1)$ 这个式子迫使所有样本均满足约束 $(w^T\psi(x)+b)y_i \geq 1$ ,于是 $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T \psi(x)+b)-1)$ 等价于 $\min\limits_{w,b} \frac{1}{2}||w||^2,s.t. y_i(w^T \psi(x)+b) \geq 1$ ,当 $\beta$ 为有限值的时候， $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T\psi(x)+b)-1)$ 这个式子可以允许一些样本不满足约束。

由于0/1损失函数非凸不连续，所以 $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T \psi(x)+b)-1)$ 不方便求解，银锁支持向量机用hinge损失函数作为替代损失。

$\zeta_{hinge}(x) = max(0,1-x)$ ,同时 $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \zeta_{0/1}(y_i(w^T\psi(x)+b)-1)$ 这个式子变为 $\min\limits_{w,b} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m max(0,y_i(w^T\phi(x)+b)-1)$ ,同时引入松弛变量 $\xi_i \geq 0$ 可以继续改写为:

$\min\limits_{w,b,\xi_i} \frac{1}{2}||w||^2 + \beta \sum_{i=1}^m \xi_i$

$s.t. y_i(w^T\psi(x)+b) \geq 1 - \xi_i$

$\xi_i \geq 0$

把该问题化为对偶问题为:

$\min\limits_{\alpha} \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m a_i a_j y_i y _j \kappa(x_i,x_j)- \sum_{i=1}^m a_i$

$s.t. \sum_{i=1}^m a_iy_i = 0$

$0 \geq a_i \geq \beta$

机器学习笔记 1.预备知识

1.1 凸函数

1.1.1 基本概念

1.1.2 梯度

1.1.3 强凸函数

1.1.4 l-Lipschits连续

1.1.5 Hessian矩阵

1.1.6 不改变凹凸性的数学变化

1.1.7 共轭函数

1.2 重要不等式

1.2.1 Jensen不等式

1.2.2 Holder不等式

1.2.3 Cauchy-Schwarz不等式

1.2.4 Lyapunov不等式

1.2.5 Minkowski不等式

1.2.6 Bhatia-Davis不等式

1.2.7 联合界不等式

1.2.8 Markov不等式

1.2.9 Chebyshev不等式

1.2.10 Cantelli不等式

1.2.11 Chernoff不等式

1.2.12 Hoeffding不等式

1.2.13 McDiarmid不等式

1.2.14 Bennett不等式

1.2.15 Bernstein不等式

1.2.16 Azuma不等式

1.3最优化基础

1.3.1 什么是最优化

1.3.2 优化问题

1.3.3 主问题与对偶问题

1.3.4 拉格朗日对偶

1.3.5 广义拉格朗日函数

1.3.6 KKT条件

1.4 支持向量机