【学习笔记】基与核的故事 - 3 再生希尔伯特核空间这是我参与11月更文挑战的第4天原文链接核方法简介通过函数基的

这是我参与11月更文挑战的第4天

核方法简介

通过函数基的概念，可以开始学习理解核方法。

核方法已经广泛用于各类数据分析技术中，其启发在于将一个在 $\mathcal{R}^n$ 空间中的向量映射成为一个特征空间中的另一个向量。如下图所示，有一些红点和蓝点在 $\mathcal{R}^n$ 空间中是难以分离的，而如果将其映射到了高维特征空间中，可能就能更容易的分离他们。

特征分解

对于一个对称矩阵 $\mathbf{A}$ （ $\mathbf{A}^T=\mathbf{A}$ ），存在一个实数 $\lambda$ 和向量 $\mathbf{x}$ ，有：

\mathbf{A}\mathbf{x}=\lambda\mathbf{x}

$\lambda$ 是 $\mathbf{A}$ 的特征值， $\mathbf{x}$ 是特征向量。若 $\mathbf{A}$ 有两个特征值 $\lambda_1,\lambda_2$ ，和两个特征向量 $\mathbf{x}_1,\mathbf{x}_2$ ，显然可以推出：

\lambda_1\mathbf{x}_1^T\mathbf{x}_2=\mathbf{x}_1^T\mathbf{A}^T\mathbf{x}_2=\mathbf{x}_1^T\mathbf{A}\mathbf{x}_2=\lambda_2\mathbf{x}_1^T\mathbf{x}_2

由于 $\lambda_1 \neq \lambda_2$ ，可知 $\mathbf{x}^T_1\mathbf{x}_2=0$ ，因此 $\mathbf{x}_1^T$ 和 $\mathbf{x}_2$ 是正交的。

对于 $\mathbf{A} \in \mathcal{R}^{n \times n}$ ，可以找到n个特征值及其对应的n个特征向量。因此， $\mathbf{A}$ 可以被表示为：

\mathbf{A}=\mathbf{Q}\mathbf{D}\mathbf{Q}^T

此处的 $\mathbf{Q}=(\mathbf{q}_1,...,\mathbf{q}_n)$ 为一个正交矩阵（即 $\mathbf{Q}\mathbf{Q}^T=E$ ）,且 $\mathbf{D}=diag(\lambda_1,...,\lambda_n)$ （diag为对角矩阵）。上面的公式可以展开为：

可知， $\{\mathbf{q}_i\}^n_{i=1}$ 是 $\mathcal{R}^n$ 空间中的正交基组。

核函数

一个函数 $f(x)$ 可以被视作一个无穷向量，对于包含两个独立变量的函数 $K(x,y)$ ，可以将其视为一个无穷矩阵。若存在 $K(x,y)=K(y,x)$ ，且：

\int \int f(x)K(x,y)f(y)dxdy \geq 0

则对于任意函数 $f$ ， $K(x,y)$ 是对称且正定的，此时 $K(x,y)$ 为一个核函数。

对称正定矩阵的性质 设 $A\in R^{n \times n}$ ，若 $A=A^T$ ，对任意 $0 \neq X \in R^n$ 均有 $X^TAX>0$ ，则称A为对称正定矩阵。

且存在特征值 $\lambda$ 和特征函数 $\psi(x)$ 使得：

\int K(x,y)\psi(x)dx=\lambda \psi (y)

对于不同的特征值 $\lambda_1$ 和 $\lambda_2$ 及对应的特征函数 $\psi_1(x)$ 和 $\psi_2(x)$ 易得：

因此可得：

<\psi_1,\psi_2>=\int \psi_1(x) \psi_2(x)dx = 0

可知特征函数是正交的，此处 $\psi$ 表示函数(无限向量)本身。

对于一个核函数，若存在无限特征值 $\{\lambda_i\}^\infty_{i=1}$ 和无限特征函数 $\{\psi_i\}^\infty_{i=1}$ ，则和矩阵的案例一样可以的得到：

K(x,y)=\sum^\infty_{i=0}\lambda_i\psi_i(x)\psi_i(y)

这也就是Mercer定理：即任何半正定对称函数都可以作为核函数。此处， $\{\psi_i\}^\infty_{i=1}$ 构成一个函数空间中的一组正交基。

常用的核函数有：

多项式核函数： $K(x,y)=(\gamma x^Ty+C)^d$ ，此处 $d=1,2,...,N$ 。
高斯径向基核（Gaussian radial basis kernel）： $K(x,y)=exp(-\gamma||x-y||^2)$ 。
Sigmoid核： $K(x,y)=tanh(\gamma x^Ty+C)$ ,tanh指双曲正切函数。

再生希尔伯特核空间 Reproducing Kernel Hilbert Space

将 $\{\sqrt{\lambda_i}\psi_i\}^\infty_{i=1}$ 作为一组正交基构造了一个希尔伯特空间 $\mathcal{H}$ 。空间中的任何函数或向量都可以表示为这些基的线性组合。希尔伯特空间的概念

假设：

f=\sum^\infty_{i=1}f_i\sqrt{\lambda_i}\psi_i

可以在 $\mathcal{H}$ 中定义 $f$ 为一个无限向量：

f=(f_1,f_2,...)^T_{\mathcal{H}}

对于另一个函数 $g={g_1,g_2,...}^T_{\mathcal{H}}$ 存在：

<f,g>_{\mathcal{H}}=\sum^\infty_{i=1}f_ig_i

对于一个核函数K，使用 $K(x,y)$ 来表示K在点 $(x,y)$ 上的求值，为一个标量。使用 $K(\cdot,\cdot)$ 来表示函数（无限向量）本身，使用 $K(x,\cdot)$ 来表示矩阵的第x行。将核函数的一个参数定义为 $x$ ，然后可以将其看作拥有一个参数的函数或一个无限向量，得到：

K(x,\cdot)=\sum^\infty_{i=0}\lambda_i\psi_i(x)\psi_i

在空间 $\mathcal{H}$ 中可以定义：

K(x,\cdot)=(\sqrt{\lambda_1}\psi_1(x),\sqrt{\lambda_2}\psi_2(x),...)^T_{\mathcal{H}}

因此可以得到：

<K(x,\cdot),K(y,\cdot)>_{\mathcal{H}}=\sum^\infty_{i=0}\lambda_i\psi_i(x)\psi_i(y)=K(x,y)

这就是可再生特性，即用核函数来再生两个函数的内积，再生性使得我们可以不用去计算高维特征空间中的內积，而只需计算核函数，大大降低了计算量，因此 $\mathcal{H}$ 被称为再生核希尔伯特空间(RKHS)。

回到最初的问题：如何用核函数将点映射到特征空间？

定义一个映射：

\Phi(x)=K(x,\cdot)=(\sqrt{\lambda_1}\psi_1(x),\sqrt{\lambda_2}\psi_2(x),...)^T

这样就可以将点x映射到 $\mathcal{H}$ 中， $\Phi$ 在这里不表示一个函数，它指向在特征空间 $\mathcal{H}$ 中的一个向量或函数。然后得到：

<\Phi(x),\Phi(y)>_{\mathcal{H}}=<K(x,\cdot),K(y,\cdot)>_{\mathcal{H}}=K(x,y)

因此，不需要知道什么是映射，特征空间在哪里，或者特征空间的基础是什么。对于一个对称正定函数 $K$ ，一定存在映射 $\Phi$ 和一个特征空间 $\mathcal{H}$ 使得：

<\Phi(x),\Phi(y)>=K(x,y)

这就是核的使用技巧。

一个简单的案例

定义核函数：

K(x,y)=(x_1,x_2,x_1x_2)(y_1,y_2,y_1y_2)^T=x_1y_1+x_2y_2+x_1x_2y_1y_2

定义 $\mathbf{x}=(x_1,x_2)^T,\mathbf{y}=(y_1,y_2)^T$ 。令 $\lambda_1=\lambda_2=\lambda_3=1,\psi_1(\mathbf{x})=x_1,\psi_2(\mathbf{x})=x_2,\psi_3(\mathbf{x})=x_1x_2$ ，可以将映射定义为：