chapter16

131 阅读2分钟

在上一章中,我们描述了在高维特征空间中学习半空间的支持向量机范例。这使我们能够丰富半空间的表达能力,首先将数据映射到高维特征空间,然后学习该空间中的线性预测器。这与AdaBoost算法类似,AdaBoost算法在基本假设上学习半空间的组成。虽然这种方法极大地扩展了半空间预测器的表达能力,但它同时提出了样本复杂度和计算复杂度的挑战。在前一章中,我们使用边际的概念解决了样本复杂性问题。在本章中,我们使用内核的方法来解决计算复杂度的挑战。

我们通过描述将数据嵌入到高维特征空间的想法开始本章。然后我们介绍了内核的概念。内核是实例之间的相似性度量类型。核相似性的特殊性质是,它们可以被视为实例空间虚拟嵌入的希尔伯特空间(或高维的欧氏空间)中的内积。我们引入了“内核技巧”,使学习的计算效率得以实现,而无需显式地处理领域实例的高维表示。基于核的学习算法,特别是核支持向量机,是非常有用和流行的机器学习工具。它们的成功可能归因于既灵活地适应领域特定的先验知识,又有一套开发良好的有效实现算法。

16.1嵌入特征空间

半空间的表达能力是相当有限的-例如,下面的训练集是不能被半空间分离的。

设定义域为实线;考虑域点{−10,−9,−8,…,0, 1,…,9,10},其中allxsuch的标签为+1,否则|xx|>2和−1。

为了使半空间类更具表现力,我们可以首先将原始实例空间映射到另一个空间(可能是更高维度的空间),然后学习该空间中的半空间。例如,考虑前面提到的例子。而不是让我们学习半空间的原始表示法。

了解机器学习,©2014 年 Shai ShalevShwartz 和 Shai BenDavid\color{orange}{了解机器学习,\copyright2014 年 Shai Shalev-Shwartz 和 Shai Ben-David} 
请链接$\color{purple}www.cs.huji.ac.il/~shais/Unde…

首先定义一个映射ψ\psi:R\mathbb{R}R2\mathbb{R}^2如下:

ψ(x)=(x,x2).ψ(x) = (x, x^2).

我们使用术语特征空间来表示的范围ψ\psi.在应用ψ\psi使用半空格可以很容易地解释这些数据h(x)h(x) =sign(w,ψ(x)\langle{\boldsymbol{w},ψ(x)}\rangle-bb),其中w\boldsymbol{w}=(0,1)和bb=5.

基本范式如下:

1.给定某个域集X\mathcal{X}和一个学习任务,选择一个映射ψψ:XF\mathcal{X} → \mathcal{F},对于一些featurefeature spacespace F\mathcal{F},通常是Rn\mathbb{R}^n对于一些nn(但是,这种映射的范围可以是任意的HilbertHilbert spacespace,包括无限维度的空间,我们稍后会讲到).

2.给定一系列有标记的例子,S\it{S}= (x1\bf{x}_1,y1y_1),…,(xm\bf{x}_mymy_m)创建图像序列S^\hat{S}= (x1\bf{x}_1, y1y_1),…,创建图像序列.

3.训练线性预测器hh超过S^\hat{S}.

4.预测测试点的标签,x\bf{x},是h(ψ(x))h(ψ(\bf{x})).

注意,对于每个概率分布D\mathcal{D}超过X×Y\mathcal{X}\times{Y},我们可以很容易地定义它的图像概率分布Dψ\mathcal{D}^\psi超过D×Y\mathcal{D}\times{Y}通过设置,对于每个子集AF×Y\it{A}\subseteq\mathcal{F}\times{Y},Dψ(A)\mathcal{D}^\psi(\it{A})=D\mathcal{D}(ψ1\psi^{-1}(A\it{A})).每个预测器都是如此hh在特征空间上,LDψ\it{L}_{\mathcal{D}^\psi}(hh)=LD(hψ)\it{L}_\mathcal{D}(h\circ\psi),其中hψh\circ\psihhψ\psi的组成.

这种学习模式的成功与否取决于对给定的学习任务选择一个好的ψ\psi:即使数据分布(接近)的图像在特征空间中线性可分的ψ\psi,从而使生成的算法对给定的任务具有良好的学习能力。选择这样的嵌入需要事先了解该任务。然而,通常会使用一些泛型映射,使我们能够丰富半空间类并扩展其表达性。一个值得注意的例子是多项式映射,它是我们在前面例子中看到的ψ\psi的推广。

回想一下,对一个实例x\bf{x}标准半空间分类器的预测是基于线性映射的xw,x\bf{x}\mapsto\langle\bf{w},{x}\rangle.我们可以将线性映射推广到多项式映射,xp(x)\bf{x}\mapsto\mathcal{p}({x}),其中pp是一个多变量多项式的次数kk.为简单起见,首先考虑这样一种情况x\bf{x}是1维.在这种情况下,p(x)p(x)=j=0kwjxj\sum^k_{j=0}w_jx^j,其中wRk+1\bf{w}\in\mathbb{R}^{k+1}是我们要学习的多项式的系数向量。我们能改写p(x)=w,ψ(x)p(x)=\langle\bf{w},\psi(x)\rangle其中ψ:RRk+1\psi:\mathbb{R}\to\mathbb{R}^{k+1}是映射x(1,x1,x2,x3,...,xk)x\mapsto(1,x^1,x^2,x^3,...,x^k).这就引出了学习kk多项式在R\mathbb{R}上可以通过学习(k+1)(k+ 1)维特征空间中的线性映射来实现。

更一般地说,一个多变量多项式从RnR\mathbb{R}^n到\mathbb{R}可以写成

p(x)=J[n]r:rkwji=1rxji.p(x)=\sum_{J\in[n]^r:r\leq k}w_j\prod^r_{i=1}x_{j_{_i}}.

这个对每个AA定义的,这样ψ1(A)\psi^{-1}(A)就可以测量D\mathcal{D}.

和以前一样,我们可以重写p(x)=w,ψ(x)p(x)=\langle\bf{w},\psi(x)\rangle现在其中ψ\psi