在上一章中,我们描述了在高维特征空间中学习半空间的支持向量机范例。这使我们能够丰富半空间的表达能力,首先将数据映射到高维特征空间,然后学习该空间中的线性预测器。这与AdaBoost算法类似,AdaBoost算法在基本假设上学习半空间的组成。虽然这种方法极大地扩展了半空间预测器的表达能力,但它同时提出了样本复杂度和计算复杂度的挑战。在前一章中,我们使用边际的概念解决了样本复杂性问题。在本章中,我们使用内核的方法来解决计算复杂度的挑战。
我们通过描述将数据嵌入到高维特征空间的想法开始本章。然后我们介绍了内核的概念。内核是实例之间的相似性度量类型。核相似性的特殊性质是,它们可以被视为实例空间虚拟嵌入的希尔伯特空间(或高维的欧氏空间)中的内积。我们引入了“内核技巧”,使学习的计算效率得以实现,而无需显式地处理领域实例的高维表示。基于核的学习算法,特别是核支持向量机,是非常有用和流行的机器学习工具。它们的成功可能归因于既灵活地适应领域特定的先验知识,又有一套开发良好的有效实现算法。
16.1嵌入特征空间
半空间的表达能力是相当有限的-例如,下面的训练集是不能被半空间分离的。
设定义域为实线;考虑域点{−10,−9,−8,…,0, 1,…,9,10},其中allxsuch的标签为+1,否则|x|>2和−1。
为了使半空间类更具表现力,我们可以首先将原始实例空间映射到另一个空间(可能是更高维度的空间),然后学习该空间中的半空间。例如,考虑前面提到的例子。而不是让我们学习半空间的原始表示法。
了解机器学习,c◯2014 年 Shai Shalev−Shwartz 和 Shai Ben−David
请链接$\color{purple}www.cs.huji.ac.il/~shais/Unde…
首先定义一个映射ψ:R→R2如下:
ψ(x)=(x,x2).
我们使用术语特征空间来表示的范围ψ.在应用ψ使用半空格可以很容易地解释这些数据h(x) =sign(⟨w,ψ(x)⟩-b),其中w=(0,1)和b=5.
基本范式如下:
1.给定某个域集X和一个学习任务,选择一个映射ψ:X→F,对于一些feature space F,通常是Rn对于一些n(但是,这种映射的范围可以是任意的Hilbert space,包括无限维度的空间,我们稍后会讲到).
2.给定一系列有标记的例子,S= (x1,y1),…,(xm,ym)创建图像序列S^= (x1, y1),…,创建图像序列.
3.训练线性预测器h超过S^.
4.预测测试点的标签,x,是h(ψ(x)).
注意,对于每个概率分布D超过X×Y,我们可以很容易地定义它的图像概率分布Dψ超过D×Y通过设置,对于每个子集A⊆F×Y,Dψ(A)=D(ψ−1(A)).每个预测器都是如此h在特征空间上,LDψ(h)=LD(h∘ψ),其中h∘ψ是h在ψ的组成.
这种学习模式的成功与否取决于对给定的学习任务选择一个好的ψ:即使数据分布(接近)的图像在特征空间中线性可分的ψ,从而使生成的算法对给定的任务具有良好的学习能力。选择这样的嵌入需要事先了解该任务。然而,通常会使用一些泛型映射,使我们能够丰富半空间类并扩展其表达性。一个值得注意的例子是多项式映射,它是我们在前面例子中看到的ψ的推广。
回想一下,对一个实例x标准半空间分类器的预测是基于线性映射的x↦⟨w,x⟩.我们可以将线性映射推广到多项式映射,x↦p(x),其中p是一个多变量多项式的次数k.为简单起见,首先考虑这样一种情况x是1维.在这种情况下,p(x)=∑j=0kwjxj,其中w∈Rk+1是我们要学习的多项式的系数向量。我们能改写p(x)=⟨w,ψ(x)⟩其中ψ:R→Rk+1是映射x↦(1,x1,x2,x3,...,xk).这就引出了学习k多项式在R上可以通过学习(k+1)维特征空间中的线性映射来实现。
更一般地说,一个多变量多项式从Rn到R可以写成
p(x)=J∈[n]r:r≤k∑wji=1∏rxji.
这个对每个A定义的,这样ψ−1(A)就可以测量D.
和以前一样,我们可以重写p(x)=⟨w,ψ(x)⟩现在其中ψ