chapter16在上一章中，我们描述了在高维特征空间中学习半空间的支持向量机范例。这使我们能够丰富半空间的表达能力，首

在上一章中，我们描述了在高维特征空间中学习半空间的支持向量机范例。这使我们能够丰富半空间的表达能力，首先将数据映射到高维特征空间，然后学习该空间中的线性预测器。这与AdaBoost算法类似，AdaBoost算法在基本假设上学习半空间的组成。虽然这种方法极大地扩展了半空间预测器的表达能力，但它同时提出了样本复杂度和计算复杂度的挑战。在前一章中，我们使用边际的概念解决了样本复杂性问题。在本章中，我们使用内核的方法来解决计算复杂度的挑战。

我们通过描述将数据嵌入到高维特征空间的想法开始本章。然后我们介绍了内核的概念。内核是实例之间的相似性度量类型。核相似性的特殊性质是，它们可以被视为实例空间虚拟嵌入的希尔伯特空间(或高维的欧氏空间)中的内积。我们引入了“内核技巧”，使学习的计算效率得以实现，而无需显式地处理领域实例的高维表示。基于核的学习算法，特别是核支持向量机，是非常有用和流行的机器学习工具。它们的成功可能归因于既灵活地适应领域特定的先验知识，又有一套开发良好的有效实现算法。

16.1嵌入特征空间

半空间的表达能力是相当有限的-例如，下面的训练集是不能被半空间分离的。

设定义域为实线;考虑域点{−10，−9，−8，…，0, 1，…，9,10}，其中allxsuch的标签为+1，否则| $x$ |>2和−1。

为了使半空间类更具表现力，我们可以首先将原始实例空间映射到另一个空间(可能是更高维度的空间)，然后学习该空间中的半空间。例如，考虑前面提到的例子。而不是让我们学习半空间的原始表示法。

$\color{orange}{了解机器学习,\copyright2014 年 Shai Shalev-Shwartz 和 Shai Ben-David}$
请链接$\color{purple}www.cs.huji.ac.il/~shais/Unde…

首先定义一个映射 $\psi$ : $\mathbb{R}$ → $\mathbb{R}^2$ 如下:

ψ(x) = (x, x^2).

我们使用术语特征空间来表示的范围 $\psi$ .在应用 $\psi$ 使用半空格可以很容易地解释这些数据 $h(x)$ =sign（ $\langle{\boldsymbol{w},ψ(x)}\rangle$ - $b$ ）,其中 $\boldsymbol{w}$ =(0,1)和 $b$ =5.

基本范式如下:

1.给定某个域集 $\mathcal{X}$ 和一个学习任务,选择一个映射 $ψ$ : $\mathcal{X} → \mathcal{F}$ ,对于一些 $feature$ $space$ $\mathcal{F}$ ,通常是 $\mathbb{R}^n$ 对于一些 $n$ (但是，这种映射的范围可以是任意的 $Hilbert$ $space$ ,包括无限维度的空间，我们稍后会讲到).

2.给定一系列有标记的例子， $\it{S}$ = ( $\bf{x}_1$ , $y_1$ )，…,( $\bf{x}_m$ ， $y_m$ )创建图像序列 $\hat{S}$ = ( $\bf{x}_1$ , $y_1$ )，…，创建图像序列.

3.训练线性预测器 $h$ 超过 $\hat{S}$ .

4.预测测试点的标签， $\bf{x}$ ,是 $h(ψ(\bf{x}))$ .

注意，对于每个概率分布 $\mathcal{D}$ 超过 $\mathcal{X}\times{Y}$ ,我们可以很容易地定义它的图像概率分布 $\mathcal{D}^\psi$ 超过 $\mathcal{D}\times{Y}$ 通过设置，对于每个子集 $\it{A}\subseteq\mathcal{F}\times{Y}$ , $\mathcal{D}^\psi(\it{A})$ = $\mathcal{D}$ ( $\psi^{-1}$ ( $\it{A}$ )).每个预测器都是如此 $h$ 在特征空间上, $\it{L}_{\mathcal{D}^\psi}$ ( $h$ )= $\it{L}_\mathcal{D}(h\circ\psi)$ ,其中 $h\circ\psi$ 是 $h$ 在 $\psi$ 的组成.

这种学习模式的成功与否取决于对给定的学习任务选择一个好的 $\psi$ :即使数据分布(接近)的图像在特征空间中线性可分的 $\psi$ ,从而使生成的算法对给定的任务具有良好的学习能力。选择这样的嵌入需要事先了解该任务。然而，通常会使用一些泛型映射，使我们能够丰富半空间类并扩展其表达性。一个值得注意的例子是多项式映射，它是我们在前面例子中看到的 $\psi$ 的推广。

回想一下，对一个实例 $\bf{x}$ 标准半空间分类器的预测是基于线性映射的 $\bf{x}\mapsto\langle\bf{w},{x}\rangle$ .我们可以将线性映射推广到多项式映射， $\bf{x}\mapsto\mathcal{p}({x})$ ,其中 $p$ 是一个多变量多项式的次数 $k$ .为简单起见,首先考虑这样一种情况 $\bf{x}$ 是1维.在这种情况下, $p(x)$ = $\sum^k_{j=0}w_jx^j$ ,其中 $\bf{w}\in\mathbb{R}^{k+1}$ 是我们要学习的多项式的系数向量。我们能改写 $p(x)=\langle\bf{w},\psi(x)\rangle$ 其中 $\psi:\mathbb{R}\to\mathbb{R}^{k+1}$ 是映射 $x\mapsto(1,x^1,x^2,x^3,...,x^k)$ .这就引出了学习 $k$ 多项式在 $\mathbb{R}$ 上可以通过学习 $(k+ 1)$ 维特征空间中的线性映射来实现。

更一般地说，一个多变量多项式从 $\mathbb{R}^n到\mathbb{R}$ 可以写成

p(x)=\sum_{J\in[n]^r:r\leq k}w_j\prod^r_{i=1}x_{j_{_i}}.

这个对每个 $A$ 定义的,这样 $\psi^{-1}(A)$ 就可以测量 $\mathcal{D}$ .

和以前一样，我们可以重写 $p(x)=\langle\bf{w},\psi(x)\rangle$ 现在其中 $\psi$