第7章 Boosting

集成方法是机器学习中的一种通用技术，可以去结合多个预测器来创建一个更准确的预测器。本章研究了一个被称为增强的重要集成方法家族，这个方法具体来说就是AdaBoost算法。该算法在某些场景中已经被实践证明是非常有效的，并且是基于丰富的理论分析。我们首先来介绍AdaBoost，展示下它如何通过快速减少轮数增强的经验误差，并指出它与一些著名算法的关系。接下来，我们来呈现出一种基于AdaBoost假设集的vc维数，并对AdaBoost的推广性质进行了理论分析，然后基于边际的概念，对其泛化性质进行了理论分析。在这种情况下发展的边际理论可以应用于其他类似的集成算法。而AdaBoost的博弈论可以进一步有助于分析其性质，揭示了弱学习假设与可分条件的等价性。

7.1 Introduction

这通常是困难的，对于一个不平凡的学习任务，去直接设计出一种满足第 $\mathcal 2$ 章强PAC学习要求的精确算法。但是，还是有很大的希望去找到仅能保证表现比随机稍好一些的简单预测器。下面给出了这种弱学习者的正式定义。正如在PAC学习的章节中一样，我们设 $\mathcal n$ 为一个数字，表示任何元素 $\mathcal x\in\mathcal X$ 的计算代价最多为 $\mathcal O(\mathcal n$ )，并用大小( $\mathcal c$ )表示 $\mathcal c\in C$ 计算表示的最大代价。

定义7.1（Weak learning）

如果存在一个概念类 $\in C$ 据说是弱PAC可学习的一个算法 $\mathcal A，\mathcal \gamma>0$ ，和一个多项式函数多聚（·，·，·），这样对于任何 $\mathcal \sigma>\mathcal 0$ ，对于 $\mathcal X$ 上的所有分布 $\in D$ 和任何目标概念 $\mathcal c\in\mathcal C$ ，

AdaBoost( $\in S= ((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m$ )

for i $\leftarrow$ to m do

$D_1(i)\leftarrow\frac{1}{m}$

for t $\leftarrow$ 1 to T do

$h_t\leftarrow 基础分类器 \mathcal H误差小\epsilon_t=\rho_i~\mathcal D_t$ [ $h_t(x_i)\neq y_i$ ]

$a_t\leftarrow\frac{1}{2}log\frac{1-\epsilon_t}{\epsilon_t}$

$Z_t\leftarrow[\epsilon_t(1-\epsilon_t)]^{\frac{1}{2}}\rhd$ 归一化[标准化]因数

for i $\leftarrow 1$ to m do $\mathcal D_t(i)\leftarrow\frac{D_t（i）exp（-a_ty_ih_t（x_t））}{Z_t}$

$f\leftarrow\sum^T _{t=1}a_th_t$

$return f$

图7.1基本分类器集 $\mathcal H⊆{−1，+1}\mathcal x$ 的AdaBoost算法。以下算法适用于任何样本大小的 $\mathcal m\ge\mathcal poly(\mathcal 1/\mathcal \sigma,\mathcal n，\mathcal size(\mathcal c$ ))：

其中 $h_S$ 是算法 $\mathcal A$ 在样本 $\mathcal S$ 上训练时返回的假设。当这样的算法 $\mathcal A$ 存在时，它被称为C的弱学习算法或弱学习者的算法。弱学习算法返回的假设称为基础分类器。增强技术背后的关键思想是使用一个弱学习算法来建立一个强的学习者，也就是说，一个精确的PAC学习算法。要做到这一点，提升技术采用了一种集成方法：它们结合了弱学习者返回的不同基础分类器，以创建一个更准确的预测器。但是应该使用哪些基础分类器以及如何组合呢？下一节来通过详细描述一种最普遍和最成功的增强算法，AdaBoost来解决这些问题。

我们用 $\mathcal H$ 表示从中选择基本分类器的假设集，我们有时会称之为基分类器集。图7.1给出图7.2

QQ截图20211008005558.png 以轴对齐的超平面作为基础分类器的AdaBoost示例。( $\mathcal a$ )最上面的一行显示了每一轮推进时的决策边界。下面一行显示了每一轮如何更新权重，给出错误（正确）权重增加（减少）。( $\mathcal b$ )最终分类器的可视化，构造为基分类器的非负线性组合。在基分类器是从 $\mathcal X$ 映射到{ $\mathcal −1，\mathcal +1$ }的函数时，AdaBoost的伪代码，因此 $\mathcal H\subseteq$ { $\mathcal −1，\mathcal +1$ } $\mathcal X$ 。该算法以一个标记的样本 $S=((x_1，y_1)，…，(x_m，y_m$ ))作为输入，其中，( $x_i，y_i$ ) $\subseteq\mathcal X×{−1，+1}$ 为所有的 $\mathop i\in{m}$ ，并在索引{ $\mathcal 1$ ，…， $\mathcal m$ }上保持一个分布。最初（第 $\mathcal 1$ 至 $\mathcal 2$ 行），分布是均匀的（ $\mathcal D1$ ）。在每一轮增强 $\mathcal h$ 时，即循环 $\mathcal 3-\mathcal 8$ 的每次迭代 $\mathcal t\in {\mathcal i}$ ，选择一个新的基分类器 $\mathcal t\in\mathcal H$ ，使由分布 $D_t$ 加权的训练样本的误差最小化：

h_{_t}\in\underset{h\in\mathcal H}{\argmin}\underset{i\sim\mathcal D_{_i}}{\mathbb{P}}[h(x_{_i})\neq y_{_i}]=\underset{h\in\mathcal H}{\argmin}\sum^{m}_{i=1}\mathcal D_{_t}(i)_{_{h(x_i)\neq y_i}}

$z_t$ 只是一个归一化因子,以确保权重 $\mathcal D_t(\mathcal i$ )之和为 $\mathcal 1$ 。定义系数 $\mathcal αt$ 的确切原因将在稍后变得清楚。

目前，观察到，如果 $\epsilon_t基分类器的t的误差小于\frac{1}{2},这时\frac{1-\epsilon_t}{\epsilon_t}\mathcal>1并且\mathcal a_\mathcal t$ 是积极的( $a_t> 0$ ).因此，新的分布 $\mathcal D_{t+1}$ 是从 $\mathcal D_t$ 通过大大增加它的重量 $\mathcal i$ 如果点 $\mathcal x_i$ 是错误的分类( $\mathcal y_i$ $\mathcal h_t(\mathcal x_i)<\mathcal 0$ )，相反，如果 $\mathcal x_i$ 是正确分类的。这样做的效果是更多地关注下一轮助推中错误分类的点，而不是那些正确分类的点 $\mathcal h_t$

经过 $\mathcal T轮增强后，AdaBoost返回的分类器是基于函数的符号进行的\mathcal f$ ，这是一个基分类器的非负线性组合 $\mathcal h_t$ 。重量 $\alpha_t$ 被分配给 $\mathcal h_t$ 在这个和中是精度之比的对数函数 $\mathcal 1-\epsilon_t$ 和错误 $\epsilon_t$ 的 $\mathcal h_t$ .因此，更准确的基分类器在这个总和中被分配了一个更大的权重。图7.2说明了AdaBoost算法。这些点的大小表示在每一轮推进时分配给它们的分布权重。任何 $\mathcal t\in[\mathop T$ ]，我们将用 $f_t$ 表示基分类器的线性组合 $\mathcal t$ 轮升力： $\mathcal f_t=\sum^t _{s=1}\mathcal a_s\mathcal h_s$ 。特别是，我们有 $\mathcal f_T=\mathcal f$ 分布 $\mathcal D_{t+1}$ 可以用 $\mathcal f_t$ 归一化因素 $\mathcal Z_s,\mathcal s\in[\mathop t$ ]，如下：

$\forall\mathcal i\in[\mathcal m$ ], $\mathcal D_{t+1}(\mathcal i）=\frac{e^{-y_if_t(x_i)}}{m \prod ^t_{s=1}Z_s}$ (7.2)

我们将在以下章节的证明中多次使用这个恒等式。它可以通过重复扩展点上分布的定义来直接显示出来 $\mathcal x_i$ ：

\mathcal D_{t+1}(\mathcal i)=\frac{e^{-\alpha_ty_if_t(xi)}}{Z_t}=\frac{\mathcal D_{t-1}（\mathcal i）e^{-a_{t-1}y_{i}h_{t-1}(xi)}e^{-a_ty_if_t(xi)}}{Z_{t-1Z_t}} =\frac{e^{yi\sum^{t}_{s=1}a_sh_s(xi)}}{m \prod ^t_{s=1}Z_s}

AdaBoost算法可以通过以下几种方式进行推广：

$h_t$ 可以不是加权误差最小的假设，而是由训练过的弱学习算法返回的基本分类器 $\mathcal D_t$ ;

基分类器的范围可以是[ $\mathcal −1.\mathcal +1$ ]，或者更一般地是一个有界的子集 $\R$

系数 $\mathcal \alpha_t$ 可以不同，甚至可能不允许封闭形式。一般来说，选择它们是为了最小化经验误差的上界，如下一节所述。当然，在这种一般情况下，假设 $\mathcal h_t$ 不是二进制分类器，但它们的符号可以定义标签，它们的大小可以被解释为置信度的度量。

在本章的其余部分中， $\mathcal H$ 中的基分类器的范围将被假设包含在[ $\mathcal −1\mathcal +1$ ]中。我们进一步分析AdaBoost的特性，并讨论其在实践中的典型应用。

7.2.1结合经验误差

我们首先证明了AdaBoost的经验误差随着助推轮数的函数呈指数快速减小.

定理7.2

AdaBoost返回的分类器的经验误差验证了： $\widehat{\mathop{R}} _s(\mathcal f)\leq exp\lbrack-2\sum\limits_{t=1}^{T} (\frac{1}{2}-\epsilon_t)^2\rbrack$
(7.3) 此外，如果为所有人 $\mathcal t∈[T]，\mathcal γ\le(\frac{1}{2}-\epsilon_t$ ),这时 ${\mathop{R}}_s(\mathcal f)\le$ exp(-2 $\mathcal γ^2 T$ ).

证明：使用一般的不等式 $\mathcal 1_{u\leq0}\le exp（-u）$ 对所有人都有效 $\mathcal u\in \mathbb R$ 和身份7.2，我们可以写道：

$\widehat{\mathop{R}}_s(\mathcal f)=\frac{1}{m}\sum\limits^{m}\limits_{i=1}$ ${{y_i} f_(xi)\le0}$ $\le\frac{1}{m}$ $\sum\limits^{m}\limits_{i=1}[m\prod \limits^T_{t=1}Z_t$ ]{i=1} $\mathcal D_{T+1}=\prod \limits^T_{t=1}Z_t$

因为所有t $\in [T],Z_t$ 是一个标准化因子，它可以用 $\epsilon_t$ 通过：

$Z_t=\sum\limits^{m}_{i=1}\mathcal D_{t}(i)e^{-a_{t-1}y_{i}h_{t-1}(xi)}=\sum\limits_{\mathcal i:y_ih_t(x_i)=+1}\mathcal D_{t}(i)e^{-at}$ + $\sum\limits_{\mathcal i:y_ih_t(x_i)=-1}\mathcal D_{t}(i)e^{at}$

=(1- $\epsilon_t)e^{-at}+\epsilon_te^{\alpha_t}$

=(1- $\epsilon_t)\sqrt\frac{\epsilon_t}{1-\epsilon_t}+\epsilon_t{\sqrt\frac{1-{\epsilon_t}}{\epsilon_t}}=2\sqrt{\epsilon_t(1-\epsilon_t)}$

因此，归一化因子的乘积可以表示和上界如下：

$\prod \limits^T_{t=1}Z_t=\prod \limits^T_{t=1}2\sqrt{\epsilon_t(1-\epsilon_t)}=\prod \limits^T_{t=1} \sqrt{1-4(\frac{1}{2}-\epsilon_t)^2} \leq\prod \limits^T_{t=1} exp[-2(\frac{1}{2}-\epsilon_t)^2]$

=exp $[-2(\frac{1}{2}-\epsilon_t)^2]$

其中的不等式来自于这个不等式1-x\leq e^{-x}对所有人都有效x\in \mathbb R. \Box

请注意， $\mathcal γ$ 的值,这被称为边缘，并且算法不需要知道基本分类器的准确性。该算法适应了他们的需求

图7.3由AdaBoost优化的零损失（蓝色)和零损失(红色）的凸和可微上界的可视化。并根据这些值定义了一个解决方案。这是AdaBoost的扩展名称的来源：自适应增强。定理7.2的证明揭示了其他几个重要的性质。首先，观察到 $\alpha_t$ 是函数的最小值 $\varphi:\alpha\mapsto(1-\epsilon_t)e^{-\alpha}+\epsilon_te^{\alpha}$ .的确， $\varphi$ 是凸的和可微的，并将其导数设置为零产量： $\varphi(\alpha)={-}(1{-}\epsilon_t)e^{{-}\alpha}+\epsilon_te^{\alpha}=0\Leftrightarrow(1-\epsilon_t)e^{-\alpha}=\epsilon_te^{\alpha}$

图7.3由AdaBoost优化的零1损失（蓝色)和零1损失(红色）的凸和可微上界的可视化。并根据这些值定义了一个解决方案。这是AdaBoost的扩展名称的来源：自适应增强。定理7.2的证明揭示了其他几个重要的性质。首先，观察到 $α_t$ 是函数的最小值 $\varphi:\alpha\mapsto (1-\epsilon_t)e^{-\alpha}+\epsilon_te^{\alpha}.的确，\varphi$ 是凸的和可微的，并将其导数设置为零产量：

$\varphi(\alpha)=-(1-\epsilon_t)e^{-\alpha}+\epsilon_te^{\alpha}=0\Leftrightarrow(1-\epsilon_t)e^{-\alpha}=\epsilon_te^{\alpha}$

图7.3由AdaBoost优化的零1损失（蓝色)和零1损失(红色）的凸和可微上界的可视化。并根据这些值定义了一个解决方案。这是AdaBoost的扩展名称的来源：自适应增强。定理7.2的证明揭示了其他几个重要的性质。首先，观察到 $\alpha_t$ 是函数的最小值 $\varphi:\alpha\mapsto (1-\epsilon_t)e^{-a}+\epsilon_te^{a}$ .的确, $\varphi$ 是凸的和可微的，并将其导数设置为零产量：

\varphi(\alpha)={-}(1{-}\epsilon_t)e^{{-}\alpha}+\epsilon_te^{a}=0\Leftrightarrow(1{-}\epsilon_t)e^{{-}\alpha}=\epsilon_te^{a}\Leftrightarrow\mathcal a=\frac{1}{2}log{\sqrt\frac{1-{\epsilon_t}}{\epsilon_t}}. (7.5)

因此，选择 $α_t$ 来最小化 $Z_t=\varphi(a_t$ )而且，根据这个界限 $\widehat{\mathop{R}} _s(\mathcal f)\leq\prod ^T_{t=1}Z_t$ 如图所示，这些系数被选择来最小化经验误差的上界。事实上，对于范围为 $\mathcal [−1，+1]或\R$ 的基本分类器， $\alpha_t$ 可以以类似的方式选择来最小化 $Z_t$ ，这就是AdaBoost扩展到这些更一般的情况的方式。还要注意的是，平等的 $(1-\epsilon_t)e^{-a_t}=\epsilon_te^{at}如\mathcal （7.5）$ 所示，在每次迭代中，AdaBoost将等分布质量分配给正确和错误分类的实例，因为 $(1-\epsilon_t)e^{-\alpha_t}$ 是分配给正确分类点的总分布，以及错误分类点的总分布 $\epsilon_te^{at}$ 。这似乎与AdaBoost增加了错误分类点的权重并减少了其他点的权重的事实相矛盾，但事实上并不一致：原因是错误分类点的权重总是更少，因为基本分类器的准确性比随机的好。

7.2.2与坐标下降AdaBoost的关系最初是为了解决弱学习算法是否可以用来推导出强学习算法的理论问题。在这里，7.2AdaBoost151我们将证明它实际上与一个非常简单的算法一致，该算法包括将一般坐标降技术应用于凸可微目标函数。为简单起见，在本节中，我们假设基分类器集 $\mathcal H$ 是有限的，具有基数 $\mathcal N：\mathcal H={(h_1,...,h_N)}$ 。集成函数 $\mathcal f$ 比如AdaBoost返回的那个，然后可以被写成 $\mathcal f=\frac{1}{m}\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_j}h_j}$ ,随着 $\mathop{a}\limits^{-}{{_j}}$ $\ge0$ 给定一个标记样本 $\mathcal S=((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m$ ),设 $\mathcal F$ 是为所有对象定义的目标函数 $\mathop{a}\limits^{-}(\mathop{a}\limits^{-}{_1},..,\mathop{a}\limits^{-}{_N})\in\R^N$ 通过：

F( $\mathop{a}\limits^{-})=\mathcal f)=\frac{1}{m}\sum\limits^{m}\limits_{i=1}$ $_{y_if(x_i)\le0}\le\frac{1}{m}\sum\limits^{m}\limits_{i=1}$ $e^{-y_if(x_i)}$

$\mathop F$ 是一个 $\mathop α$ 的一个凸函数，因为它是一个凸函数的和，每个凸函数都是由（凸）指数函数和一个\mathop α的仿射函数组成得到的。 $\mathop F$ 也是可微的，因为指数函数是可微的。我们将证明 $\mathop F$ 是由AdaBoost最小化的目标函数。不同的凸优化技术可以用来最小化 $\mathop f$ 。在这里，我们将使用坐标下降技术的一个变体。坐标下降应用于 $\mathop T$ 轮上。设 $\mathop{a}\limits^{-}{_0}=0$ 并且设 $\mathop{a}\limits^{-}{_t}$ 表示迭代结束时的参数向量 $\mathop t$ 。在每一轮 $t\in[\mathop T]$ ，方向 $e_k$ 对应的第k个坐标 $\mathop{a}\limits^{-}$ 在 $\mathbb R$ 是选择的，以及一个步长 $\eta$ 沿着那个方向. $\mathop{a}\limits^{-}{_t}$ 是从 $\mathop{a}\limits^{-}{_{t-1}}$ 根据更新 $\mathop{a}\limits^{-}{_t}$ = $\mathop{a}\limits^{-}{_{t-1}}+\mathcal \eta e_k$ ，其中 $\eta是沿着e_k$ 方向选择的步长。请注意，如果我们用 $\mathop{g}\limits^{-}{_t}$ 集成函数决定由 $\mathop{a}\limits^{-}{_t}$ ，即 $\mathop{g}\limits^{-}{_t}=\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_j}h_j}$ ,然后，坐标下降更新与该更新相一致 $\mathop{g}\limits^{-}{_t}$ = $\mathop{g}\limits^{-}{_{t-1}}$ + $\mathcal \eta h_k$ ，这也是AdaBoost的更新。因此，由于这两种算法都是从 $\mathop{g}\limits^{-}{_0}=0$ , ，以表明AdaBoost与坐标下降应用于 $\mathop F$ ，只要在每次迭代中显示出来都足够了 $\mathop t$ ，坐标下降选择相同的基本假设香港和步骤 $\eta作为AdaBost提升。我们将通过归纳法假设这适用于迭代t−1$ ，这意味着等式 $\mathop{g}\limits^{-}{_{t-1}}$ = $\mathop{f}\limits^{-}{_{t-1}}然后将显示它在迭代t$ 中也成立。

我们在这里考虑的坐标下降的变体包括，在每次迭代中，选择最大的下降方向，即 $\mathop F的导数是绝对值最大的方向，并沿着该方向选择最好的步骤，即选择η$ 来最小化 $F(\mathop{a}\limits^{-}{_{t-1}+\mathcal ηe_k})$ 。为了给出每次迭代的方向和步骤的表达式，我们首先引入第7章152与分析中出现的增强量。任何 $t\in[\mathop T]$ ，我们在指数{ $1，……$ }上定义了一个分布 $D_t$ ，如下所示：

$\mathop \mathcal{D}\limits^{-}(i)=\frac{e^{-y_if(x_i)\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_{t-1}}h_j}}(x_i)}{\mathop{Z}\limits^{-}{_t}}=\frac{e^{-y_i\mathop{g}\limits^{-}{_{t-1}}}(x_i)}{{\mathop{Z}\limits^{-}{_t}}}$

其中， $\mathop{Z}\limits^-{_t}$ 为归一化因子 $\mathop{Z}\limits^-{_t}$ = $\sum^{m}_{i=1}e^{-y_if(x_i)\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_{t-1}}h_j}}(x_i)$ 。注意，因为 $\mathop{g}\limits^{-}{_{t-1}}$ = $\mathop{f}\limits^{-}{_{t-1}}$ , $\mathop{D}\limits^{-}{_{t}}$ 与 $\mathcal D_{t}(i)$ 我们也定义了任何基本的假设 $h_j，\mathop j∈[\mathop N]$ ，其预期误差 $\mathop\epsilon\limits^{-}{_t,_j}$ 关于分布 $\mathcal D_{t}$ : $\mathop\epsilon\limits^{-}{_{t,j}}=[1_{y_ih_j(x_i)\le0}]$

$\mathop F'的方向导数\mathop{a}\limits^{-}{_{t-1}}沿着e_k$ 被表示为 $\mathop F(\mathop{a}\limits^{-}{_{t-1}},e_k)=\mathop{lim}\limits_{\eta\rightarrow0}\rightarrow\frac{F(\mathop a\limits^{-}{_{t-1}}+ηe_k)-F(\mathop a\limits^{-}{_{t-1}})}{η}$

从 $\mathop F'(\mathop{a}\limits^{-}{_{t-1}},e_k)=\sum^{m}_{i=1}e^{-y_i\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_{t-1}}h_j}(x_i)}，沿e_k$ 的方向导数可以表示如下：

= $-\frac{1}{m}\sum\limits^{m}\limits_{i=1}$ ${y_ih_k(x_i)}e^{-y_i\sum^{N}_{j=1}{\mathop{a}\limits^{-}{_{t-1}}h_j}(x_i)}$

= $-\frac{1}{m}\sum\limits^{m}\limits_{i=1}$ ${h_k(x_i)}\mathop\mathcal{D}\limits^{-}{_{t}}(i)\mathop{Z}\limits^{-}{_t}$

=-[ $\sum^{m}_{i=1}\mathop\mathcal{D}\limits^{-}{_{t}}(i)y_ih_k(x_i)$ = $_{+1}-\mathop\mathcal{D}\limits^{-}{_t}(i)_{y_ih_k(x_i)=-1}]\frac{\mathop{Z}\limits^{-}{_t}}{m}$

从 $\frac{\mathop{Z}\limits^{-}{_t}}{m}$ 不依赖于k，最大下降方向 $\mathop k$ 是一个最小方向 $\epsilon_{t,K}$ 因此，迭代 $\mathop t$ 时坐标下降选择的假设 $h_k$ 是样本 $\mathop S$ 上期望误差最小的假设 $h_k$ ，其中期望对 $\mathop{D}\limits^{-}{_t}=\mathop{D}{_t}$ 进行。这与AdaBoost在第t轮的选择完全匹配。

选择步长 $\eta$ 以沿所选择的方向最小化函数 $e_k:argmin_\eta F(\mathop {a}\limits^{-}{_{t-1}},e_k)$ 自从 $F(\mathop {a}\limits^{-}{_{t-1}},e_k)是\eta$ 的一个凸函数，以找到

QQ截图20211012232706.png

图7.4从损失的几个凸上界的例子的最小值，它足以将其导数设为零：

$\frac{dF(\mathop{a}\limits^{-}{_{t-1}},e_k)}{d\eta}= 0\Leftrightarrow\frac{1}{m}\sum\limits^{m}\limits_{i=1}h_k(x_i)\mathop D\limits^{-}{_t}(i)\mathop{Z}\limits^{-}{_t}e^{-\eta y_ih_k(x_i)}=0$

$-\Leftrightarrow\frac{1}{m}\sum\limits^{m}\limits_{i=1}h_k(x_i)\mathop D\limits^{-}{_t}(i)\mathop{Z}\limits^{-}{_t}e^{-\eta y_ih_k(x_i)}=0$

$-\Leftrightarrow\frac{1}{m}\sum\limits^{m}\limits_{i=1}h_k(x_i)\mathop D\limits^{-}{_t}(i)e^{-\eta y_ih_k(x_i)}=0$

$\Leftrightarrow-[(1-\mathop\epsilon\limits^{-}{_{t,k}})e^{-\eta}-\mathop\epsilon\limits^{-}{_{t}},_ke^\eta]=0$

$\Leftrightarrow\eta=\frac{1}{2}log\frac{1-\mathop\epsilon\limits^{-}{_t,k}}{\mathop\epsilon\limits^{-}{_t,k}}$

这证明了坐标下降选择的步长与AdaBoost分配给第 $\mathop t$ 轮中选择的分类器的权重 $αlpha_t$ 一致。因此，应用于指数目标F的坐标下降与AdaBoost精确重合，而F可以看作是AdaBoost寻求最小化的目标函数。鉴于这种关系，我们可以考虑坐标下降到零损失 $\mathop{a}\limits^{-}$ 的上界的其他凸可微函数的类似应用。特别是，逻辑损失 $x\longmapsto log_2(1+e^{-x})$ 是凸的和可微的，是零损失的上界。图 $\mathop 7.4$ 显示了具有零损失上限的备选凸损失函数的其他例子。使用逻辑损失，而不是AdaBoost使用的指数损失，会导致一个与逻辑回归相一致的目标。

在这里，我们简要描述了AdaBoost的标准实际应用。该算法的一个重要要求是选择基分类器或弱学习器。在实践中，AdaBoost通常使用的基本分类器家族是决策树，这相当于空间的层次分区（见第 $\mathop 9$ 章，第 $\mathop 9.3.3$ 节）。在决策树中，深度为 $\mathop 1$ 的树，也被称为树桩，是迄今为止最常用的基分类器。提升树桩是与单个特性关联的阈值函数。因此，树桩对应于单个轴对齐的空间分区，如图所示如图 $7.2$ 所示。如果数据在 $\R^N$ ，我们可以将一个残桩与每个 $N$ 个分量关联起来。因此，为了确定在每一轮推进时具有最小加权误差的树桩，必须计算每个分量的最佳分量和最佳阈值。为此，我们可以首先在 $O(m log m)$ 时间内对每个组件进行预排序，总计算成本为 $O(m log m)$ 。对于一个给定的组件，只有m+1可能存在不同的阈值，因为相同的连续组件值之间的两个阈值是等价的。为了找到每一轮增压时的最佳阈值，可以比较所有这些可能的 $m+1$ 值，这可以在 $O(m)$ 时间内完成。因此， $\mathop T$ 轮提升算法的总计算复杂度为 $O(mN log m+m NT)$ 。然而，请注意，虽然增强树桩与AdaBoost被广泛使用，并且在实践中表现很好，但以最小（加权)经验误差返回树桩的算法不是一个弱学习者(参见防御7.1）！例如，考虑简单的 $XOR$ 示例， $\mathbb R^2$ 中有四个数据点(见图6.3a)，其中第二象限和第四象限的点是正标记的，第一和第三象限的点是负标记的 $\frac{1}{2}$

7.3在本节中，我们对AdaBoost的推广特性进行了理论分析。7.3.1基于vc维度的分析，我们首先基于其假设集的vc维度对AdaBoost进行分析。ADA在\mathop T轮增强后AdaBoost选择输出的函数族\mathcal F_T为

$\mathcal F_T={sgn（\sum^T _{t=1}\alpha_th_t）:\alpha_t\ge0,h_t\in H,t\in[T]}$

QQ截图20211013003837.png

图7.5 使用AdaBoost和 $\mathop(4.5)$ 决策树作为基础学习者的实证结果。在本例中，经过大约5轮增强(T≈5)后，训练误差趋于 $\mathop 0$ ，但当T值越大时，测试误差继续减小。 $\mathop F_T$ 的vc维数可以根据基本假设 $\mathcal H$ 族的vc维数 $\mathop d$ 限定如下(练习 $\mathop 7.1$ ):

$VCdim(\mathcal F_T)\le2(d+1)(T+1)log_29(T+1)e)$

上界随着 $\mathop O(dTlogT)$ 的增长而增长，因此，该界表明AdaBoost可能对大的T值过拟合，这确实会发生。然而，在许多情况下，根据经验观察到，AdaBoost的泛化误差随着增强T $轮数的函数而减少，如图$ \mathop 7.5$所示！如何解释这些实证结果？下面的部分提出了一个基于边际的分析，以支持AdaBoost，可以作为这些经验观察的理论解释。

7.3.2

$\mathop L_1$ 几何裕度在第 $\mathop 5$ 章中，我们引入了置信裕度的定义，并提出了一系列基于该概念的一般学习边界，该概念特别为支持向量机提供了很强的学习保证。在这里，我们将类似地基于集成方法的置信度概念推导一般学习边界，我们将特别使用它来推导AdaBoost的学习保证。回想一下，一个实值函数f在一个用 $y标记的点x处的置信度是量\mathop yf(x)$ 。对于支持向量机，我们还定义了几何边度的概念，在可分离的情况下，它是具有归一化加权向量 $\mathop w,{\|w\|_2=1}$ 的线性假设置信度的边度的下界。在这里，我们还将为具有范数-1约束的线性假设定义一个几何边度的概念，例如AdaBoost返回的集合假设，并同样将该概念与置信边度的概念联系起来。这也将为我们提供一个机会，以指出在支持向量机中使用的一些概念和术语与在增强中使用的一些概念和术语之间的联系。

QQ截图20211013173717.png

图 $7.6norm-2和norm-\infty$ 的最大边缘超平面。

首先要注意的是一个函数 $\mathop f=\sum^T _{t=1}\alpha_th_t$ 这是碱基假设的线性组合 $(h_1,...,h_T)$ 可以等价地表示为一个内积 $\mathop f=a^.h$ ,这里 $\alpha=(\alpha_1,...\alpha_T)^T$ 并且 $\mathop h=(h_1,...h_T)^T$ 。这使得本章中考虑的线性假设与第 $\mathop 5$ 章和第 $\mathop 6$ 章之间的相似性明显：基本假设值 $\mathop h(x)$ 的向量可以视为与x相关的特征向量，前几章用 $\varPhi(x)$ 表示， $\alpha$ 是 $\mathop w$ 表示的权重向量。此外，对于如AdaBoost返回的集合线性组合，权值向量是非负的： $\alpha\ge0$ 。接下来，我们为这种集成函数引入一个几何裕度的概念，它不同于为支持向量机引入的概念，只使用范数 $\mathop 1$ 而不是范数 $\mathop 2$ ，使用刚刚引入的符号。

$定义7.3（L1几何边缘）L_1几何边缘\rho_f(x)的线性函数f=\sum^T _{t=1}a_th_t和\alpha\neq0在某一点x\in\mathcal X$ 是由

$\mathcal \rho_f(x)=\frac{|f(x)|}{\|\alpha\|1}=\frac{|\sum^T _{t=1}a_th_t|}{\|\alpha\|1}=\frac{|\alpha.h(x)|}{\|\alpha\|1}$

$f在样本S=上的L_1边缘（x_1，……，x_m）$ 是其在该样本中各点上的最小边缘：

$\mathcal \rho_f=\mathop{min}\limits_{_{i\in[m]}}\mathcal \rho_f(xi)=\mathop{min}\limits_{_{i\in[m]}}\frac{|\alpha.h(xi)|}{\|\alpha\|1}$

这个几何边界的定义与SVM算法上下文中给出的定义5.1不同，仅通过权值向量使用的范数：这里的 $\mathop L_1$ 范数，定义5.1中的 $\mathop L_2$ 范数。为了在下面的讨论中区分它们，让 $\rho_1(x)$ 表示 $\mathop L_1\rho_2(x)$ 表示第 $\mathop x$ 点处的 $\mathop L_2$ 边（定义 $\mathop 5.1$ ）：

$\mathcal \rho_1=\frac{|\alpha.h(x)|}{\|\alpha\|1}和\mathcal \rho_2=\frac{|\alpha.h(x)|}{\|\alpha\|2}$

7.3理论结果

$\rho_2(x)$ 是向量 $h_(x)$ 到方程 $\alpha·x=0$ 的超平面的范数 $\mathop 2$ 的距离。类似地， $\rho_1(x)$ 是 $\mathop h_(x)$ 到该超平面的范数 $-\infty$ 距离。这个几何差异如图 $\mathop 7.6.8$ 所示，我们将用

$\mathop {f}\limits^{-}=\frac{f}{\sum^T_{t=1}\alpha_t}=\frac{f}{\|\alpha\|_{1}}$

由AdaBoost返回的函数 $\mathop f$ 的规范化版本。请注意，如果一个标签为 $\mathop y$ 的点x被正确地分类为 $\mathop f(或者\mathop {f}\limits^{-})$ ，然后是置信度 $\mathop {f}\limits^{-})$ 在 $\mathop x$ 处与 $\mathop f$ 的 $L_1$ 几何边缘重合： $y\mathop {f}\limits^{-}(x)=\frac{y\mathop {f(x)}}{\|\alpha\|_{1}}=\mathcal \rho_f(xi)$ .请注意，由于系数 $\alpha_t$ 是非负的， $\mathcal \rho_f(xi)$ 则是基本假设值 $h_t(x)$ 的凸组合。特别是，如果基本假设 $h_t$ 取 $\mathop [−1，+1]$ 中的值，那么 $\mathcal \rho_f(xi)在[−1，+1]$

基于7.3.3边际的分析为了分析AdaBoost的泛化性质，我们首先研究了凸线性系综的辐射器复杂性。对于任何实值函数的假设集 $\mathcal H$ ，我们用conv( $\mathcal H$ )来表示它的凸包，它由

conv( $\mathcal H$ )={ $\sum\limits^{p}_{k=1}\mu_kh_k:p\ge1,\forall k\in[p],\mu_k\ge0,h_k\in\mathcal H,\sum\limits^{p}_{k=1}\mu_k\le1$ . $(7.12)$

下面的引理表明，值得注意的是，conv( $\mathcal H$ )的经验辐射器复杂度，通常是一个严格更大的集合，包括 $\mathcal H$ ，与 $\mathcal H$ 的是一致的。

引理 $7.4$ 设 $\mathcal H$ 是一组从 $\mathcal X$ 映射到 $\mathbb R$ 的函数。然后，对于任何样本 $\mathop S$ ，我们都有

$\Re_Sconv(\mathcal H)=\Re_S\mathcal H$

一般地说，对于 $\mathop p,q\ge1$ , $\mathop p$ 和 $\mathop q$ 是共轭物，既是 $\frac{1}{p}+\frac{1}{q}=1$ , $\frac{|\alpha.h(x)|}{\|\alpha\|p}为h(x)$ 到方程 $\alpha·h(x)=0$ 的超平面的范数 $\mathop q$ 距离。

证明：证明来自于一系列简单的等式：

\Re_Sconv(\mathcal H)=\frac{1}{m}\mathop \mathbb E\limits_{\sigma}[_{h_1，...，h_ph\in\mathop H\limits^{sup},\mu\ge0\|\mu\|_1\le1}{\sum\limits^{m}_{i=1}\sigma_i \sum\limits^{p}_{k=1}\mu_kh_k(xi)]}

=\frac{1}{m}\mathop \mathbb E\limits_{\sigma}[_{h_1，...，h_ph\in\mathop H\limits^{sup},\mu\ge0\|\mu\|_1\le1}{\sum\limits^{p}_{k=1}\mu_i \sum\limits^{m}_{i=1}\sigma_kh_k(xi)]}

=\frac{1}{m}\mathop \mathbb E\limits_{\sigma}[_{h_1，...，h_p h\in\mathop H\limits^{sup},\mathop {k\in [p]}\limits^{max}}\sum\limits^{m}_{i=1}\sigma_i\sigma_kh_k(xi)]

=\frac{1}{m}\mathop \mathbb E\limits_{\sigma}[h\in\mathop H\limits^{sup}\sum\limits^{m}_{i=1}\sigma_kh(xi)]=\Re_S\mathcal H

其中第三个等式遵循对偶范数的定义(见 $\mathcal A.1.2$ 节)，或观察到p项凸组合的最大化向量 $\mu$ 是将所有权重放在最大项上的值。 $\Box$

该定理可以直接与定理 $\mathcal 5.8$ 结合，推导出假设凸组合集合的辐射复杂性推广界。回想一下

$\widehat{\mathop{R}}_s,_\rho(h)表示带有边际的经验性边际损失\rho$

推论7.5（集合雷达采集器边界）

设 $\mathcal H$ 表示一组实值函数。修复 $\rho>0$ 。然后，对于任何一个 $\sigma>0$ ，概率至少为1个 $−\sigma$ ，以下每个 $\sigma$ 都适用于所有的 $\mathop h∈conv(\mathcal H)$ ：

$\mathop{R}(h)\le\widehat{\mathop{R}}_s,_\rho(h)+\frac{2}{\rho}\Re_m(\mathcal H)+\sqrt\frac{1og\frac{1}{\sigma}}{2m}$

$\mathop{R}(h)\le\widehat{\mathop{R}}_s,_\rho(h)+\frac{2}{\rho}\Re_m(\mathcal H)+3\sqrt\frac{1og\frac{2}{\sigma}}{2m}$

使用推论 $\mathop3.8$ 和推论 $\mathop3.18$ 根据 $\mathop vc$ 维约束辐射器的复杂性，立即得到以下基于vc维的假设凸组合集合的泛化边界。

推论 $\mathcal 7.6$ (集合 $\mathop vc$ 维边界界)设 $\mathcal H$ 是一个函数族，取码头 $\mathcal{+1，−1}$ 的 $\mathop vc$ 维数为 $\mathop d$ 。修复 $\rho>0$ 。然后，对于任何 $\sigma>0$ ，概率至少为 $1−\sigma$ ，以下情况适用于所有 $\mathop h∈conv(\mathcal H)$ ：

$\mathop{R}(h)\le\widehat{\mathop{R}}_s,_\rho(h)+\frac{2}{\rho}\sqrt\frac{2dlog\frac{em}{d}}{m}+\sqrt\frac{1og\frac{1}{\sigma}}{2m}$

这些边界可以推广为所有的 $\rho\in(0,1] \sqrt\frac{loglog_2\frac{2}{\sigma}}{m}$ ，以形式的附加项的价格如定理5.9所述。他们不能是直接应用于AdaBoost返回的函数 $\mathop f$ ，因为它不是基假设的凸组合，但它们可以应用于其归一化版本， $\mathop f\limits^{-}$ = $\frac{\sum^T _{t=1}a_th_t}{\|\alpha\|_{1}}\in conv(\mathcal H)$ 。请注意，从二进制分类的角度来看， $\mathop f$ 和 $\mathop f\limits^{-}$ 是等价的，因为 $sgn(f)=sgn（\frac{f}{\|\alpha\|_{1}}）$ ，因此 $\mathop{R}(f)=R(\frac{f}{\|\alpha\|_{1}})$ ，但他们的经验利润率损失是明显的。

设码头 $\mathop f=\sum^T _{t=1}a_th_t$ 表示在样本 $\mathop S$ 上训练后AdABoost返回的分类器的函数。然后，鉴于 $\mathop(7.13)$ ，对于任何 $\sigma>0$ ，以下概率至少为 $1−\sigma$ ：

$\mathop{R}(h)\le\widehat{\mathop{R}}_s,_\rho(h)+\frac{2}{\rho}\Re_m(\mathcal H)+\sqrt\frac{1og\frac{1}{\sigma}}{2m}$

从 $\mathop （7.14）$ 和 $\mathop （7.15）$ 中也可以得到类似的边界。值得注意的是，增强T的轮数并没有出现在泛化界中 $\mathop （7.16）$ 。如果边界损失 $R_\rho(\mathop f\limits^{-})$ ，该边界仅取决于基分类器家族的置信度 $\rho$ 、样本量 $\mathcal m$ 和 $\mathcal H$ 有效泛化的辐射器复杂度。因此，边界保证了对于相对较大的 $R_\rho$ 很小的有效一代。回想一下，边际损失可以是点 $\mathop x$ 的分数,即 $\frac{y(fx)}{\|\alpha\|_{1}}\le\rho$ （见 $\mathop（5.38）$ ）。根据我们对 $L_1$ 边距的定义，这也可以写如下：

\widehat{\mathop{R}}_s,_\rho(\mathop f\limits^{-})\le\frac{|{i\in[m]:y_i\rho_f(xi)\le\rho}|}{m} \mathop(7.17)

此外，下面的定理提供了经验边际损失的界，在后面讨论的条件下，随 $\mathop T$ 减小

定理7.7

设 $\mathop f=\sum^T _{t=1}a_th_t$ 表示AdaBoost在 $\mathop T$ 轮增强后返回的函数，并假设所有 $\mathop t\in[T]$ ,那 $\mathop\epsilon_t<\frac{1}{2}$ ，这意味着 $\alpha_t>0$ 。然后，对于任何 $\rho>0$ ，以下内容如下：

$\widehat{\mathop{R}}_s,_\rho(\mathop f\limits^{-})\le2^T\leq\prod \limits^T_{t=1}\sqrt {\epsilon_t^{1-\rho}(1-\epsilon)^{1+\rho}}$

证明：

使用一般的不等式 $1_{\mu\le0}\le exp(-\mu)$ 对所有 $\mu\in\mathbb R$ 都有效，与 $\mathop7.2$ 一致 $\mathop\mathcal D\limits^{-}{_{t+1}}(i)=\frac{e^{y_if(x_i)}}{m \prod ^T_{=1}Z_t}$ ，等于 $Z_t=2\sqrt\epsilon_t(1-\epsilon_t)$

定理 $\mathop7.2$ 的证明，以及 $α_t=\frac{1}{2}log(\frac{1-\epsilon}{\epsilon})$ 的定义，我们可以写：

\frac{1}{m}\sum\limits^{m}_{i=1}1_{y_if(x_i)-\rho\|\alpha\|1\le0}\le0\frac{1}{m}\sum\limits^{m}_{i=1}exp(-y_if(x_i)+\rho\|\alpha\|_1\le0)

=\frac{1}{m}\sum\limits^{m}_{i=1}e^{\rho\|\alpha\|_1}[m\prod \limits^T_{t=1}Z_t]\mathop\mathcal D\limits^{-}{_{t+1}}(i)

=e^{\rho\|\alpha\|_1}\prod \limits^T_{t=1}Z_t=e^{\rho\sum_{t'\alpha_t}}

=2^T\prod \limits^T_{t=1}[{\sqrt{\frac{1-\mathop\epsilon\limits^{-}{_t}}{\mathop\epsilon\limits^{-}{_t}}}}]^\rho{\sqrt{\frac{1-\mathop\epsilon\limits^{-}{_t}}{\mathop\epsilon\limits^{-}{_t}}}}

证明就是结论。 $\Box$

此外，如果所有的 $T\in[\mathop T]$ 我们有 $\gamma\le(\frac{1}{2}-\epsilon_t)$ 且 $\rho\le2\gamma$ ，然后表达式 $\mathop 4\epsilon_t^{({1+\rho})}$ 是最大的 $\epsilon_t=\frac{1}{2}-\gamma.^9$ 因此，上限在经验性的边际损失可以为公式

$\widehat{\mathop{R}}_s,_\rho(\mathop f\limits^{-})\le[(1-2\gamma)^{1+\rho}(1-2\gamma)^{1+\rho}]^\frac{T}{2}$

请注意 $(1-2\gamma)^{1-\rho}(1+2\gamma)^{1+\rho}=(1-4\gamma^2)(\frac{1+2\gamma}{1-2\gamma})^\rho$ .这是 $\rho$ 的一个不断增加的函数，因为我们已经有了 $(\frac{1+2\gamma}{1-2\gamma})>1$ 由于 $\gamma>0$ 。因此，如果 $\rho<\gamma$ ，它可以是严格的上界如下

$(1-2\gamma)^{1-\rho}(1+2\gamma)^{1+\rho}<(1-2\gamma)^{1-\gamma}(1+2\gamma)^{1+\gamma}.$

函数 $\gamma\mapsto{1+\rho}<(1-2\gamma)^{1-\gamma}(1+2\gamma)^{1+\gamma}$ 在区间 $\mathop（0、1/2）$ 上的严格上限为 $\mathop 1$ ，因此，如果 $\rho<\gamma$ 这时 $(1-2\gamma)^{1-\rho}(1+2\gamma)^{1+\rho}<1$ 而 $\mathop（7.18）$ 的右侧随 $\mathop T$ 的增加而呈指数级下降 $\rho\gg O(1/\sqrt m)$ 为了给定的边界收敛是必要的，这放置了一个条件 $\gamma\gg O(1/\sqrt m)$ 在边缘值上。在实际应用中，基分类器在 $\mathop t$ 轮的误差 $\epsilon{_t}$ 可能随着 $\mathop t$ 的函数而增加。非正式地说，这是因为增强迫使弱学习者集中于更难以分类的实例，因为即使是最好的基分类器也不能实现比随机更好的错误。如果 $\epsilon{_t}$ 作为t的函数相对较快地接近 $\frac{1}{2}$ ，那么定理 $\mathop7.7$ 的界就变得无信息了。

$\mathop f:\epsilon\mapsto log[\epsilon^{1-\rho}(1-\epsilon^{1+\rho})]=(1-\rho)log\epsilon+(1+\rho)log(1-\epsilon)$ 的差异,在此区间内， $\mathop（0,1）$ 是由 $\mathop f'(\epsilon)=\frac{1-\rho}{\epsilon}-\frac{1+\rho}{1-\epsilon}=2\frac{\frac{1}{2}-\frac{\rho}{2}}{\epsilon(1-e)}=2\frac{(\frac{1}{2}-\frac{\rho}{2}-\epsilon)}{\epsilon(1-e)}$ 因此， $\mathop f$ 是一个递增的函数，超过 $\mathop(0，{\frac{1}{2}-\frac{\epsilon}{2}})$ 这意味着它正在增加，超过 $(0，\frac{1}{2}-\gamma)$ 当 $\gamma\ge\frac{\rho}{2}$

之前的分析和讨论表明，如果AdaBoost承认有一个积极的优势( $\gamma\ge0$ )，然后 $\rho<\gamma$ ，经验性利润率损失 $\widehat{\mathop{R}}_s,_\rho(\mathop f\limits^{-})$ 对于足够大的 $\mathop T$ ，它会变成零（它会以指数速度下降）。因此，AdaBoost在训练样本上实现了 $\gamma$ 的 $\mathop l1$ 几何边缘。在第 $、mathop7.3.5$ 节中，当且仅当训练样本可分离时，边缘 $\gamma$ 是正的。在这种情况下，可以选择边缘为在样本上实现的最大 $L_1$ 几何边缘 $\rho_{max}$ 的一半： $\gamma=\frac{\rho_{max}}{2}$ 。因此，对于一个可分离的数据集，AdaBoost可以渐近地实现至少是最大几何边缘的一半的几何边缘, $\frac{\rho_{max}}{2}$ .

这种分析可以作为经验观察的理论解释，在某些任务中，即使在训练样本上的误差为零后，泛化误差也随T的函数而减小：当训练样本可分离时，几何裕度继续增加。在 $\mathop（7.16）$ 中，对于 $\mathop T$ 轮后由AdaBoost确定的集合函数 $\mathop f$ ，随着 $\mathop T$ 的增加， $\rho$ 可以选择为一个更大的量，使右边的第一项消失( $\widehat{\mathop{R}}_s,_\rho(\mathop f\limits^{-})$ )而第二项变得更有利，因为它减少了 $\frac{1}{\rho}$

但是，AdaBoost是否达到了最大的 $L_1$ 几何边缘 $\rho_{max}$ ？没有。研究表明，对于一个线性可分离的样本，AdaBoost可以收敛到一个明显小于最大边缘的几何边缘(例如， $\frac{1}{3}$ 而不是 $\frac{3}{8})$

7.3.4边际最大化

基于这些结果，已经设计了几种算法的最大化 $\mathop L_1$ 几何边际的明确目标。这些算法对应于求解线性程序 $\mathop(LP)$ 的不同方法。根据 $\mathop L_1$ 边缘的定义，线性可分离样本 $\mathop S=((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m)$ 的最大边际是由

\rho=\mathop{max}\limits_{\alpha}\mathop{min}\limits_{i\in[m]}\frac{(y_i\alpha^.h(x_i))}{\|\alpha\|_1}

根据最大化的定义，优化问题可以写为： $\mathop{max}\limits_{\alpha}\rho$

受以下条件约束： $\frac{(y_i\alpha^.h(x_i))}{\|\alpha\|_1}\ge\rho,\forall_i\in[m]$ 因为 $\frac{(y_i\alpha^.h(x_i))}{\|\alpha\|_1}$ 对 $\alpha$ 的尺度不变，我们可以限制自己 $\|\alpha\|_1=1$ 进一步寻找非阴性的 $\alpha$ ，如AdaBoost，会导致以下情况优化：

${\mathop{max}\limits_{\alpha}\rho}$

服从于 $y_i(\alpha^.h(x_i))\ge\rho,\forall_i\in[m]$

( $\sum^T_{t=1}\alpha=1$ ) $\Lambda(\alpha_t\ge0,\forall t\in[T])$

这是一个线性程序( $\mathop LP$ )，即一个具有线性目标函数和线性约束的凸优化问题。在实践中，有几种不同的方法来解决相对较大的有限合伙人，使用简单形方法、内点方法，或各种特殊目的的解决方案。

请注意的是，在可分离情况下，该算法的解与定义支持向量机的边际最大化的不同之处仅在于所使用的几何边界( $L_1vsL_2$ )的定义和权重向量的非负性约束。图7.6说明了在一个简单的情况下使用这两种不同的边界定义发现的边界最大化超平面。左图显示了SVM解，其中距离超平面最近的点相对于范数测量 $\|^.\|_2$ 。右边的图显示了 $\mathop L_1$ 边缘的解，其中距离超平面最近的点的距离是相对于范数测量的 $\|^.\|_\infty$ 。

根据定义，刚才描述的LP的解决方案允许一个大于或等于AdaBoost解决方案的 $\mathop L_1$ 边距。然而，实证结果并没有显示对 $\mathop LP$ 的解决有系统的好处。事实上，在许多情况下，AdaBoost似乎优于该算法。所描述的边际理论似乎不足以解释这种表现。

7.3.5 在这节中，我们证明AdaBoost允许一个自然的博弈论解释。冯·诺伊曼定理的应用有助于我们将最大边缘和最优边缘联系起来，并阐明AdaBoost的弱学习假设与 $\mathop L_1$ 边缘概念的联系。我们首先介绍了一个特定分布的基分类器的边缘的定义。

定义7.8 在训练样本 $\mathop S=((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m$ )上的分布 $\mathcal D$ 的基分类器是由 $\mathop h_t$ 的边缘

$\gamma_t(\mathcal D)=\frac{1}{2}-\epsilon_t=\frac{1}{2}\sum\limits^m_{i=1}y_ih_t(x_i)\mathcal D(i)$

AdaBoost的弱学习条件现在可以表述如下：存在 $\gamma>0$ ，因此对于训练样本上的任何分布 $\mathcal D$ 和任何基础

表7.1标准石剪刀布游戏的损失矩阵

QQ截图20211015135541.png

分类器 $\mathop h_t$ ，适用于如下： $\gamma_t(\mathcal D)\ge\gamma$

分析定理 $\mathop7.2$ 和系数 $\alpha_t$ 的非负性都需要这个条件。我们将把提升作为一个两人零和游戏。定义 $\mathop7.9$ （零和博弈）一个有限的两人零和博弈由一个损失矩阵 $\mathop M\in\mathbb R^{m×n}$ 组成，其中M是行玩家可能的行动（或纯策略）的数量，n是列玩家可能的行动的数量。条目 $\mathop M_{ij}$ 是当行播放者采取行动 $\mathop i$ 和列播放者采取行动 $\mathop j$ 时的损失（或相当于列支付者的回报）。表 $\mathop7.1$ 显示了一个熟悉的“石头剪刀布”游戏的损失矩阵的例子。定义 $\mathop7.10$ （混合策略）行播放器的混合策略是在 $\mathop m$ 个可能的行操作上的分布 $\rho$ ；列播放器的混合策略是在 $\mathop n$ 个可能的列操作上的分布 $\mathop q$ 。对于混合策略 $\rho$ 和 $\mathop q$ ，行玩家的预期损失（列玩家的预期收益）是 $\mathop{\mathbb E}\limits_{i~p}[\mathop M_{ij}]=\sum\limits^m_{i=1}\sum\limits^n_{j=1}p_i\mathop M_{ij}q_j=P^TMq$

以下是第 $\mathop 8$ 章所证明的博弈论的一个基本结果。定理 $\mathop7.11$ (Von诺伊曼极大极小定理)对于由矩阵 $\mathop M$ 定义的任意有限的二人零和对策，以下等式成立：

$\mathop{min}\limits_{P}\mathop{max}\limits_{\mathop q}P^TMq=\mathop{max}\limits_{\mathop q}\mathop{min}\limits_{P}P^TMq$

（ $\mathop7.22$ ）中的共同值称为游戏的值。该定理指出，对于任何两人零和博弈，每个玩家都存在一个混合策略，为了与其他章节讨论的结果一致，我们考虑损失矩阵而不是回报矩阵（它的相反）这样一个的预期损失与另一个的预期损失收益相同，两者都等于游戏的价值。注意，给定行玩家的策略，列玩家可以选择一个纯粹的策略来优化他们的回报。也就是说，列播放器可以选择对应于向量 $\mathop P^TM$ 的最大坐标的单个策略。类似的评论也适用于相反的评论。因此，极大极小定理的另一种等价形式是

$\mathop{min}\limits_{P}\mathop{max}\limits_{j\in[n]}P^TMe_j=\mathop{max}\limits_{q}\mathop{min}\limits_{i\in[m]}e_i^TMq$

其中 $\mathop e_i$ 表示第个单位向量。我们现在可以把AdaBoost看作是一个零和游戏，其中行玩家的动作是选择一个训练实例 $\mathop x_i$ ， $\mathop i\in[m]$ ，而列玩家的动作是选择一个基础学习者 $\mathop h_t$ ， $\mathop t\in[T]$ 。因此，行玩家的混合策略是在训练点指数上的分布 $\mathcal D$ 。列播放器的混合策略是基于分类器索引的分布[T]。这可以从一个非负向量 $\alpha\ge0$ 中定义：分配的权重 $\mathop t\in[T]$ 是 $\alpha_t/\|\alpha\|1$ 。AdaBoost的损失矩阵 $\mathop M\in(−1，1)^{m×T}$ 由 $M_{it}=y_ih_t(xi)$ 定义为所有 $\mathop(i，t)$ $\in[m]×[T]$ 。根据冯·诺伊曼定理 $\mathop（7.23）$ ，以下观点成立：

$\mathop{min}\limits_{\mathop\mathcal D\in\mathcal D}\mathop{max}\limits_{[t\in[T]]}\sum^m_{i=1}\mathcal D(i)y_ih_t(x_i)=\mathop{max}\limits_{\alpha\ge0}\mathop{min}\limits_{i\in[m]}\sum\limits^t_{T=1}\frac{\alpha_t}{\|\alpha\|1}y_ih_t(x_i)(7.24)$

其中， $\mathcal D$ 表示在训练样本上的所有分布的集合。设 $\rho_\alpha(x)$ 表示由所定义的分类器的点 $\mathop x$ 的边缘 $\mathop f=\sum^T_{t=1}\alpha_th_t$ 。结果可以根据边缘和边缘重写如下：

$2\gamma^*=2\mathop{min}\limits_{\mathop\mathcal D}$ $\mathop{max}\limits_{[t\in[T]]}\gamma_t(\mathop\mathcal D)=\mathop{max}\limits_{\alpha}\mathop{min}\limits_{i\in[m]}\rho_\alpha(x_i)=\rho^*,(7.25)$

其中 $\rho^*$ 是一个分类器的最大边缘， $\gamma^*$ 是可能的最佳边缘。这个结果有几个意义。首先，它表明，弱学习条件 $\gamma^*$ 意味着 $\rho^*>0$ ，因此存在一个具有正边际的分类器，这激发了对非零边际的搜索。AdaBoost可以被看作是一种寻求实现如此非零边际的算法，尽管，正如前面所述，AdaBoost并不总是实现最优边际，因此在这方面是次最优的。此外，我们还看到，“弱学习”假设最初似乎是算法所需要的最弱条件（性能优于随机），实际上是一个强条件：它意味着训练样本与边际 $2\gamma^*>0$ 是线性可分离的。线性可分离性通常不适用于实践中发现的数据集。

7.4 $L_1$ -正则化在实践中

训练样本可能不能线性分离，AdaBoost可能不承认正边，在这种情况下，弱学习条件不成立。也可能是AdaBoost确实承认了一个积极的优势，但γ非常小。在这种情况下，运行AdaBoost可能会导致某些基分类器 $\mathop h_j$ 产生较大的总混合权值。这可能是因为该算法越来越专注于一些难以分类的例子，而且其权重也在不断增长。只有少数基本分类器可以获得最佳的性能，算法不断选择它们，从而增加它们的总混合权重。这些具有总混合权重相对较大的基分类器最终在集合 $\mathop f$ 中占主导地位，因此只决定了分类决策。结果集成的性能通常很差，因为它几乎完全取决于一些基本分类器的性能。有几种方法可以避免这种情况。一种是限制增强T的轮数，这也被称为提前停止。另一个是控制混合物重量的大小 $\mathop\alpha\limits^{-}=(\mathop\alpha\limits^{-}{_1},...,\mathop\alpha\limits^{-}{_N})\in\mathbb R^N$ 通过

$G(\mathop\alpha\limits^{-})=\frac{1}{m}\sum\limits^{m}\limits_{i=1}e^{y_if(x_i)}+\lambda\|\alpha\|_1=\frac{1}{m}\sum\limits^{m}\limits_{i=1}e^{y_i\sum\limits^{N}_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)}+\lambda\|\alpha\|_1, (7.26)$

其中，对于AdaBoost， $\mathop f$ 是一个由 $\mathop f=\mathop\alpha\limits^{-}{{_jh_j}}$ ，使用 $\mathop\alpha\limits^{-}\ge0$ 。目标函数 $\mathop G$ 是 $\mathop\alpha\limits^{-}$ 的一个凸函数，作为AdaBoost的凸目标和 $\mathop\alpha\limits^{-}$ 的范数 $\mathop-1$ 的和。 $\mathop L_1$ 正则化的AdaBoost包括将坐标下降应用到目标函数 $\mathop G$ 。我们现在表明，该算法可以从推论 $\mathop7.5$ 或推论 $\mathop7.6$ 的集成方法的基于边际的保证中直接导出。因此，这样 $\mathop L_1$ 正则化的AdaBoost比AdaBoost受益于更有利和更自然的理论保证。通过将推论 $\mathop 7.5$ 推广到 $\rho$ 上的均匀收敛界，对于任何 $\sigma>0$ ，概率至少为 $1−\sigma$ ，以下适用于 $\mathop f=\sum^N_{j=1}\mathop\alpha\limits^{-}{_jh_j}$ 与 $\|\alpha\|1\le1$ 和所有 $\rho\in$ 的所有集成函数 $\mathop(0,1]$ ：

$\mathop{R}(f)\le\frac{1}{m}\sum\limits^{m}_{i=1}1_{f(x_i)\le\rho}+\frac{2}{\rho}\Re_m(\mathcal H)+\sqrt\frac{loglog_2{\frac{2}{\rho}}}{m}+\sqrt\frac{log_2{\frac{2}{\sigma}}}{2m}. (7.27)$

这个不等式对于 $\rho>1$ 也很简单地适用，因为在这种情况下，界的右边的第一项等于 $\mathop 1$ 。事实上，在这种情况下，通过H¨老的不等式，对于任何 $\mathop x\in \mathcal X$ ，我们有 $\mathop f(x)=\sum\limits^n_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)\le\|\alpha\|1max_{j\in[N]}|h_j(x_i)|\le\|\alpha\|_1\le1\le\rho$

现在，鉴于一般的上界 $1_u\le0\le e^{-u}$ 适用于所有 $u\in \mathbb R$ ，概率至少为 $\mathop 1−\sigma$ ，以下适用于所有 $\mathop f(x)=\sum\limits^n_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)$ 与 $\|\alpha\|1\le1$ 和所有 $\rho>0$ :

$\mathop{R}(f)\le\frac{1}{m}\sum\limits^{m}_{i=1}e^{1-\frac{f(x_i)}{\rho}}+\frac{2}{\rho}\Re_m(\mathcal H)++\sqrt\frac{loglog_2{\frac{2}{\rho}}}{m}+\sqrt\frac{log_2{\frac{2}{\sigma}}}{2m}.(7.28)$

由于对于任何 $\rho>0$ ， $\mathop f/\rho$ 承认与 $\mathop f$ 相同的泛化误差，概率至少为 $\mathop 1−\rho$ ，所有具有 $\|\alpha\|_1\le1和/\rho$ 的 $\mathop f(x)=\sum\limits^n_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)$ 不等

$\mathop{R}(f)\le\frac{1}{m}\sum\limits^{m}_{i=1}e^{1-{f(x_i)}}+\frac{2}{\rho}\Re_m(\mathcal H)++\sqrt\frac{loglog_2{\frac{2}{\rho}}}{m}+\sqrt\frac{log_2{\frac{2}{\sigma}}}{2m}.(7.29)$

这个不等式可以用来推导出一个选择 $\mathop\alpha\limits^{-}$ 和 $\rho>0$ 来最小化右侧的算法。关于 $\rho>0$ 的最小化不会导致凸优化，而是依赖于影响第二项和第三项的理论常数因素，这可能不是最优的。因此， $\rho>0$ 被作为算法的自由参数，通常通过交叉验证来确定。现在，由于只有右边的第一项依赖于 $\mathop\alpha\limits^{-}$ ，所以边界建议选择 $\mathop\alpha\limits^{-}$ 作为以下优化问题的解：

$\mathop {min}\limits_{\|\alpha\|_1\le\frac{1}{\rho}}\frac{1}{m}\sum\limits^{m}_{i=1}e^{-{f(x_i)}}=\frac{1}{m}\sum\limits^{m}_{i=1}e^{-\sum\limits^n_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)}$

引入拉格朗日变量 $\lambda\ge0$ ，优化问题可以等价地写为

$\mathop {min}\limits_{\|\alpha\|_1\le\frac{1}{\rho}}\frac{1}{m}\sum\limits^{m}_{i=1}e^{-\sum\limits^n_{j=1}\mathop\alpha\limits^{-}{{_jh_j}}(x_i)}+\lambda\|\alpha\|_1$

由于在 $\mathop（7.30)$ 约束下的任何 $\rho$ 选择，公式 $\mathop(7.31）$ 中存在一个等价的双变量λ，达到相同的最优 $\mathop\alpha\limits^{-}$ ，因此可以通过交叉验证自由选择 $\lambda\ge0$ 。因此，所得到的目标函数与 $\mathop L_1$ 正则化的AdaBoost的目标函数完全一致。

AdaBoost有几个优点：它简单，实现简单，每一轮提升的时间复杂性作为样本量的函数是相当有利的。如前所述，当使用决策树桩时，每一轮提升的时间复杂度为 $\mathop O(mN)$ 。当然，如果特征空间 $\mathop N$ 的维数非常大，那么算法实际上可能会变得相当慢。AdaBoost还受益于丰富的理论分析。然而，该算法仍存在许多相关的理论问题。例如，正如我们所看到的，该算法实际上并没有最大化边际，但是能够最大化边际的算法并不总是优于它。这表明，也许一个基于不同于最小边际的概念的更好的分析，可以更多地阐明算法的特性。

该算法的一个小缺点是需要选择参数 $\mathop T$ 和基分类器集。选择提高 $\mathop T$ （停止准则）的轮数对算法的性能至关重要。 $\mathop VC$ 维数分析表明， $\mathop T$ 值越大，会导致过拟合。在实践中， $\mathop T$ 通常是通过交叉验证来确定的。基分类器的选择也至关重要。基分类器 $\mathop H$ 族的复杂性出现在所给出的所有边界中，为了保证泛化，控制它是很重要的。另一方面，不够复杂的假设集可能导致低边际。

AdaBoost最严重的缺点可能是它在噪声时的性能，至少在某些任务中是这样。由于算法的性质，分配给难以分类的例子的分布权重随着增强轮数的增加而大幅增加。这些示例可能最终会主导基分类器的选择，而基分类器有足够多的轮，将在AdaBoost定义的线性组合的定义中发挥不利作用。已经提出了几种解决方案来解决这些问题。一种是使用比AdaBoost的指数函数“较低攻击性”的目标函数，如逻辑损失，来惩罚较少分类不正确的点。另一个解决方案是基于正则化的，例如，前一节中描述的 $\mathop L_1$ 正则化的AdaBoost。

对AdaBoost的实证研究表明，均匀噪声严重损害了其精度。最近的理论结果也证实了这一点，表明基于凸势的增强算法甚至不能容忍低水平的随机噪声。此外，即使使用 $\mathop L_1$ 正则化或早期停止，这些问题也被证明仍然存在。然而，在这些实验或分析中使用的统一噪声模型是相当不现实的，似乎不太可能在实践中出现第 $\mathop 7$ 章的增强。该模型假设具有某种固定概率的标签损坏会均匀地影响所有实例。显然，在存在这些噪声的情况下，任何算法的性能都会下降。然而，实证结果表明，对于该均匀噪声模型，AdaBoost的性能比其他算法下降。最后，请注意，AdaBoost在噪声存在下的行为实际上可以用作检测异常值的有用特性，也就是说，标记错误或难以分类的例子。经过一定数量的增强后具有大权重的例子可以被识别为异常值。

7.6章节指出

弱学习算法是否可以增强来获得强学习算法的问题首先是由卡恩斯和安定特[ $\mathop 1988,1994$ ]提出的，他也对分布依赖的设置给出了这一结果的否定证明。在与分布无关的情况下，这一结果的第一个积极证明是由夏皮尔[ $\mathop 1990$ ]，后来又由弗罗恩德[ $\mathop 1990$ ]提供的。这些早期的增强算法，通过过滤增强[夏皮尔， $\mathop 1990$ ]或由大多数增强[ $\mathop Freund，1990,1995$ ]是不实际的。由弗罗恩德和夏皮尔[ $\mathop 1997$ ]引入的AdaBoost算法解决了其中的几个实际问题。Freund和Schapire[ $\mathop 1997$ ]进一步对算法进行了详细的介绍和分析，包括其经验误差界、 $\mathop vc$ 维分析及其在多类分类和回归中的应用。

AdaBoost的早期实验由德鲁克、夏皮尔和西马德[ $\mathop 1993$ ]进行，他们首次实现了基于神经网络的弱学习者和科尔特斯[ $\mathop 1995$ ]，他们报告了AdABoost结合决策树的经验表现，特别是决策树桩。

AdaBoost与应用于指数目标函数的坐标下降相一致的事实后来被Duffy和Helmbold[ $\mathop 1999$ ]，Mason等人证明。以及弗里德曼和 $\mathop 2000$ 年。弗里德曼、哈斯蒂和蒂布希拉尼[ $\mathop 2000$ ]也用加性模型给出了增强的解释。他们还指出了AdaBoost和逻辑回归之间的密切联系，特别是它们的目标函数在零附近有相似的行为，或者他们的期望允许相同的最小化器，并导出了一种基于逻辑损失的替代增强算法LogitBoost。Lafferty[ $\mathop 1999$ ]展示了如何从布雷格曼发散中导出一个增量算法家族，包括LogitBoost，并被设计为在改变一个参数时非常近似于AdaBoost。基维宁和Warmuth[ $\mathop 1999$ ]给出了AdaBoost作为熵投影的等价观点。他们表明，样本分布发现 $\mathop 7.6$ 章注意在每一轮大约是解决方案的问题找到最近的分布在前一轮，受约束，正交的误差向量的基础假设。在这里，接近度是用布雷格曼散度来测量的，对于AdaBoost，它是非归一化的相对熵。柯林斯、夏皮尔和Singer[ $\mathop 2002$ ]后来证明，增强和逻辑回归是基于布雷格曼分歧的共同框架的特殊实例，并利用它给出了AdaBoost的第一个收敛证明。黎巴嫩和拉弗蒂[ $\mathop 2001$ ]给出了AdaBoost和逻辑回归之间的另一个直接关系，他们表明这两种算法在相同的特征约束下最小化相同的扩展相对熵目标函数，除了逻辑回归的附加归一化约束。

定理7.7

夏皮尔、弗罗恩德、巴特利特和李[ $\mathop 1997$ ]首次提出了对AdaBoost的基于边际的分析，它给出了经验边际损失的一个界。我们的演示是基于科尔钦斯基和潘琴科[ $\mathop 2002$ ]使用拉德马赫复杂性的概念对边缘边界的优雅推导。Rudin等人。[ $\mathop 2004$ ]给出了一个例子，表明，一般来说，AdaBoost并不能最大化l1边际。R¨atsch和Warmuth[ $\mathop 2002$ ]提供了AdaBoost在某些条件下实现的边际的渐近下界。基于LP的L1边际最大化是由于Gro夫和舒尔曼[ $\mathop 1998$ ]。R¨atsch，Onoda和M¨uller[ $\mathop 2001$ ]建议使用软边缘来修改该算法，并指出了它与支持向量机的联系。弗罗恩德和夏皮尔[ $\mathop 1996,1999b$ ]指出了极大极大定理的配子理的解释和应用[冯·诺伊曼， $\mathop 1928$ ]；参见格罗夫和舒尔曼[ $\mathop 1998$ ]和布雷曼[ $\mathop 1999$ ]。

7.Ratsch、Mika和AdaBoost算法Ratsch和[ $\mathop 2001$ ]提出并进行了分析。Cortes、Mohri和Syed[ $\mathop 2014$ ]引入了一种新的增强算法深推进器，他们证明该算法受益于更好的学习保证，即使作为基础分类器集相对丰富的家族，也包括有利的保证，例如非常深的决策树家族，或其他类似复杂的家族。在深推进器中，每次迭代中决定将哪个分类器添加到集成以及分配哪个权重取决于分类器所属子族的（数据依赖）复杂性。Cortes、Mohri和Syed[ $\mathop 2014$ ]进一步表明，经验上的深推进器比AdaBoost、逻辑回归和 $\mathop L_1$ 正则化变体取得了更好的性能。AdaBoost和 $\mathop L_1$ 规则化的AdaBoost都可以看作是深推进器的特殊实例。

迪特里奇[ $\mathop 2000$ ]为均匀噪声会严重损害AdaBoost的准确性提供了广泛的经验证据。这已经被170章报道，促进了其他一些作者。Long和Servedio[ $\mathop 2010$ ]最近进一步表明，基于凸势的增强算法无法容忍随机噪声，即使是 $\mathop L_1$ 正则化或早期停止。有几个优秀的调查和教程与促进有关[ $\mathop 夏皮尔，2003年，梅尔和R¨atsch，2002年，梅皮尔和R¨atsch，2003年$ ]，包括最近的书夏皮尔和弗雷恩德[ $\mathop 2012$ ]完全致力于这一主题，有大量的参考文献列表和详细的介绍。

7.7练习

$\mathop 7.1$ AdaBoost假设集的vc维度。证明了经过 $\mathop T$ 轮助推后，AdaBoost的假设集 $\mathcal F_T$ 的 $\mathop vc$ 维数的上界，如方程 $\mathop（7.9）$ 所述。

7.2替代的目标函数。这个问题研究了用不同于AdaBoost的目标函数定义的增强类型算法。我们假设训练数据作为 $\mathop m$ 个标记的例子给出 $(\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m)\in\mathcal X× {−1, +1}.$ 。我们进一步假设 $\Phi$ 是 $\mathbb R$ 上严格增加的凸可微函数，这样： $\forall x\ge0,\Phi(x)\ge1$ 和 $\forall x>0,\Phi(x)>0.$

(a)考虑损失函数 $\mathop L(a)=\sum\limits^{m}_{i=1}\Phi(-y_if(x_i))$ 其中 $\mathop f$ 是基分类器的线性组合，即 $\mathop f=\sum^T_{t=1}a_th_t$ (如AdaBoost）。利用目标函数L导出一种新的增强算法，特别描述了使用坐标下降在每一轮提升时选择的最佳基分类器。

(b)考虑以下函数： $\mathop（1）$ 零损失 $\Phi_1(-u)=1_{u\le0};$ （2）最小平方损失 $\Phi_1(-u)=(1-u)^2;$ （3）SVM丢失 $\Phi_1(-u)=max(0,1-u);$ 和（4）逻辑损失 $\Phi_1(-u)=log(1+e^-u);$ 。哪些函数满足本问题中前面所述的对 $\Phi$ 的假设？

(c)对于每个满足这些假设的损失函数，推导出相应的增强算法。该算法( $\mathop s$ )与AdaBoost有何不同？

7.3更新保证

假设AdaBoost的主要弱学习者假设成立。让我们成为第 $\mathop t$ 轮中选择的基础学习者。表明在第 $、mathop{t+1}$ 轮中选择的基础学习者 $h_{t+1}$ 必须与 $\mathop h_t$ 不同

7.4加权实例

让训练样本为 $\mathop S=((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m)$ 假设我们希望惩罚在 $\mathop x_i$ 和 $\mathop x_j$ 上所犯的不同错误。为此，我们将一些非负重要性权重与每个点 $\mathop x_i$ 关联起来,目标函数 $\mathop F（\alpha）=\sum^m_{i=1}\mathcal w_ie^{-y_if(x_i)}$ ，其中 $\mathop f=\sum^T_{t=1}a_th_t$ 。证明该函数是凸的和可微的，并使用它推导出一个引导类型算法。

7.5

将两个向量 $\mathop x$ 和 $\mathop x'$ 的非归一化相关性定义为这些向量之间的内积。证明由AdaBoost定义的分布向量( $\mathcal D{t+1}（1），…，\mathcal D{t+1}(m)$ )和分量 $y_ih_t(x_i)$ 的向量是不相关的。

7.6

修复 $\epsilon\in（0,1/2）$ 。让训练样本为平面上的 $\frac{m}{4}$ 点定义， $\frac{m}{4}$ 负点在坐标 $\mathop（1,1）$ ，另一个 $\frac{m}{4}$ 负点在坐标 $\mathop（1,1）$ ， $\frac{m(1-\epsilon)}{4}$ 正的点都在坐标上 $\mathop（1,1）$ ，和 $\frac{m(1-\epsilon)}{4}$ 个正点均在坐标上，和 $\frac{m(1-\epsilon)}{4}$ 个正点均在坐标上 $\mathop（1,1）$ 。描述在此示例上运行AdaBoost时的行为。 $\mathop T$ 轮后算法返回什么解决方案？。描述在此示例上运行AdaBoost时的行为。 $\mathop T$ 轮后算法返回什么解决方案？

7.7

耐噪音的AdaBoost。AdaBoost在存在噪声的情况下可能明显过拟合，部分原因是对错误分类的例子的高度惩罚。为了减少这种影响，我们可以使用以下目标函数：

$F=\sum\limits^{m}_{i=1}G(-y_if(x_i))$ ,(7.32)

其中 $\mathop G$ 是在 $\mathbb R$ 上定义的函数

$G（x）=\begin{cases} e^x x\le 0\\ x+1 x>0 \end{cases}$

(a)表明函数 $\mathop G$ 是凸的和可微的。(b)利用 $\mathop F$ 和贪婪坐标下降推导出一种类似于AdaBoost的算法。(c)比较该算法与AdaBoost的经验错误率的降低。 $\mathop 7.8$ 简化的广告提升。假设我们通过将参数 $\alpha_t$ 设置为固定值 $\alpha_t=\alpha>0$ 来简化AdaBoost，独立于提升轮 $\mathop t$ .(a)让 $\gamma$ 为( $\frac{1}{2}−\epsilon_t)\ge\gamma>0$ 。通过分析经验误差，找到 $\alpha$ 作为 $\gamma$ 函数的最佳值。(b)对于的这个值，该算法是否在每一轮中为正确分类和错误分类的例子分配相同的概率质量？如果没有，哪个集合被分配了一个更高的概率质量？

AdaBoost(M，tmax)

$\lambda_{1,j}\leftarrow$ 0 for i=1

for t $\leftarrow$ 1 to $t_{max}$ do

$d_{t,i}\leftarrow\frac{exp(-(M\lambda_t)i)}{\sum^m_{k=1}exp(-(M\lambda_t)i)} for i=1,...,m$

$j_t\leftarrow argmax_j(d_t^TM)_{jt}$

$r_t\leftarrow argmax_j(d_t^TM)_{jt}$

$\alpha_t\leftarrow\frac{1}{2}log(\frac{1+r_t}{1-r_t})$

$\lambda_{t+1}\leftarrow\lambda_t+\alpha_te_{jt}$ ，其中 $\mathop e_{jt}$ 的位置 $\mathop j_t$ 为1，其他位置为 $\mathop 0$

return $\frac{\lambda_{tmax}}{\|\lambda_{tmax}\|1}$

AdaBoost根据矩阵M定义，该矩阵编码每个训练点上每个弱分类器的准确性。

(c)使用 $\alpha$ 的值，给界算法的经验误差只取决于 $\gamma$ 和轮的促进 $\mathop T$

(d)使用之前的界限，表明 $\mathop T$ >日志 $\frac{logm}{2\gamma^2}$ ，结果假设与大小的样本一致。

(e)让s使用的基础学习者的 $\mathop {vc}$ 维度。给出了 $\mathop T=[\frac{logm}{2\gamma^2}]+1$ 后得到的一致假设的推广误差的一个几轮的提升。(提示：使用函数族的 $\mathop vc$ 维数这个事实 ${sgn(\sum^T_{t=1}\alpha_th_t):\alpha_t\in\mathbb R}$ 以 $\mathop 2(s+1）Tlog_2(eT)）$ 为界。现在假设 $\gamma$ 随 $\mathop m$ 而变化。根据推导出的边界，如果 $\gamma(m)=O(\sqrt\frac{logm}{m})?)$

7.9AdaBoost示例

在本练习中，我们考虑一个由 $\mathop 8$ 个训练点和 $\mathop 8$ 个弱分类器组成的具体示例。

(a)定义一个 $\mathop m×n$ 矩阵M，其中 $\mathop M_{ij}=y_ih_j(x_i)，i.e..$ 如果训练例子i被弱分类器hj正确分类，则为 $M_{ij}=+1$ ，则为 $\mathop −1$ 。设 $\mathop d_t、\lambda_t\in \mathbb R_n、\|d_t\|1=1$ 和 $d_t$ ， $\mathop i(分别为\lambda_t、i$ )等于 $\mathop d_t$ 的第 $\mathop i$ 个分量(分别为 $\lambda_t$ )。现在，考虑如图7.7，并将 $\mathop M$ 定义为如下，包括 $\mathop 8$ 个训练点和 $\mathop 8$ 个弱分类器。

$M=\begin{cases} -1 , 1 , 1 , 1, 1 ,-1 ,-1 , 1\\ -1 , 1 , 1, -1, -1 , 1 , 1, 1\\ 1 , -1 , 1 , 1, 1 ,-1 , 1 , 1\\ 1 , -1 , 1 , 1, -1 , 1 , 1, 1\\ 1 , -1 , 1 ,-1, 1 , 1 , 1 , -1\\ 1 , 1 ,-1 , 1, 1 , 1 , 1 , -1\\ 1 , 1 ,-1 , 1, 1 , 1 ,-1 , 1\\ -1 , 1 , 1 , 1, -1 ,-1 , 1 , -1\\ \end{cases}$

假设我们从数据点上的以下初始分布开始：

d_1=(\frac{3-\sqrt5}{8}),\frac{3-\sqrt5}{8},\frac{1}{6},\frac{1}{6},\frac{1}{6},\frac{\sqrt5-1}{8}\frac{\sqrt5-1}{8},0)^T

使用 $\mathop M、d_1$ 和 $t_{max}=7$ 计算AdaBoost算法的前几步。在每一轮的提升中都选择了哪些弱分类器？你注意到有什么模式吗？

(b)AdaBoost为这个例子产生的 $\mathop L_1$ 标准边际是多少？

(c)与其使用AdaBoost，想象一下我们使用以下系数组合我们的分类器： $[2,3,4,1,2,2,1,1]×\frac{1}{16}$ 在这种情况下的保证金是多少？AdaBoost能使利润率最大化吗？

7.10在未知标签下提升

考虑以下分类问题的变体，除了正和负标签 $\mathop+1$ 和 $\mathop−1$ 外，点还可以标记为 $\mathop 0$ 。这可能对应于一个点的真实标签未知的情况，一种在实践中经常出现的情况，或者更普遍的是学习算法对预测该点的 $\mathop−1$ 或 $\mathop+1$ 没有损失的事实。设X为输入空间，设 $\mathcal Y={−1,0，+1}$ 。在标准的二进制分类中，一对 $\mathop(x，y)\in$ 上 $\mathop f$ ： $\mathcal X×\mathcal Y$ 的损失是由 $1_{yf(x)}<0$ 定义的。

考虑一个样本 $\mathop S=((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m)\in(\mathcal X×\mathcal Y)^2$ 以及取 $\mathop{−1,0，+1}$ 中值的基函数的假设集 $\mathcal H$ 。对于基本假设 $\mathop h_t\in\mathcal H$ 和指数 $\in$ 的分布，定义 $\mathop s\in{−1,0，+1}$ 的 $\epsilon_t^s$ , $\epsilon_t^s=\mathbb E_{i~D}[1y_ih_t(x_i)=s]$

(a)使用与AdaBoost相同的目标函数，根据 $\epsilon_t^ss$ 导出该设置的增强式算法。您应该仔细证明算法的定义。

(b)在这种情况下，弱学习的假设是什么？

(c)编写该算法的完整伪代码。

(d)给出了该算法的训练误差的一个上界，作为增强轮数和 $\epsilon_t^ss$ 的函数。

7.11

如本章所述，AdaBoost可以看作是应用于指数目标函数的坐标下降。在这里，我们考虑了另一种集成方法算法，HingeBoost，它包括将坐标下降应用到一个基于铰链损失的目标函数。考虑为所有 $\alpha\in\mathbb R^N$ 定义的函数

$\mathop F(\alpha)=\sum^m_{i=1}max(0,1-y_i\sum\limits^n_{j=1}\alpha_jh_j(x_i)), (7.34)$

其中 $\mathop h_j$ 是属于假设集 $\mathcal H$ 的基分类器，取值为 $\mathop −1$ 或 $\mathop +1$ 的基分类器。

(a)表明 $\mathop F$ 是凸的，并且允许一个沿任意方向的左右导数。

(b)对于任意j∈[N]，设 $\mathop e_j$ 表示基假设 $\mathop h_j$ 对应的方向。设 $\alpha_t$ 表示坐标下降的 $\mathop t\ge0$ 迭代后得到的系数 $\alpha_{t,j}、j\in[N]$ 的向量， $\mathop f_t=\sum\limits^n_{j=1}={\alpha_t,j}$ ， $j_{h,j}$ 表示t迭代后得到的预测器。用 $\mathop{t−1}$ 迭代右导数后 $F'+(α_{t−1}，e_j$ )和左导数 $F'−(α{t−1}，e_j)$ 的表达式。

(c)对于任意 $j\in[N]$ ，在 $α_{t−1}$ 处定义最大方向导数 $\sigma F(α_{t−1}，e_j)$ 如下：

$\sigma F(α_{t−1}，e_j)=\begin{cases} 0ifF-'_(α_{t−1}，e_j)\le0\le F+'_(α_{t−1}，e_j)\\ F+'_(α_{t−1}，e_j)ifF-'_(α_{t−1}，e_j)\le F+'_(α_{t−1}，e_j)\\ F-'_(α_{t−1}，e_j)\le F'_(α_{t−1}，e_j)\le F+'_(α_{t−1}，e_j) \end{cases}$

这里考虑的坐标下降所考虑的方向ej是最大化 $| \sigma F(α_{t−1}，e_j)|$ 。一旦选择了最佳方向j，就可以通过使用网格搜索来最小化 $\mathop F(\alpha_{t−1}+\eta e_j)$ 来确定步骤 $\eta$ 。给出手指Boost的伪代码。

7.12实证边际损失增加

如本章所述，AdaBoost可以看作是应用于经验误差的凸上界的坐标下降。在这里，我们考虑一种寻求最小化经验边际损失的算法。对于任何 $0\le\rho<1$ 让 $\widehat{\mathop{R}}_s,_\rho(\mathop f)=\frac{1}{m}\sum^m_{i=1}1_{y_if(x_i)}\le\rho$ 表示 $\mathop f=\frac{\sum^T_{t=1}\alpha_th_t}{\sum^T_{t=1}\alpha_t}$ 形式的函数 $\mathop f$ 对于标记的样本的经验边际损失 $\mathop S=(\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m)$ ,

(a)显示 $\widehat{\mathop{R}}_s,_\rho(\mathop f)\le\frac{1}{m}\sum\limits^m_{i=1}exp({-}y_i\sum\limits^T_{t=1}\alpha_th_t(x_i)+\rho\sum\limits^T_{t=1}\alpha_t)$ 的上界如下：

(b)对于任何 $\rho>0$ ，让 $G_\rho$ 为所有 $\alpha≥0$ 定义的目标函数 $G_\rho(\alpha)=\frac{1}{m}\sum\limits^m_{i=1}exp({-}y_i\sum\limits^T_{t=1}\alpha_th_t(x_i)+\rho\sum\limits^T_{t=1}\alpha_t)$ 使用 $\mathop h_j\in\mathcal H表示所有\mathop j\in[N]$ ，以及在课堂上使用的符号。表明 $G_\rho$ 是凸的和可微的。

(c)通过应用（最大）坐标下降到 $G_\rho$ ，得到一个提升式的算法 $\mathcal A_\rho$ 。您应该详细证明算法的推导，特别是在每一轮和步骤中选择的基分类器的选择。并与AdaBoost中的同类产品进行了比较。

(e)给出了算法 $\mathcal A_\rho$ 的完整伪代码。你能说些什么关于 $\mathcal A_0$ 算法呢？

(f)提供一个绑定 $\widehat{\mathop{R}}_s,_\rho(\mathop f)$ .

i.证明上界 $\widehat{\mathop{R}}_s,_\rho(\mathop f)\le exp(\sum^T_{t=1\alpha_t\rho}$ ，其中归一化因子 $\mathop Z_t$ 被定义为AdaBoost的情况( $\alpha_t$ 是 $\mathcal A_\rho$ 在第 $\mathop t$ 轮选择的步骤)。

ii.给出 $\mathop Z_t$ 作为 $\rho$ 和 $\epsilon_t$ 的函数，其中 $\epsilon_t$ 是 $\mathcal A_\rho$ 在 $\mathop t$ 轮发现的假设的加权误差（定义与第 $\mathop 7$ 章类中的助推相同）。使用它来证明以下上界

$\widehat{\mathop{R}}_s,_\rho(\mathop f)\le(u^\frac{1+\rho}{2}+u^\frac{1-\rho}{2})^T \mathop {\varPi}\limits^T_{t=1}\sqrt\ \epsilon^{1-\rho}(1-\epsilon)^{1+\rho}$ .其中 $\mathop u=\frac{1−ρ}{1+ρ}$ 。

iii.假设对于所有的 $\mathop t\in[T]$ ， $\frac{1-\rho}{2}$ 上一个问题显示− $\epsilon_t>\gamma>0$ 。使用的结果

$\widehat{\mathop{R}}_s,_\rho(\mathop f)\le exp(-\frac{2\gamma^2T}{1-\rho^2})$

（提示：无需使用以下身份：

$(u^\frac{1+\rho}{2}+u^\frac{1-\rho}{2})\sqrt\ \epsilon^{1-\rho}(1-\epsilon)^{1+\rho}\le 1-2\frac{(\frac{1-\rho}{2}-\epsilon)^2}{1-\rho^2}$ .

适用于 $\frac{1-\rho}{2}−\epsilon_t>0$ )显示，对于 $\mathop T≥2\frac{(log m)（1−ρ^2）}{2\gamma^2}$ ，训练数据的所有点至少有 $\rho$ 。

Foundation of machine learning

第7章 Boosting

7.1 Introduction

定义7.1（Weak learning）

AdaBoost(∈S=((x1,y1),...,(xm,ym\in S= ((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m∈S=((x1​,y1​),...,(xm​,ym​)

7.2.1结合经验误差

定理7.2

推论7.5（集合雷达采集器边界）

定理7.7

证明：

7.4L1L_1L1​-正则化在实践中

7.6章节指出

定理7.7

7.7练习

7.3更新保证

7.4加权实例

7.5

7.6

7.7

returnλtmax∥λtmax∥1\frac{\lambda_{tmax}}{\|\lambda_{tmax}\|1}∥λtmax​∥1λtmax​​

7.9AdaBoost示例

7.10在未知标签下提升

7.11

7.12实证边际损失增加

AdaBoost( $\in S= ((\mathcal x_1, \mathcal y_1), . . . ,(\mathcal x_m, y_m$ )

7.4 $L_1$ -正则化在实践中

return $\frac{\lambda_{tmax}}{\|\lambda_{tmax}\|1}$