🍊作者简介：秃头小苏，致力于用最通俗的语言描述问题

🍊专栏推荐：深度学习网络原理与实战

🍊近期目标：写好专栏的每一篇文章

🍊支持小苏：点赞👍🏼、收藏⭐、留言📩

写在前面

Hello，大家好，我是小苏🧒🏽🧒🏽🧒🏽

今天要为大家带来一种常见的机器学习算法————Adaboost，同样也是非常常见的一种集成学习方法。🌸🌸🌸本文将从Adaboost的原理入手，和大家详细唠唠Adaboost的原理，然后会通过一个小案例来帮助大家更深入的理解Adaboost算法。希望大家能通过本文对Adaboost算法有更深入的了解，有不明白的地方也欢迎大家评论区讨论交流喔~~~🌼🌼🌼

1. Adaboost 算法简介🌴🌴🌴

AdaBoost 是英文"Adaptive Boosting"（自适应增强）的缩写, 它的自适应在于: 前一个基本分类器被错误分类的样本的权值会增大, 而正确分类的样本的权值会减小, 并再次用来训练下一个基本分类器。同时, 在每一轮迭代中, 加入一个新的弱分类器, 直到达到某个预定的足够小的错误率或达到预先指定的最大迭代次数才确定最终的强分类器。读到这里, 大概率是不理解什么是 AdaBoost 算法的, 不用急, 后面会介绍 Adaboost 的算法流程以及用一个例子来深入理解这个算法。🍓🍓🍓

2. Adaboost 算法流程🌴🌴🌴

Adaboost 算法流程主要是以下三步:

Step1: 首先初始化训练数据的权值分布。如果有 $\mathrm{N}$ 个样本, 则每一个训练样本最开始时都被赋予相同的权值: 1 / N 。

Step2: 其次训练弱分类器。具体训练过程中, 如果某个样本点已经被准确地分类, 那么在构造下一个训练集中, 它的权值就被降低; 相反, 如果某个样本点没有被准确地分类, 那么它的权值就得到提高。然后, 权值更新过的样本集被用于训练下一个分类器, 整个训练过程如此迭代地进行下去。

Step3: 最后将各个训练得到的弱分类器组合成强分类器。各个弱分类器的训练过程结束后, 加大分类误差率小的弱分类器的权重, 使其在最终的分类函数中起着较大的决定作用, 而降低分类误差率大的弱分类器的权重, 使其在最终的分类函数中起着较小的决定作用。换言之, 误差率低的弱分类器在最终分类器中占的权重较大, 否则较小。

接下来我们按照上述三步对算法流程进行一个具体的阐述。首先给定一个训练数据集 $\mathrm{T}=\{(\mathrm{x} 1, y 1),(x 2, y 2) \cdots(x N, y N)\}$ , yi 属于标记集合 {-1,+1} , Adaboost 的目的就是从训练数据中学习一系列弱分类器或基本分类器, 然后将这些弱分类器组合成一个强分类器。

Step1: 首先, 初始化训练数据的权值分布。每一个训练样本最开始都被赋予了相同的权值: $1/ \mathrm{N} 。 \ \mathrm{D}_{1}(i)$ 表示训练样本集的初始权值分布。 $\omega_{1 i}$ 表示第一次迭代的第 $\mathrm{i}$ 个权值。

$\mathrm{D}_{1}(i)=\left(\omega_{11}, \omega_{12}, \cdots \omega_{1 i}, \cdots, \omega_{1 N}\right), \omega_{1 i}=\frac{1}{N}, i=1,2, \cdots N$

Step2: 进行多轮迭代, 用 $m=1,2, \ldots, M$ 表示迭代的第多少轮。

(a) 选取一个当前误差率最低的弱分类器 $\mathrm{G}$ 作为第 $\mathrm{m}$ 个基本分类器 G_{m} , 并计算弱分类器 $G_m:X$ $\rightarrow\{-1,1\}$ 在分布 $D_m$ 上的误差, 其误差为: 【注: 误差应小于 0.5 】

$\left.e_{m}=P\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)\right)=\sum_{i=1}^{N} \omega_{m i} I\left(G_{m}\left(x_{i}\right) \neq y_{i}\right)$

由上述式子可知, $G m(x)$ 在训练数据集上的误差率 $\mathrm{em}$ 就是被 $\mathrm{Gm}(\mathrm{x})$ 误分类样本的权值之和。

(b) 计算弱分类器在最终分类器中所占权重, 用 $a_{m}$ 表示其权重:

$a_{m}=\frac{1}{2} \operatorname{In}\left(\frac{1-e_{m}}{e_{m}}\right)$

对于上述式子, 我们可以看出, 当 $e_{m}=\frac{1}{2}$ 时, $a_{m}=0$ 。当 $e_{m}$ 越大, $a_{m}$ 越小。这就表示 $a_{m}$ 随着 $e_{m}$ 的减小而增大, 意味着分类误差率越小的基本分类器在最终分类器中的作用越大。

(c) 更新训练样本权重 $D_{m+1}$ , 用于下一次迭代。首先我们要明白调整权重值的规则, 即对上一次分对的样本权重降低, 对上一次分错的样本权重增加。则如果第 $\mathrm{i}$ 个样本被正确分类, 则该样本的权重更改为:

$\omega_{m+1, i}=\frac{\omega_{m, i} e^{-a}}{Z_{m}}$

如果第 $\mathrm{i}$ 个样本被错误分类, 则该样本的权重更改为:

$\omega_{m+1, i}=\frac{\omega_{m, i} e^{a}}{Z_{m}}$

将两个公式整合可用一个公式表示:

$\omega_{m+1, i}=\frac{\omega_{m i}}{Z_{m}} \exp \left(-a_{m} y_{i} G_{m}\left(x_{i}\right)\right), i=1,2, \cdots, N$

对上式整合结果进行解释如下: 当样本分对时, $y_{i} G_{m}\left(x_{i}\right)=1$ ; 当样本分错时, $y_{i}$ $G_{m}\left(x_{i}\right)=-1$ 。最终整个第 m+1 次迭代的权值为:

$D_{m+1}=\left(\omega_{m+1,1}, \omega_{m+1,2}, \cdots \omega_{m+1, i}, \cdots, \omega_{m+1, N}\right)$

其中 $Z_{m}=\sum_{i=1}^{N} \omega_{m i} \exp \left(-a_{m} y_{i} G_{m}\left(x_{i}\right)\right)=2 \sqrt{e_{m}\left(1-e_{m}\right)}, Z_{m}$ 是规范化因子, 使得 $\omega_{m+1}$ 成为一个概率分布。对于 $Z_{m}=2 \sqrt{e_{m}\left(1-e_{m}\right)}$ 的推导过程如下:

$\begin{aligned} Z_{m} & =\sum_{i=1}^{N} \omega_{m i} \exp \left(-a_{m} y_{i} G_{m}\left(x_{i}\right)\right) \\ & =\sum_{\mathrm{i}: G_{m}\left(x_{i} \neq y_{i}\right.} \omega_{m i} e^{a_{t}}+\sum_{\mathrm{i}: G_{m}\left(x_{i}\right)=y_{i}} \omega_{m i} e^{-a_{t}} \\ & =e_{m} e^{a_{t}}+\left(1-e_{m}\right) e^{-a_{t}}--(1) \\ & =2 \sqrt{e_{m}\left(1-e_{m}\right)} \quad--(2) \end{aligned}$

对于上面推导过程 (1) (2) 做出相关解释。

(1) 首先要理解 $e_{m}$ 的含义: 其表示误差率, 而其在数值上是等于误分类样本的权值之和。 (上文提到) 那么 $\sum_{\mathrm{i}:} G_{m}\left(x_{i}\right) \neq y_{i} \omega_{m i}$ 表示的就是误分类样本的权值之和, 所以 $\sum_{\mathrm{i}: G_{m}\left(x_{i}\right) \neq y_{i}} \omega_{m i}$ 就等于 $e_{m}$ , 从而 $\sum_{\mathrm{i}: G_{m}\left(x_{i}\right)=y_{i}} \omega_{m i}$ 的值就等于 $\left(1-e_{m}\right)$

(2) $a_{m}=\frac{1}{2} \operatorname{In}\left(\frac{1-e_{m}}{e_{m}}\right)$ , 将其带入上式即可。

Step3: 按照分类器权值 $a_{m}$ 组合各个若弱分类器:

$f(x)=\sum_{m=1}^{M} a_{m} G_{m}(x)$

最后通过 sign 函数, 得到一个最终的强分类器:

$G(x)=\operatorname{sign}(f(x))=\operatorname{sign}\left(\sum_{m=1}^{M} a_{m} G_{m}(x)\right)$

其中 $\operatorname{sign}(f(x))$ 函数表示当 f(x)>0 时, $\operatorname{sign}(f(x))=1$ ; 当 f(x)<0 时, $\operatorname{sign}(f(x))=-1$ 。

3. Adaboost 案例演示🌴🌴🌴

通过对上面算法流程的概述, 或许你对 Adaboost 已经有了一些了解, 但更多的可能还是存有疑惑, 下面通过一个经典的例子来加深对这个算法的理解。读者可以尝试从算法流程去解答这个例子, 也可以从例子中去理解算法中的一些公式的表达。例子如下: 首先给出如下图所示的训练样本, 用 Adaboost 算法学习一个强分类器。拿到这组数据, 我们先对其做一个直观上的分析。可以看出, 图中共有 10 组对应的 X-Y 数据。根据 $\mathrm{X}$ 和 $\mathrm{Y}$ 的关系, 可以把这 10 个数据分成 2 类, 一类是 “ 1 ”, 一类是 “-1”, 根据数据的特点发现: “0 12 ” 这 3 个数据对应的类是 “1”, “3 45 ” 这 3 个数据对应的类是 “-1”, “678” 这 3 个数据对应的类是 “1”, 9 是比较孤独的, 对应类 “-1”。抛开孤独的 9 不讲, “0 12”、 “3 5”、“678” 这是 3 类不同的数据, 分别对应的类是 1、-1、1, 直观上推测可知, 可以找到对应的数据分界点, 比如 2.5、5.5、8.5 将那几类数据分成两类。当然, 这只是主观臆测, 需要进行实际的计算。接下来我们将通过算法流程中的三步进行求解。

Step1: 初始化训练数据的权值分布, 所给训练样本中共有 10 个数据, 令每个权值 $\mathrm{W} 1 \mathrm{i}=1 / \mathrm{N} =0.1$ , 其中, $N=10, i=1,2, \ldots, 10$ , 然后分别对于 $m=1,2,3, \ldots$ 等值进行迭代。

Step2: 第二个步骤其实就是一个不断迭代更新的过程, 本例一个要进行三次迭代, 过程如下:

(1)迭代过程 1

对于 m=1 , 在权值分布为 $D 1(0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1,0.1)$ (10 个数据, 每个数据的权值皆初始化为 0.1 ) 的训练数据上, 经过计算可得:

阈值 v 取 2.5 时误差率为 0.3(x<2.5 时取 1, x>2.5 时取-1, 则 678 分错, 误差率为 0.3) ,

阈值 v 取 5.5 时误差率最低为 0.4(x<5.5 时取 1, x>5.5 时取-1, 则 345678 皆分错, 误差率 0.6 大于 0.5 , 不可取。故令 x>5.5 时取 1, x<5.5 时取-1, 则 0129 分错, 误差率为 0.4 ) ,

阈值 v 取 8.5 时误差率为 0.3(x<8.5 时取 1, x>8.5 时取 -1 , 则 345 分错, 误差率为 0.3 。

可以看到, 无论阈值 v 取 2.5, 还是 8.5, 总得分错 3 个样本, 故可任取其中任意一个如 2.5, 弄成第一个基本分类器为:

$G_{1}(x)=\left\{\begin{array}{ll} 1 & x<2.5 \\ -1, & x>2.5 \end{array}\right.$

注: 上述计算所选择的阈值 v 只是比较有代表性的几个, 在计算机运算中肯定是要在每个范围都设定阈值进行判断的, 只是我们通过直观判断选出这三个阈值所划分的点, 在这几个点中, 存在错误率最小的点。

由上可以得到 $G 1(x)$ 在训练数据集上的误差率 (被 $\mathrm{G} 1(\mathrm{x}$ ) 误分类样本 “6 788 ” 的权值之和) $\mathrm{e} 1=\mathrm{P}(\mathrm{G} 1(\mathrm{xi}) \neq \mathrm{yi})=3^{*} 0.1=0.3$ 。再根据误差率求出 $\mathrm{G} 1$ 的系数 $a_{1}:$

$a_{1}=\frac{1}{2} \operatorname{In} \frac{1-e_{1}}{e_{1}}=0.4236$

得到的 $a_{1}$ 的值就是 $G_{1}(x)$ 在最终分类函数中所占的比重。

接下来就是对各个权值进行更新, 其更新结果为 $D 2=(0.0715,0.0715,0.0715,0.0715,0.0715 , 0.0715, \underline{0.1666}, \underline{0.1666}, \underline{0.1666}, 0.0715)$ 。由此可以看出, 因为样本中是数据 “6 78 ” 被 $G1(x)$ 分错了, 所以它们的权值由之前的 0.1 增大到 0.1666 , 反之, 其它数据皆被分正确, 所以它们的权值皆由之前的 0.1 减小到 0.0715 。下面对一个分错的数据如 6 的权值更新过程做如下的计算: $\omega_{17}=\frac{\omega_{0} e_{1}^{a}}{Z_{m}}=\frac{0.1 \cdot e_{1}^{a}}{2 \sqrt{e_{1}\left(1-e_{1}\right)}}=0.1666$

则分类函数 $f_{1}(x)=a_{1} * G_{1}(x)=0.4236 G_{1}(x)$ , 此时, 得到的第一个基本分类器 $\operatorname{sign}(\mathrm{f} 1(\mathrm{x}) )$ 在训练数据集上有 3 个误分类点 (即 678 ) 。

(2)迭代过程 2

对于 m=2 , 在权值分布为 $D 2=(0.0715,0.0715,0.0715,0.0715,0.0715, \quad 0.0715, \underline{0.1666}, \underline{0.1666} ， \underline{0.1666}, 0.0715)$ 的训练数据上, 经过计算可得:【下划线表示分错的数据】

阈值 v 取 2.5 时误差率为 0.1666 * 3(x<2.5 时取 1, x>2.5 时取 -1 , 则 678 分错, 误差率为 0.1666 * 3) ,

阈值 v 取 5.5 时误差率最低为 0.0715 * 4(x>5.5 时取 1, x<5.5 时取-1, 则 0129 分错, 误差率为 0.0715 * 3+0.0715 ),

阈值 v 取 8.5 时误差率为 0.0715 * 3(x<8.5 时取 1, x>8.5 时取-1, 则 345 分错, 误差率为 0.0715 * 3) 。

所以, 阈值 v 取 8.5 时误差率最低, 故第二个基本分类器为:

$G_{2}(x)=\left\{\begin{array}{ll} 1, & x<8.5 \\ -1, & x>8.5 \end{array}\right.$

由上可以得到 $\mathrm{G} 2(\mathrm{x})$ 在训练数据集上的误差率（被 $\mathrm{G} 2(\mathrm{x})$ 误分类样本 “3 45 ” 的权值之和）根据 $D2$ 可知它们的权值为 $0.0715,0.0715,0.0715$ , 所以 $\mathrm{G} 2(\mathrm{x})$ 在训练数据集上的误差率 $e2 =\mathrm{P}(\mathrm{G2}(\mathrm{xi}) \neq \mathrm{yi})=0.0715 * 3=0.2143$ 。再根据误差率求出 $\mathrm{G} 2$ 的系数 $a_{2} :$

$a_{2}=\frac{1}{2} \operatorname{In} \frac{1-e_{2}}{e_{2}}=0.6496$

根据相同的方法, 可以求出 $D3 =(0.0455,0.0455,0.0455, \underline{0.1667}, \underline{0.1667}, \underline{0.1667}, 0.1060 , 0.1060,0.1060,0.0455)$ 。则进一步可求出 $f_{2}(x)=0.4236 G_{1}(x)+0.6496 G_{2}(x)$ 。此时, 得到的第二个基本分类器 $\operatorname{sign}(f 2(x))$ 在训练数据集上有 3 个误分类点 (即 3 4 5 )。

(3)迭代过程 3

对于 m=3 , 在权值分布为 $D 3=(0.0455,0.0455,0.0455, \underline{0.1667}, \underline{0.1667}, \underline{0.1667}, 0.1060,0.1060 ， 0.1060,0.0455)$ 的训练数据上, 经过计算可得:

阈值 v 取 2.5 时误差率为 0.1060 * 3(x<2.5 时取 1, x>2.5 时取-1, 则 678 分错, 误差率为 0.1060 * 3) ,

阈值 v 取 5.5 时误差率最低为 0.0455 * 4(x>5.5 时取 1, x<5.5 时取-1, 则 0129 分错, 误差率为 0.0455 * 3+0.0715 ),

阈值 v 取 8.5 时误差率为 0.1667 * 3(x<8.5 时取 1, x>8.5 时取-1, 则 345 分错, 误差率为 0.1667 * 3) 。

所以阈值 v 取 5.5 时误差率最低, 故第三个基本分类器为:

$G_{3}(x)=\left\{\begin{array}{ll} 1, & x<5.5 \\ -1, & x>5.5 \end{array}\right.$

此时, 被误分类的样本是: 0129 , 这 4 个样本所对应的权值皆为 0.0455 , 所以 $G 3(x)$ 在训练数据集上的误差率 $\mathrm{e} 3=\mathrm{P}(\mathrm{G3}(\mathrm{xi}) \neq \mathrm{yi})=0.0455 * 4=0.1820$ 。再根据误差率求出计算 $G 3$ 的系数:

$a_{3}=\frac{1}{2} \operatorname{In} \frac{1-e_{3}}{e_{33}}=0.7154$

根据相同的方法，可以求出 $D4 =(\underline{0.125},\underline{0.125},\underline{0.125}, 0.102, 0.102, 0.102, 0.065 , 0.065,0.065,\underline{0.125})$ 。则进一步可以求出 $f_{3}(x)=0.4236 G_{1}(x)+0.6496 G_{2}(x)+0.7514G_{3}(x)$ 。

此时, 得到的第三个基本分类器 $\operatorname{sign}(\mathrm{f3}(\mathrm{x}) )$ 在训练数据集上有 0 个误分类点。至此，整个训练过程结束。

读到这里, 是不是又有点懵逼了呢, 怎么在数据集上就没有误分类点了呢? 刚刚不是还有 4 个吗? 下面来说明这个问题, 我们从第一层迭代开始说起:【注: 首先要说明的是, 这个问题你是靠看很难看出来的, 拿起笔算算看, 你会发现惊喜】

在第一次迭代中, 我们说阈值 v 取 2.5 时则 678 分错, 所以误差率为 0.3 , 这里详细的解释是: 因为样本集中0 1 2 对应的类 ( Y ) 是 1, 因它们本身都小于 2.5 , 所以被 G 1(x) 分在了相应的类 “ 1 ” 中, 分对了。

3 4 5 本身对应的类 ( Y ) 是-1, 因它们本身都大于 2.5 , 所以被 G 1(x) 分在了相应的类 “-1” 中, 分对了。

但 6 7 8 本身对应类 ( Y ) 是 1, 却因它们本身大于 2.5 而被 G 1(x) 分在了类"-1"中, 所以这 3 个样本分错了。

9 本身对应的类 ( Y ) 是-1, 因它本身大于 2.5, 所以被 G 1(x) 分在了相应的类 “-1” 中, 分对了。

当我们确定了分类函数 $\operatorname{sign}\left(f_{1}(x)\right)=\operatorname{sign}\left(a_{1} * G_{1}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)\right)$ 时, 我们就需要用 $\operatorname{sign}\left(f_{1}(x)\right)$ 来判断分类是否正确, 即

0 1 2 对应的类 (Y) 是 1, 因它们本身都小于 2.5 , 所以被 $\operatorname{sign}\left(f_{1}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)\right)$ 分在了相应的类 “1” 中，分对了。

3 4 5 本身对应的类 ( Y ) 是-1, 因它们本身都大于 2.5 , 所以被 $\operatorname{sign}\left(f_{1}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)\right)$ 分在了相应的类 “-1” 中, 分对了。

但 6 7 8 本身对应类 (Y) 是 1, 却因它们本身大于 2.5 而被 $\operatorname{sign}\left(f_{1}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)\right)$ 分在了类"-1"中, 所以这 3 个样本分错了。

9 本身对应的类 (Y) 是-1, 因它本身大于 2.5 , 所以被 $\operatorname{sign}\left(f_{1}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)\right)$ 分在了相应的类 “-1” 中, 分对了。

在第二次迭代中, 我们说阈值 v 取 8.5 时则 3, 4, 5 分错, 这里详细的解释是: 因为样本集中 3 4 5 本身对应的类 ( Y ) 是-1, 因它们本身都小于 8.5 , 所以被 G 1(x) 分在了相应的类 “1” 中, 分错了。

同样的当我们确定了分类函数 $\operatorname{sign}\left(f_{2}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)+0.6496 G_{2}(x)\right)$ 时, 我们需要用 $\operatorname{sign}\left(f_{1}(x)\right)$ 来判断分类是否正确, 即 3 4 5 本身对应的类 (Y) 是-1, 因它们本身都小于 8.5 , 所以被 $\operatorname{sign}\left(f_{2}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)+\right. \left.0.6496 G_{2}(x)\right)$ 分在了相应的类 “1” 中, 分错了。

巧合的是, 上面的两次迭代中, 分类函数改变后其数据的分类正确与否并没有变化, 下面来看第三次迭代过程。

在第三次迭代中, 我们说阈值 v 取 5.5 时则 0, 1, 2, 9 分错, 这里详细的解释是: 因为样本集中0 1 2 对应的类 ( Y ) 是 1，因它们本身都小于 5.5，所以被 $G3(x)$ 分在了相应的类“-1”中，分错了。

9 对应的类 ( Y ) 是-1, 因它本身大于 5.5 , 所以被 $G 3(x)$ 分在了相应的类 “1” 中, 分错了。同样的当我们确定了分类函数

$\operatorname{sign}\left(f_{3}(x)\right)=\operatorname{sign}\left(0.4236 G_{1}(x)+0.6496 G_{2}(x)+0.7514 G_{3}(x)\right)$

则:

0 1 2 对应的类 ( Y ) 是 1, 因它们本身都小于 5.5 , 这时被 $\operatorname{sign}\left(f_{3}(x)\right)$ 分在了相应的类 “ ” 中，分对了。 9 对应的类 ( Y ) 是-1, 因它本身大于 5.5 , 所以被 $\operatorname{sign}\left(f_{3}(x)\right)$ 分在了相应的类 “1” 中, 分对了。

这样就实现第三个基本分类器 $\operatorname{sign}(\mathrm{f} 3(\mathrm{x}) )$ 在训练数据集上有 0 个误分类点, 训练结束。

小结🌴🌴🌴

本节就为大家介绍到这里啦，希望大家都能够理解Adaboost 算法的原理，一起加油叭🥗🥗🥗~~~

如若文章对你有所帮助，那就🛴🛴🛴

一键三连 (1).gif

零基础学习Adaboost算法---原理+实例（对强分类器错误率为0有详细解释）

写在前面

1. Adaboost 算法简介🌴🌴🌴

2. Adaboost 算法流程🌴🌴🌴

3. Adaboost 案例演示🌴🌴🌴

小结🌴🌴🌴