机器学习 第八章集成学习

2,787 阅读10分钟

关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter8

1 个体与集成

集成学习(ensemble learning):通过构建多个学习器来完成学习的任务。可以分成同质集成/异质集成。

  • 同质集成(homogeneous):个体学习器都是同种类型的。该类型中个体学习器称为“基学习器”(base learning algorithm)。
  • 异质集成(heterogeneous):包含不同类型的个体学习器。该类型中个体学习器称为“组件学习器”(component learner)。

image.png

集成学习通过将多个学习器进行结合,可获得比单一学习器显著优越的泛化性能,这对弱学习器更为明显(弱学习器是泛化性能略优于随即猜测的学习器)。

一般经验中,如果把好坏不等的东西掺和到一起,那么通常结果会是比最好的差一点,比最差的好一点。集成学习能获得好于最好的单一学习器的性能的原因如下:考虑二分类问题,集成学习的结果通过投票法来产生,即少数服从多数要获得好的集成,个体学习器应该“好而不同”:即个体学习器要有一定的准确性,同时要有多样性(diversity),学习器之间应该具有差异。

image.png

++++++++++++++++++++++++++++++++++++++++++++++++++++++++

简单分析,考虑对于二分类问题y{1,+1}y\in \{-1,+1\}和真实函数ff,假定基分类器的错误率为ϵ\epsilon,即对每个基分类器有:

P(hi(x)f(x))=ϵP(h_i(x)\neq f(x))=\epsilon

假设通过简单投票法结合TT个基分类器,若有超过半数的基分类器分类正确,则集成分类就正确:

F(x)=sign(i=1Thi(x))F(x)=sign(\sum_{i=1}^T h_i(x))

假设基分类器的错误率相互独立,则由Hoeffding不等式有,集成错误率为

P(F(x)f(x))=k=0[T/2]CTk(1ϵ)kϵTke12T(12ϵ)2P(F(x)\neq f(x)) =\sum_{k=0}^{[T/2]} C_T^k(1-\epsilon)^k\epsilon^{T-k}\\ \le e^ { -\displaystyle\frac{1}{2}T(1-2\epsilon)^2}

上式体现出,随着个体分类器数目TT的增大,集成错误率将指数级下降,最终趋向于0。但我们要注意到假设中基学习器的误差相互独立,在现实任务中,个体学习器是为了解决同一个问题训练出来的,因此显然不会相互独立。所以如何产生并结合“好而不同”的学习器,是集成学习研究的核心。

根据个体学习器的生成方式,目前的集成学习方法大致可分为两大类:

  • 个体学习器间存在强依赖关系、必须串行生成的序列化方法:Boosting
  • 个体学习器间不存在强依赖关系、可同时生成的并行化方法:Bagging和“随机森林”(Random Forest)。

2 Boosting

Boosting算法的工作机制类似:先根据初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器;如此重复,直到基学习器的数目先到达TT,最终将TT个学习器进行加权结合。

Boosting族算法中的代表算法是AdaBoost算法。可以采用“加性模型”,即基学习器的线性组合

H(x)=i=1Tαiht(x)H(x)=\sum_{i=1}^T \alpha_ih_t(x)

来最小化指数损失函数:

ϑexp(HD)=ExD[ef(x)H(x)]\vartheta_{exp}(H|D)=E_{x\sim D}[e^{-f(x)H(x)}]

该损失函数是指,若f(x)f(x)H(x)H(x)的预测结果一致,则其乘积为1,其负数的指数就会越小。

H(x)H(x)能使得指数损失函数最小,则对指数损失函数求H(x)H(x)的偏导:

ϑexp(HD)H(x)=eH(x)P(f(x)=1x)+eH(x)P(f(x)=1x)\frac{\partial \vartheta_{exp}(H|D)}{\partial H(x)}=-e^{-H(x)}P(f(x)=1|x)+e^{H(x)}P(f(x)=-1|x)

令偏导为0可得:

H(x)=12lnP(f(x)=1x)P(f(x)=1x)H(x)=\frac{1}{2} \ln \frac{P(f(x)=1|x)}{P(f(x)=-1|x)}

因此有:

sign(H(x))={1   ,P(f(x)=1x)>P(f(x)=1x)1,P(f(x)=1x)<P(f(x)=1x)    =argmaxy{1,1}P(f(x)=yx)sign(H(x)) = \begin{cases} 1\space \space \space ,P(f(x)=1|x)>P(f(x)=-1|x)\\ -1,P(f(x)=1|x)< P(f(x)=-1|x) \end{cases}\\ \space\space \space \space = \mathop{\arg \max}_{y\in \{1,-1\}}P(f(x)=y|x)

这意味着sign(H(x))sign(H(x))达到了贝叶斯最优错误率。即指数损失函数可以替代原本的0/1损失函数。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++

再AdaBoost算法中,第一个基分类器h1h_1是直接将基学习算法用于初始数据分布得到的。此后迭代地生产hth_tαt\alpha_t,当基分类器hth_t基于分布DtD_t产生后,该分类器的权重αt\alpha_t应该使得αtht\alpha_th_t最小化指数损失函数:

ϑexp(αthtDt)=ExDt[ef(x)αtht(x)]=ExDt[eαt(f(x)=ht(x))+[eαt(f(x)ht(x))]=eαtPxDt(f(x)=ht(x))+eαtPxDt(f(x)ht(x))=eαt(1ϵt)+eαtϵt\vartheta_{exp}(\alpha_th_t|D_t) =E_{x\sim D_t}[e^{-f(x)\alpha_t h_t(x)}] =E_{x\sim D_t}[e^{-\alpha_t}Ⅱ(f(x)=h_t(x))+[e^{\alpha_t}Ⅱ(f(x)\neq h_t(x))]\\ =e^{-\alpha_t}P_{x\sim D_t}(f(x)=h_t(x))+e^{\alpha_t}P_{x\sim D_t}(f(x)\neq h_t(x)) =e^{-\alpha_t}(1-\epsilon_t)+e^{\alpha_t}\epsilon_t

对指数损失函数求导:

ϑexp(αthtDt)αt=eαt(1ϵt)+eαtϵt\frac{\partial \vartheta_{exp}(\alpha_th_t|D_t) }{\partial \alpha_t}=-e^{-\alpha_t(1-\epsilon_t)+e^{\alpha_t}\epsilon_t}

令上式为0,得到权重更新公式:

αt=12ln(1ϵtϵt)\alpha_t=\frac{1}{2}\ln (\frac{1-\epsilon_t}{\epsilon_t})

+++

AdaBoost算法在得到Ht1H_{t-1}之后样本分布将进行调整,使得下一轮的基学习器hth_t能够纠正Ht1H_{t-1}的一些错误。方法是最小化ϑ(Ht1+αthtD)\vartheta(H_{t-1}+\alpha_th_t|D),可以简化为:

ϑ(Ht1+αthtD)=ExD[ef(x)(Ht1(x)+ht(x))]=ExD[ef(x)Ht1(x)ef(x)ht(x)]\vartheta(H_{t-1}+\alpha_th_t|D) =E_{x\sim D}[e^{-f(x)(H_{t-1}(x)+h_t(x))}]\\ =E_{x\sim D}[e^{-f(x)H_{t-1}(x)}e^{-f(x)h_t(x)}]

注意到f2(x)=ht2(x)=1f^2(x)=h_t^2(x)=1,用ef(x)ht(x)e^{-f(x)h_t(x)}泰勒展开得到:

ϑ(Ht1+αthtD)=ExD[ef(x)Ht1(x)(1f(x)ht(x)+f2(x)ht2(x)2)]=ExD[ef(x)Ht1(x)(1f(x)ht(x)+12)]\vartheta(H_{t-1}+\alpha_th_t|D) =E_{x\sim D}[e^{-f(x)H_{t-1}(x)}(1-f(x)h_t(x)+\frac{f^2(x)h_t^2(x)}{2})]\\ =E_{x\sim D}[e^{-f(x)H_{t-1}(x)}(1-f(x)h_t(x)+\frac{1}{2})]

于是理想的基学习器

ht(x)=argmaxh ExD[ef(x)Ht1(x)ExD[ef(x)Ht1(x)]f(x)h(x))]h_t(x)=\mathop{\arg \max}_{h}\space E_{x\sim D}[\frac{e^{-f(x)H_{t-1}(x)}}{E_{x\sim D}[e^{-f(x)H_{t-1}(x)}]}f(x)h(x))]

DtD_t表示一个分布,有

Dt=D(x)ef(x)Ht1(x)ExD[ef(x)Ht1(x)]Dt+1(x)=Dt(x)ef(x)αtht(x)ExD[ef(x)Ht1(x)]ExD[ef(x)Ht(x)]D_t=\frac{D(x)e^{-f(x)H_{t-1}(x)}}{E_{x\sim D}[e^{-f(x)H_{t-1}(x)}]}\\ \\ D_{t+1}(x)=D_t(x) \cdot e^{-f(x)\alpha_th_t(x)}\frac{E_{x\sim D}[e^{-f(x)H_{t-1}(x)}]}{E_{x\sim D}[e^{-f(x)H_t(x)}]}

理想的hth_t将在分布DtD_t下最小化分类误差。因此弱分类器将基于分布DtD_t来训练。且针对DtD_t的分类误差应该小于0.5。

++++++++++++++++++++++++++++++++++++++++++++++++++++++++

综上,我们推导了权重更新公式、分布更新公式、损失函数,得到AdaBoost的完整过程:

image.png

Boosting算法要求基学习器能对特定的数据分布进行学习,这可通过 “重赋权法”(re-weighting) 实施,即在训练过程的每一轮中, 根据样本分布为每个训练样本重新赋予一个权重。对无法接受带权样本的基学习算法,则可通过 “重采样法”(re-sampling) 来处理,即在每一轮学习中,根据样本分布对训练集重新进行采样,再用重采样而得的样本集对基学习器进行训练。

一般而言,这两种做法没有显著的优劣差别。需注意的是,Boosting算法在训练的每一轮都要检查当前生成的基学习器是否满足基本条件(例如检查当前基分类器是否是比随机猜测好),一旦条件不满足,则当前基学习器即被抛弃,且学习过程停止.在此种情形下,初始设置的学习轮数T也许还远未达到,可能导致最终集成中只包含很少的基学习器而性能不佳。若采用“重采样法”,则可获得“重启动”机会以避免训练过程过早停止,即在拋弃不满足条件的当前基学习器之后,可根据当前分布重新对训练样本进行采样,再基于新的采样结果重新训练出基学习器,从而使得学习过程可以持续到预设的T轮完成。

偏差-方差分解的角度看,Boosting主要关注降低偏差,因此Boosting能基于泛化性能相当弱的学习器构建出很强的集成。

3 Bagging与随机森林

欲得到泛化性能强的集成,集成中的个体学习器应该尽可能相互独立。可以采用相互有交叠的采样子集训练不同的基学习器。

3.1 Bagging

Bagging是并行式集成学习方法最著名的代表。直接基于自主采样法(bootstrap sampling,每次随机从样本集中抽取一个样本,再把样本放回初始数据集)。初始训练集中约有63.2%的样本出现在采样集。

按照该方法,我们可以采样出TT个含有mm个训练样本的采样集,基于每个采样集训练出一个基学习器。Bagging往往采用 简单投票法(分类)/简单平均法(回归) 对多个基学习器的结果进行决策。从偏差-方差分解的角度看,Bagging主要关注降低方差,因此它在不剪枝决策树、神经网络等易受样本扰动的学习器上效用更为明显。

image.png

3.2 随机森林

随即森林(Random Forest)是Bagging的基础上的一个扩展变体。其在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

具体来说,就是传统决策书在选择划分属性时是根据当前结点的属性集合中选择一个最优属性;在随机森林中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含kk个属性的子集,再从这个子集中选择一个最优属性进行划分。这里的参数kk控制了随机性的引入程度。一般情况,推荐k=log2dk=\log_2d

随机森林简单、容易实现、计算开销小,令人惊奇的是,它在很多现实任务中展现出强大的性能,被誉为“代表集成学习技术水平的方法”。可以看出,随机森林对Bagging只做了小改动,但是与Bagging中基学习器的“多样性”仅通过样本扰动(通过对初始训练集采样)而来不同,随机森林中基学习器的多样性不仅来自样本扰动,还来自属性扰动,这就使得最终集成的泛化性能可通过个体学习器之间差异度的增加而进一步提升。

4 组合策略

假定集成包含TT个学习器{h1,h2,,hT}\{h_1,h_2,…,h_T\},其中hih_i在示例xx上的输出为hi(x)h_i(x)

4.1 平均法

简单平均法:

H(x)=1Ti=1Thi(x)H(x)=\frac{1}{T}\sum_{i=1}^Th_i(x)

加权平均法:

H(x)=i=1Twihi(x)H(x)=\sum_{i=1}^T w_ih_i(x)

4.2 投票法

绝对多数投票法:若某标记得票过半,则预测为该标记。提供了拒绝预测,对于可靠性要求较高的学习任务是一个很好的机制。

相对多数投票法:得票最多的标记

加权投票法:

H(x)=Cargmaxji=1Twihij(x)H(x)=C_{\mathop{\arg \max}_j\sum_{i=1}^Tw_ih_i^j(x)}

4.3 学习法

当训练数据很多时,一种更为强大的结合策略是使用“学习法”,即通过另一个学习器来进行结合。Stacking是学习法的典型代表。这里我们把个体学习器称为初级学习器,用于结合的学习器称为次级学习器或元学习器(meta-learner)。

Stacking先从初始数据集训练出初级学习器,然后“生成”一个新数据集用于训练次级学习器。在这个新数据集中,初级学习器的输出被当作样例输入特征,而初始样本的标记仍被当作样例标记。

image.png

有研究表明,采用初基学习器的输出类概率作为茨基学习器的输入属性,用多响应线性回归(Multi-response Linear Regression, MLR)作为次级学习算法的效果较好。

5 多样性

5.1 误差-分歧分解

假定我们用个体学习器h1,h2,,hTh_1,h_2,…,h_T通过加权平均法结合产生的集成完成回归学习任务f:RdRf:R^d\mapsto R,对示例xx,定义学习器hih_i的**“分歧”**为:

A(hix)=(hi(x)H(x))2A(h_i|x)=(h_i(x)-H(x))^2

集成的分歧为:

Aˉ(hx)=i=1TwiA(hix)=i=1Twi(hi(x)H(x))2\bar A(h|x)=\sum_{i=1}^Tw_iA(h_i|x)\\ =\sum_{i=1}^Tw_i(h_i(x)-H(x))^2

分歧表示的是个体学习器在样本xx上的不一致性,即在一定程度上反映了个体学习器的多样性。个体学习器和集成的平方误差分别为:

E(hix)=(f(x)hi(x))2E(Hx)=(f(x)H(x))2E(h_i|x)=(f(x)-h_i(x))^2\\ E(H|x)=(f(x)-H(x))^2

Eˉ(hx)=i=1TwiE(hix)\bar E(h|x)=\sum_{i=1}^Tw_iE(h_i|x)表示个体学习器误差的加权均值,有

Aˉ(hx)=i=1TwiE(hix)E(Hx)=Eˉ(hx)E(Hx) \bar A(h|x)=\sum_{i=1}^Tw_iE(h_i|x)-E(H|x)\\ =\bar E(h|x)-E(H|x)

p(x)p(x)表示样本的概率密度,则在全样本上有

i=1TwiA(hix)p(x)dx=i=1TwiE(hix)p(x)dxE(Hx)p(x)dx\sum_{i=1}^Tw_i\int A(h_i|x)p(x)dx=\sum_{i=1}^Tw_i\int E(h_i|x)p(x)dx- \int E(H|x)p(x)dx

类似的,个体学习器在全样本上的泛化误差和分歧项分别为:

Ei=E(hix)p(x)dxAi=A(hix)p(x)dxE_i=\int E(h_i|x)p(x)dx\\ A_i=\int A(h_i|x)p(x)dx

集成的泛化误差为

E=E(Hx)p(x)dxE=\int E(H|x)p(x)dx

Eˉ=i=1TwiEi,  Aˉ=i=1TwiAi\bar E=\sum_{i=1}^Tw_iE_i,\space\space \bar A=\sum_{i=1}^Tw_iA_i表示个体学习器的加权分歧值,有

E=EˉAˉE=\bar E-\bar A

该式表示:个体学习器的准确性越高,多样性越大,则集成越好。但我们很难直接通过“误差-分歧分解”来优化目标,因为Aˉ\bar A不是一个可直接操作的多样性度量,尽在集成构造好之后才进行估计。且上面的推导只适用回归,不适用分类。

5.2 多样性度量

多样性度量(diversity measure):估算个体学习器的多样化程度。常用做法是考虑个体分类器的两两相似/不相似性。

给定数据集D={(x1,y1),(x2,y2),,(xm,ym)}D=\{(x_1,y_1),(x_2,y_2),…,(x_m,y_m)\},对二分类任务,yi{+1,1}y_i\in \{+1,-1\},分类器hih_ihjh_j的预测结果列联表为:

hi=+1h_i=+1hi=1h_i=-1
hjh_j=+1aacc
hj=1h_j=-1bbdd

其中,aa表示两个分类器预测结果均为+1的样本数目,且a+b+c+d=ma+b+c+d=m,常用的多样性度量:

  • 不合度量:

    disij=b+cmdis_{_ij}=\frac{b+c}{m}
  • 相关系数:

    ρij=adbc(a+b)(a+c)(c+d)(b+d)\rho_{_ij}=\frac{ad-bc}{\sqrt{(a+b)(a+c)(c+d)(b+d)}}
  • Q-统计量:

    Qij=adbcad+bcQ_{_ij}=\frac{ad-bc}{ad+bc}
  • κ\kappa-统计量:p1p_1是分类器取得一致的概率,p2p_2是分类器偶然达成一致的概率。

    κ=p1p21p2p1=a+dmp2=(a+b)(a+c)+(c+d)(b+d)m2\kappa=\frac{p_1-p_2}{1-p_2}\\ p_1=\frac{a+d}{m}\\ p_2=\frac{(a+b)(a+c)+(c+d)(b+d)}{m^2}

5.3 多样性增强

  • 数据样本扰动:例如Bagging中采用自主采样,AdaBoost中采用序列采样
  • 输入属性扰动:随机森林,每次随机抽取kk个属性……
  • 输出表示扰动:翻转法(随机该百年一些训练样本的标记);输出调制法(将分类输出转化为回归输出)等等
  • 算法参数扰动:神经网络中的隐层神经元数量……