一致性 ——《机器学习理论导引》第六章学习笔记(下)

435 阅读5分钟

《机器学习理论导引》笔记目录

6.3 划分机制

  一些机器学习方法可看作是将样本空间𝒳划分成多个互不相容的区域,然后在各区域中对正例和反例分别计数,以多数的类别作为区域中样本的标记,这被称为划分机制。常见的基于划分机制的机器学习方法包括最近邻、决策树、随机森林等。

  具体而言,给定训练集 Dm={(x1,y1),(x2,y2),,(xm,ym)}\mathcal{D}_m=\{(x_1,y_1),(x_2,y_2),\ldots,(x_m,y_m)\},基于某种划分机制将样本空间 X\mathcal{X} 划分成多个互不相容的区域 Ω1,Ω2,,Ωn\Omega_1,\Omega_2,\ldots,\Omega_n,然后对每个区域中正例和反例进行计数,按“少数服从多数”原则确定区域中样本的标记,即有

hm(x)={+1 如果 xiΩ(x)I(yi=+1)xiΩ(x)I(yi=1)1 如果 xiΩ(x)I(yi=+1)<xiΩ(x)I(yi=1)h_m(x)= \begin{cases}+1 & \text { 如果 } \sum_{x_i \in \Omega(x)} \mathbb{I}\left(y_i=+1\right) \geq \sum_{x_i \in \Omega(x)} \mathbb{I}\left(y_i=-1\right) \\ -1 & \text { 如果 } \sum_{x_i \in \Omega(x)} \mathbb{I}\left(y_i=+1\right)<\sum_{x_i \in \Omega(x)} \mathbb{I}\left(y_i=-1\right)\end{cases}

  其中 Ω(x)\Omega(x) 表示样本 xx 所在的区域。


定义 6.3 划分机制一致性

  随着训练数据规模 mm\rightarrow\infty,若基于划分机制的输出函数 hm(x)h_m(x) 满足 R(hm)RR(h_m)\rightarrow R^*,则称该划分机制具有一致性。


  直观上看,划分机制具有一致性需要满足两个条件:

  • 划分后的区域足够小,从而保证能够捕捉数据的局部信息
  • 划分后的区域应包含足够多的训练样本,从而确保“少数服从多数”方法的有效性

  给定区域 Ω\Omega,用 Diam(Ω)\text{Diam}(\Omega) 表示区域 Ω\Omega 的直径,即 Diam(Ω)=supx,xΩxx\text{Diam}(\Omega)=\sup_{x,x'\in\Omega}\lVert x-x'\rVert,给定样本 xXx\in\mathcal{X},设 N(x)=i=1mI(xiΩ(x))N(x)=\sum_{i=1}^m\mathbb{I}(x_i\in\Omega(x)),代表落入区域 Ω(x)\Omega(x) 的样本数


引理 6.4

  设 X1,X2,,XmX_1,X_2,\ldots,X_mmm 个独立同分布的 Bernoulli 随机变量,且满足 XiBernoulli(p)X_i\sim\text{Bernoulli}(p),则有

E[1mi=1mXiE[Xi]]p(1p)m\mathbb{E}\left[\left\lvert\frac{1}{m}\sum_{i=1}^mX_i-\mathbb{E}[X_i]\right\rvert\right]\leqslant\sqrt{\frac{p(1-p)}{m}}

证明

  根据 Jensen 不等式有

E[1mi=1mXiE[Xi]]E[1mi=1mXiE[Xi]]2=1m2i=1mE[XiE[Xi]]2=v(X1)m=p(1p)m\mathbb{E}\left[\frac{1}{m} \sum_{i=1}^m X_i-\mathbb{E}\left[X_i\right]\right]\leqslant\sqrt{\mathbb{E}\left[\frac{1}{m} \sum_{i=1}^m X_i-\mathbb{E}\left[X_i\right]\right]^2}\\ =\sqrt{\frac{1}{m^2} \sum_{i=1}^m \mathbb{E}\left[X_i-\mathbb{E}\left[X_i\right]\right]^2}=\sqrt{\frac{v\left(X_1\right)}{m}}=\sqrt{\frac{p(1-p)}{m}}

  引理得证。


定理 6.4

  假设条件概率 η(x)\eta(x) 在样本空间 X\mathcal{X} 上连续,若划分后的每个区域满足 : 当 mm\rightarrow\infty 时有 Diam(Ω(x))0\text{Diam}(\Omega(x))\rightarrow0N(x)N(x)\rightarrow\infty 依概率成立,则该划分机制具有一致性。

  其中依概率成立 (比极限更弱) 是指 : 对 ϵ>0,limmP((Diam(Ω)0))=0\forall\epsilon>0,\lim_{m\rightarrow\infty}P((\text{Diam}(\Omega)-0)\geqslant)=0,对 N>0,limmP(N(x)>N)=1\forall N>0,\lim_{m\rightarrow\infty}P(N(x)>N)=1

证明

  对任意样本 xXx\in\mathcal{X},设 η^(x)=xiΩ(x)I(yi=+1)N(x)\hat{\eta}(x)=\sum_{x_i\in\Omega(x)}\frac{\mathbb {I}(y_i=+1)}{N(x)},根据划分机制得到分类器 hm(x)=2I(η^(x)12)1h_m(x)=2\mathbb{I}\left(\hat{\eta}(x)\geqslant\frac{1}{2}\right)-1,由引理 6.2,R(hm)R2E[η^(x)η(x)]R(h_m)-R^*\leqslant2\mathbb{E}[\lvert\hat{\eta}(x)-\eta(x)\rvert],设区域 Ω(x)\Omega(x) 的条件概率的期望为 ηˉ(x)=E[η(x)xΩ(x)]\bar{\eta}(x)=\mathbb{E}[\eta(x')|x'\in\Omega(x)]

  利用三角不等式有 E[η^(x)η(x)]E[η^(x)ηˉ(x)]+E[ηˉ(x)η(x)]\mathbb{E}[\lvert\hat{\eta}(x)-\eta(x)\rvert]\leqslant\mathbb{E}[\lvert\hat{\eta}(x)-\bar{\eta}(x)\rvert]+\mathbb{E}[\lvert\bar{\eta}(x)-\eta(x)\rvert],根据 η(x)\eta(x) 的连续性,以及当 mm\rightarrow\infty 时有 Diam(Ω(x))0\text{Diam}(\Omega(x))\rightarrow0 依概率成立,从而得到 E[ηˉ(x)η(x)]0\mathbb{E}[\lvert\bar{\eta}(x)-\eta(x)\rvert]\rightarrow0

  下面只需证明 E[η^(x)ηˉ(x)]0\mathbb{E}[\lvert\hat{\eta}(x)\leq-\bar{\eta}(x)\rvert]\rightarrow0

  给定 x,x1,,xmx,x_1,\ldots,x_m,有

E[η^(x)ηˉ(x)x,x1,,xm]=E[η^(x)ηˉ(x)N(x)=0,x,x1,,xm]P(N(x)=0)+E[η^(x)ηˉ(x)N(x)>0,x,x1,,xm]P(N(x)>0)P(N(x)=0x,x1,,xm)+E[xiΩ(x)I(yi=+1)ηˉ(x)N(x)N(x)>0,x,x1,,xm]\begin{aligned} & \mathbb{E}\left[\mid \hat{\eta}(x)-\bar{\eta}(x) \| x, x_1, \ldots, x_m\right] \\ =&\mathbb{E}\left[\mid \hat{\eta}(x)-\bar{\eta}(x) \| N(x)=0, x, x_1, \ldots, x_m\right] P(N(x)=0)+ \\ & \mathbb{E}\left[\mid \hat{\eta}(x)-\bar{\eta}(x) \| N(x)>0, x, x_1, \ldots, x_m\right] P(N(x)>0) \\ \leqslant & P\left(N(x)=0 \mid x, x_1, \ldots, x_m\right)\\ +&\mathbb{E}\left[\mid \sum_{x_i \in \Omega(x)} \frac{\mathbb{I}\left(y_i=+1\right)-\bar{\eta}(x)}{N(x)} \| N(x)>0, x, x_1, \ldots, x_m\right]\\ \end{aligned}

  N(x)η^(x)N(x)\hat{\eta}(x) 表示区域 Ω(x)\Omega(x) 中正例的个数,其服从二项分布 B(N(x),η^(x))\mathcal{B}(N(x),\hat{\eta}(x)),由引理 6.4,有

E[xiΩ(x)I(yi=+1)ηˉ(x)N(x)N(x)>0,x,x1,,xm]E[ηˉ(x)(1ηˉ(x))N(x)I(N(x)>0)x,x1,,xm]12P(1N(x)kx,x1,,xm)+12kP(N(x)>kx,x1,,xm)12P(1N(x)kx,x1,,xm)+12k\begin{aligned} & \mathbb{E}\left[\mid \sum_{x_i \in \Omega(x)} \frac{\mathbb{I}\left(y_i=+1\right)-\bar{\eta}(x)}{N(x)} \| N(x)>0, x, x_1, \ldots, x_m\right] \\ & \leqslant \mathbb{\mathbb{E}}\left[\sqrt{\frac{\bar{\eta}(x)(1-\bar{\eta}(x))}{N(x)}} \mathbb{I}(N(x)>0) \mid x, x_1, \ldots, x_m\right] \\ & \leqslant \frac{1}{2} P\left(1 \leqslant N(x) \leqslant k \mid x, x_1, \ldots, x_m\right)+\frac{1}{2 \sqrt{k}} P\left(N(x)>k \mid x, x_1, \ldots, x_m\right) \\ & \leqslant \frac{1}{2} P\left(1 \leqslant N(x) \leqslant k \mid x, x_1, \ldots, x_m\right)+\frac{1}{2 \sqrt{k}} \end{aligned}

  结合以上两个不等式,有

E[η^(x)ηˉ(x)x,x1,,xm]P(N(x)=0x,x1,,xm)+12P(1N(x)kx,x1,,xm)+12k\begin{aligned} & \mathbb{E}\left[|\hat{\eta}(x)-\bar{\eta}(x)| \mid x, x_1, \ldots, x_m\right] \\ & \leqslant P\left(N(x)=0 \mid x, x_1, \ldots, x_m\right)+\frac{1}{2} P\left(1 \leqslant N(x) \leqslant k \mid x, x_1, \ldots, x_m\right)+\frac{1}{2 \sqrt{k}} \end{aligned}

  对 x,x1,,xmx,x_1,\ldots,x_m 取期望有

E[η^(x)ηˉ(x)]P(N(x)=0)+12P(1N(x)sk)+12k\mathbb{E}[|\hat{\eta}(x)-\bar{\eta}(x)|] \leqslant P(N(x)=0)+\frac{1}{2} P(1 \leqslant N(x) \leqslant sk)+\frac{1}{2 \sqrt{k}}

  取 k=N(x)k=\sqrt{N(x)},根据条件 N(x)N(x)\rightarrow\infty 依概率成立,有 E[η^(x)ηˉ(x)]0\mathbb{E}[\lvert\hat{\eta}(x)\leq-\bar{\eta}(x)\rvert]\rightarrow0,代入三角不等式定理得证。

随机森林 (Random Forest)

  随机森林 (Random Forest) 是一种重要的集成学习方法 (ensemble learning),通过对数据集进行有放回采样 (bootstrap sampling) 产生多个训练集,然后基于每个训练集产生随机决策树,最后通过投票法对随机决策树进行集成,这些随机决策树是在决策树生成过程中,对划分节点、划分属性及划分点引入随机选择而产生的。

  对随机决策树,可以引入一个新的随机变量 ZZZ\in\mathcal{Z},用以刻画决策树的随机性,即用 hm(x,Z)h_m(x,Z) 表示随机决策树,这里 mm 表示训练集的大小。假设产生 nn 棵随机决策树 hm(x,Z1),hm(x,Z2),,hm(x,Zn)h_m(x,Z_1),h_m(x,Z_2),\ldots,h_m(x,Z_n),然后根据这些决策树进行投票,从而构成随机森林 hˉm(x;Z1,,Zn)\bar{h}_m(x;Z_1,\ldots,Z_n),即

hˉm(x;Z1,,Zn)={+1 如果 i=1nhm(x,Zi)01 如果 i=1nhm(x,Zi)<0\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)= \begin{cases}+1 & \text { 如果 } \sum_{i=1}^n h_m\left(x, Z_i\right) \geq 0 \\ -1 & \text { 如果 } \sum_{i=1}^n h_m\left(x, Z_i\right)<0\end{cases}

引理 6.5

  对随机决策树 hm(x,Z)h_m(x,Z) 和随机森林 hˉm(x;Z1,,Zn)\bar{h}_m(x;Z_1,\ldots,Z_n),有

EZ1,,Zn[R(hˉm(x;Z1,,Zn))]R2(EZ[R(hm(x,Z))]R)E_{Z_1, \ldots, Z_n}\left[R\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)\right)\right]-\mathrm{R}^* \leq 2\left(E_Z\left[R\left(h_m(x, Z)\right)\right]-R^*\right)

  此引理表明,若随机决策树 hm(x,Z)h_m(x,Z) 具有一致性,则由随机决策树构成的随机森林 hˉm(x;Z1,,Zn)\bar{h}_m(x;Z_1,\ldots,Z_n) 也具有一致性

证明

  根据引理 6.1 可知

EZ[R(hm(x,Z))]R=ExDx[12η(x)I(hm(x,Z)h(x))]=ExDx[(12η(x))I(η(x)<12)PZ(hm(x,Z)=1)+(2η(x)1)I(η(x)>12)PZ(hm(x,Z)=1)]\begin{aligned} \mathbb{E}_Z\left[R\left(h_m(x, Z)\right)\right]-R^* &= \mathbb{E}_{x \sim \mathcal{D}_x}\left[|1-2 \eta(x)| \mathbb{I}\left(h_m(x, Z) \neq h^*(x)\right)\right] \\ &=\mathbb{E}_{x \sim \mathcal{D}_x}\left[(1-2 \eta(x)) \mathbb{I}\left(\eta(x)<\frac{1}{2}\right) P_Z\left(h_m(x, Z)=1\right)\right. \\ &\left.+(2 \eta(x)-1) \mathbb{I}\left(\eta(x)>\frac{1}{2}\right) P_Z\left(h_m(x, Z)=-1\right)\right] \end{aligned}

  进一步得到

EZ1,,Zn[R(hˉm(x;Z1,,Zn))]R=ExDx[(12η(x))I(η(x)<12)PZ1,Zn(hˉm(x;Z1,,Zn)=1)+(2η(x)1)I(η(x)>12)PZ1,,Zn(hˉm(x;Z1,,Zn)=1)]\begin{aligned} &\mathbb{E}_{Z_1, \ldots, Z_n}\left[R\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)\right)\right]-R^*\\ =\mathbb{E}_{x \sim D_x} & {\left[(1-2 \eta(x)) \mathbb{I}\left(\eta(x)<\frac{1}{2}\right) P_{Z_1, \ldots Z_n}\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)=1\right)\right.} \\ & \left.+(2 \eta(x)-1) \mathbb{I}\left(\eta(x)>\frac{1}{2}\right) P_{Z_1, \ldots, Z_n}\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)=-1\right)\right] \end{aligned}

  对任意样本 xXx\in\mathcal{X},当 η(x)<1/2\eta(x)<1/2 时,只需证明 PZ1,,Zn(hˉm(x;Z1,,Zn)=1)2PZ(hm(x,Z)=1)P_{Z_1, \ldots, Z_n}\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)=1\right) \leqslant 2 P_Z\left(h_m(x, Z)=1\right) 即可

PZ1,,Zn(hˉm(x;Z1,,Zn)=1)=PZ1,,Zn(i=1nI(hm(x,Zi)=1)n2)(由 Markov 不等式)2ni=1nE[I(hm(x,Zi)=1)]=2P(hm(x,Zi)=1)\begin{aligned} &P_{Z_1, \ldots, Z_n}\left(\bar{h}_m\left(x ; Z_1, \ldots, Z_n\right)=1\right)=P_{Z_1, \ldots, Z_n}\left(\sum_{i=1}^n\mathbb{I}(h_m(x,Z_i)=1)\geqslant\frac{n}{2}\right)\\ &(\text{由 Markov 不等式})\leqslant\frac{2}{n}\sum_{i=1}^n\mathbb{E}[\mathbb{I}(h_m(x,Z_i)=1)]=2P(h_m(x,Z_i)=1)\\ \end{aligned}

  同理可证 η(x)1/2\eta(x)\geqslant1/2 的情况,引理得证


定理 6.5

  当训练集规模 mm\rightarrow\infty 时,如果每棵随机决策树的迭代轮数 k=k(m)k=k(m)\rightarrow\inftykm0\frac{k}{m}\rightarrow0,则随机森林具有一致性

证明

  首先研究随机决策树的一致性,随机决策树本质上是基于划分机制的一种分类方法。考虑样本空间 X=[0,1]d\mathcal{X}=[0,1]^d,对任意 xXx\in\mathcal{X},令 Ω(x,Z)\Omega(x,Z) 表示样本 xx 所在的区域,N(x,Z)N(x,Z) 表示落入 Ω(x,Z)\Omega(x,Z) 中的训练样本数,即 N(x,Z)=i=1mI(xiΩ(x,Z))N(x,Z)=\sum_{i=1}^m\mathbb{I}(x_i\in\Omega(x,Z))

  首先证明当 mm\rightarrow\inftyN(x,Z)N(x,Z)\rightarrow\infty 依概率几乎处处成立。设 Ω1,Ω2,,Ωk+1\Omega_1,\Omega_2,\ldots,\Omega_{k+1} 为随机决策树通过 kk 轮迭代后得到的 k+1k+1 个区域,且设 N1,N2,,Nk+1N_1,N_2, \ldots,N_{k+1} 分别为训练集 Dm\mathcal{D}_m 落入这些区域的样本数。给定训练集 Dm\mathcal{D}_m 和随机变量 ZZ,样本 xx 落入区域 Ωi\Omega_i 的概率为 Ni/mN_i/m

  对任意给定 t>0t>0

P(N(x,Z)<t)=E[P(N(x,Z)<tDm,Z)]=E[i:Ni<tNim](t1)k+1m0P(N(x,Z)<t)=\mathbb{E}[P(N(x,Z)<t|D_m,Z)]=\mathbb{E}\left[\sum_{i:N_i<t}\frac{N_i}{m}\right]\leqslant(t−1)\frac{k+1}{m} \rightarrow 0

  其次证明当 kk\rightarrow\infty 时区域 Ω(x,Z)\Omega(x, Z) 的直径 Diam(Ω(x,Z))0\text{Diam}(\Omega(x,Z))\rightarrow 0 依概率几乎处处成立。令 TmT_m 表示区域 Ω(x,Z)\Omega(x, Z) 被划分的次数,根据随机决策树的构造可知 Tm=i=1kξiT_m=\sum_{i=1}^k\xi_i,其中 ξiBernoulli(1/i)\xi_i\sim\text{Bernoulli}(1/i)。于是有 ,代入\mathbb{E}

E[Tm]=i=1k1ilnk,V(Tm)=i=1k1i(11i)lnk+1\mathbb{E}\left[T_m\right]=\sum_{i=1}^k \frac{1}{i} \geq \ln k, V\left(T_m\right)=\sum_{i=1}^k \frac{1}{i}\left(1-\frac{1}{i}\right) \leq \ln k+1

  根据 Chebyshev 不等式可知,当 kk\rightarrow\infty 时有

P(TmE[Tm]E[Tm]2)4V(Tm)E[Tm]24lnk+1ln2k0P\left(\left|T_m-\mathbb{E}\left[T_m\right]\right| \geq \frac{\mathbb{E}\left[T_m\right]}{2}\right) \leq 4 \frac{V\left(T_m\right)}{\mathbb{E}\left[T_m\right]^2} \leq 4 \frac{\ln k+1}{\ln ^2 k} \rightarrow 0

  故 P(TmE[Tm]2)0P\left(T_m\leqslant\frac{\mathbb{E}[T_m]}{2}\right)\rightarrow 0,代入 E[Tm]lnk\mathbb{E}[T_m]\geqslant\ln k 可得 P(Tmlnk2)1P\left(T_m \geqslant\frac{\ln k}{2}\right)\rightarrow 1

  令 LjL_j 表示区域 Ω(x,Z)\Omega(x, Z) 中第 jj 个属性的边长,根据随机决策树的构造可知

E[Lj]E[E[i=1Kjmax(Ui,1Ui)Kj]]\mathbb{E}\left[L_j\right] \leq \mathbb{E}\left[\mathbb{E}\left[\prod_{i=1}^{K_j} \max \left(U_i, 1-U_i\right) \mid K_j\right]\right]

  这里的随机变量 kjB(Tm,1/d)k_j\sim\mathcal{B}(T_m,1/d) 表示随机决策树构造中的第 jj 个属性被选用划分的次数,随机变量 UiU(0,1)U_i\sim U(0,1) 表示第 jj 个属性被划分的位置。根据 UiU(0,1)U_i\sim U(0,1)

E[max(Ui,1Ui)]=21/21UidUi=34\mathbb{E}\left[\max \left(U_i, 1-U_i\right)\right]=2 \int_{1 / 2}^1 U_i d U_i=\frac{3}{4}

由此可得

E(Lj)=E[E[Πi=1Kjmax(Ui,1Ui)Kj]]=E[(34)Kj]\mathbb{E}\left(L_j\right)=\mathbb{E}\left[\mathbb{E}\left[\Pi_{i=1}^{K_j} \max \left(U_i, 1-U_i\right) \mid K_j\right]\right]=\mathbb{E}\left[\left(\frac{3}{4}\right)^{K_j}\right]

  再根据 kjB(Tm,1/d)k_j\sim\mathcal{B}(T_m,1/d)

E[Lj]=E[(34)Kj]=E[kj=0=0Tm(34)Kj(TkmKj)(1a)Kj(11d)TmKj]=E[kj==0TTm(Tm)(34d)Kj(11d)TmKj]=E[(11d+34d)Tm]=E[(114d)Tm]\begin{aligned} E\left[L_j\right]=E\left[\left(\frac{3}{4}\right)^{K_j}\right] & =E\left[\sum_{k_{j=0}=0}^{T_m}\left(\frac{3}{4}\right)^{K_j}\left(T_{k_m}^{K_j}\right)\left(\frac{1}{a}\right)^{K_j}\left(1-\frac{1}{d}\right)^{T_m-K_j}\right]\\&=E\left[\sum_{k_{j=}=0}^{T_{T_m}}\left(T_m\right)\left(\frac{3}{4 d}\right)^{K_j}\left(1-\frac{1}{d}\right)^{T_m-K_j}\right] \\ & =E\left[\left(1-\frac{1}{d}+\frac{3}{4 d}\right)^{T_m}\right]=E\left[\left(1-\frac{1}{4 d}\right)^{T_m}\right] \end{aligned}

  又因为 P(Tmlnk2)1P\left(T_m\geqslant\frac{\ln k}{2}\right)\rightarrow 1,当 kk\rightarrow\infty 时有 E[Lj]0\mathbb{E}[L_j]\rightarrow 0,进而有 E[Diam(Ω(x,Z))]0\mathbb{E}\left[\text{Diam}(\Omega(x,Z))\right]\rightarrow 0

  根据 Diam(Ω(x,Z))0\text{Diam}(\Omega(x,Z))\geqslant 0EDiam(Ω(x,Z))0\mathbb{E}\text{Diam}(\Omega(x,Z))\rightarrow 0 可知 P(Ω(x,Z)ϵ)0P\left(\Omega(x,Z)\geqslant\epsilon\right)\rightarrow 0,即 Diam(Ω(x,Z))0\text{Diam}(\Omega(x,Z))\rightarrow 0 依概率成立

  根据定理 6.2 可得随机决策树具有一致性。

  再根据引理 6.5 可知由随机决策树集成的随机森林也具有一致性。

  定理得证。