机器学习 第十二章计算学习理论

210 阅读7分钟

关于周志华老师的《机器学习》这本书的学习笔记
记录学习过程
本博客记录Chapter12

1 基础知识

计算学习理论(computational learning theory):关于通过“计算”来进行“学习”的理论,即关于机器学习的理论基础,其目的是分析学习任务的困难本质,为学习算法体统理论保证,并根据结果指导算法设计。

对于二分类问题,给定样本集{(x1,y1),(x2,y2),,(xm,ym)}\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)\}yi{1,+1}y_i\in\{-1,+1\}。假设所有样本服从一个隐含未知的分布DD,所有样本均独立同分布(independent and identically distributed)。

hh为样本到{1,+1}\{-1,+1\}上的一个映射,其泛化误差为

E(h;D)=PxD(h(x)y)E(h;D)=P_{x\sim D}(h(x)\neq y)

hhDD上的经验误差为

E^(h;D)=1mi=1m(h(xi)yi)\hat{E}(h;D)=\frac{1}{m}\sum_{i=1}^m Ⅱ(h(x_i)\neq y_i)

由于D是DD的独立同分布采样,因此hh的经验误差的期望等于其泛化误差。 在上下文明确时,我们将E(h;D)E(h;D)E^(h;D)\hat E(h;D)分别简记为E(h)E(h)E^(h)\hat E(h)。 令ϵ\epsilonE(h)E(h)的上限,即E(h)ϵE(h)\le \epsilon;我们通常用ϵ\epsilon表示预先设定的学得模型所应满足的误差要求,亦称“误差参数”。

我们将研究经验误差和泛化误差之间的逼近程度;若hh在数据集上的经验误差为0,则称hh与D一致,否则称其不一致。对于任意两个映射h1,h2XYh_1,h_2\in X \rightarrow Y,用不合(disagreement)来度量他们之间的差别:

d(h1,h2)=PxD(h1(x)h2(x))d(h_1,h_2)=P_{x\sim D}(h_1(x)\neq h_2(x))

我们将会用到几个常见的不等式:

  • Jensen不等式:对任意凸函数,有

    f(E(X))E(f(x))f(E(X))\neq E(f(x))
  • Hoeffding不等式:若x1,x2,,xmx_1,x_2,\dots,x_mmm个独立随机变量,且满足0xi10\le x_i\le 1,对任意ϵ>0\epsilon>0,有

    P(1mi=1mxi1mi=1mE(xi)ϵ)e2mϵ2P(1mi=1mxi1mi=1mE(xi)ϵ)2e2mϵ2P(\frac{1}{m}\sum_{i=1}^mx_i-\frac{1}{m}\sum_{i=1}^mE(x_i)\ge\epsilon)\le e^{-2m\epsilon^2}\\ P(|\frac{1}{m}\sum_{i=1}^mx_i-\frac{1}{m}\sum_{i=1}^mE(x_i)|\ge\epsilon)\le 2e^{-2m\epsilon^2}
  • McDiarmid不等式:若x1,x2,,xmx_1,x_2,\dots,x_mmm个独立随机变量,且满足1im1\le i\le m,函数ff满足:

    supx1,,xm, xif(x1,,xm)f(x1,,xi1,xi,xi+1,,xm)ci,\sup_{x_1,\cdots,x_m,\ x_i'} |f(x_1,\cdots,x_m)-f(x_1,\cdots,x_{i-1},x_i',x_{i+1},\cdots,x_m)|\le c_i,

    则对任意ϵ>0\epsilon >0,有

    P(f(x1,,xm)E(f(x1,,xm))ϵ)exp(2ϵ2ici2)P(f(x1,,xm)E(f(x1,,xm))ϵ)2 exp(2ϵ2ici2)P(f(x_1,\cdots,x_m)-E(f(x_1,\cdots,x_m))\ge\epsilon )\le exp (\frac{-2\epsilon^2}{\sum_ic_i^2})\\ P(|f(x_1,\cdots,x_m)-E(f(x_1,\cdots,x_m))|\ge\epsilon )\le 2\ exp (\frac{-2\epsilon^2}{\sum_ic_i^2})

2 PAC学习

概率近似正确理论(Probably Approximately Correct,PAC):

  • 首先介绍两个概念:

    • CC:概念类。表示从样本空间到标记空间的映射,对任意样例,都能使得c(x)=yc(x)=y
    • HH:假设类。学习算法会把认为可能的目标概念集中起来构成HH
    • cHc\in H,则说明假设能将所有示例按真实标记一致的方式完全分开,称为该问题对学习算法而言是”可分的“;否则,称为”不可分的“
  • 对于训练集,我们希望学习算法学习到的模型所对应的假设hh尽可能接近目标概念cc。我们是希望以比较大的把握学得比较好的模型,也就是说,以较大的概率学得误差满足预设上限的模型,这就是"概率近似正确"的含义。形式化地说,令δ\delta表示置信度,可定义:

    • PAC辨识:对0ϵ,δ<10\le \epsilon, \delta<1,所有的cCc\in C和分布DD,若存在学习算法,其输出假设hHh\in H满足:

      P(E(h)ϵ)1δP(E(h)\le \epsilon)\ge 1- \delta

      则称学习算法能从假设空间HH中PAC辨识概念类CC。这样的学习算法能以较大的概率(至少1δ1-\delta) 学得目标概念cc的近似 (误差最多为ϵ\epsilon)。在此基础上可定义:

    • PAC可学习:令mm表示从分布DD中独立同分布采样得到的样例数目,0<ϵ,δ<10 < \epsilon, \delta < 1,对所有分布DD,若存在学习算法和多项式函数poly(1/ϵ,1/delta,size(x),size(c))poly(1/\epsilon,1/delta,size(x),size(c))(样例数目mm与误差ϵ\epsilon、置信度1δ1-\delta、数据本身的复杂度size(x)size(x)、目标概念的复杂度size(c)size(c)都有关),使得对于任何mpoly(1/ϵ,1/delta,size(x),size(c))m\ge poly(1/\epsilon,1/delta,size(x),size(c)) ,学习算法能从假设空间中PAC辨识概念类CC,则称概念类CC对假设空间而言是PAC可学习的,有时也简称概念类CC是PAC 可学习的。

    • PAC学习算法:满足PAC可学习的算法。(假定学习算法处理每个样本的时间为常数,因此CC的时间复杂度等价于样本复杂度。于是,我们对算法时间复杂度的关心就转化为对样本复杂度的关心)

    • 样本复杂度(Sample Complexity):满足mpoly(1/ϵ,1/δ,size(x),size(c))m \ge poly(1/\epsilon,1/\delta,size(x),size(c))的最小的mm

  • PAC学习中一个关键因素是假设空间H的复杂度。H包含了学习算法所有可能输出的假设,若在PAC学习中假设空间与概念类完全相同,即H=C,这称为"恰PAC可学习" (properly PAC learnable)。直观地看,这意味着学习算法的能力与学习任务”恰好匹配“。 然而,这种让所有候选假设都来自概念类的要求看似合理,但却并不实际,因为在现实应用中我们对概念类CC通常一无所知,更别说获得一个假设空间与概念类恰好相同的学习算法。显然,更重要的是研究假设空间与概念类不同的情形,即HCH\neq C。 一般而言,HH越大,其包含任意目标概念的可能性越大,但从中找到某个具体目标概念的难度也越大。H|H|有限时,我们称究为"有限假设空间",否则称为"无限假设空间"。

3 有限假设空间

3.1 可分情形

对于PAC来说,只要训练集DD的规模能使得学习算法以概率1δ1-\delta找到目标假设的ϵ\epsilon近似即可。

先估计泛化误差大于ϵ\epsilon但在训练集上仍表现完美的假设出现的概率。假定hh的泛化误差大于ϵ\epsilon,对分布DD上随机采样而得到的任何样例(x,y)(x,y),有:

P(h(x)=y)=1P(h(x)y)          =1E(h)   1ϵP(h(x)=y)=1-P(h(x)\neq y)\\ \ \ \ \ \ \ \ \ \ \ =1-E(h)\\ \ \ \ \le1-\epsilon

由于DD中包含mm个样例,因此,hhDD表现一致的概率为:

P((h(x1)=y1)(h(x2)=y2)(h(xm)=ym))<(1ϵ)mP((h(x_1)=y_1)(h(x_2)=y_2)\cdots(h(x_m)=y_m))<(1-\epsilon)^m

我们事先不知道学习算法会输出那个假设,但仅需要保证泛化误差大于ϵ\epsilon,且在训练集上变现完美的多有假设出现概率之和不大于δ\delta即可。

P(hH:E(h)>ϵ  E^(h)=0)<H(1ϵ)m<HemϵP(h\in H:E(h)>\epsilon \ \cap \ \hat E(h)=0) \lt |H|(1-\epsilon)^m\\ \lt |H|e^{-m\epsilon}

令上式不大于δ\delta

Hemϵδ|H|e^{-m\epsilon}\le \delta

可得

m1ϵ(lnH+ln1δ)m \ge \frac{1}{\epsilon}(\ln|H|+\ln \frac{1}{\delta})

由此可知,有限假设空间HH都是PAC可学习的,所需的样例数目如上式所示,输出假设hh的泛化误差随样例数目的增多而收敛到 0,收敛速率为 O(1m)O(\frac{1}{m})

3.2 不可分情形

cHc\notin H时,我们的学习算法无法学习到目标概念ccϵ\epsilon近似,但是当假设空间给定时,必定存在一个泛化误差最小的假设,找出此假设的ϵ\epsilon近似也不失为一种较好的目标。

HH中泛化误差最小的假设是argminhHE(h)\arg \min_{h\in H} E(h),以此为目标可将PAC学习推广到cHc\notin H的情况,称为**”不可知学习“**(agnostic learning)。其概念如下:

mm表示从分布DD中独立同分布采样得到的样例数目,0<ϵ,δ<10\lt \epsilon,\delta \lt 1,对所有分布DD,若存在学习算法和多项式函数polypoly,使得对于任何mpoly(1/ϵ,1/δ,size(x),size(c))m\ge poly(1/\epsilon,1/\delta,size(x),size(c)),学习算法能从假设空间中输出满足下式的假设hh

P(E(h)minhHE(h)ϵ)1δP(E(h)-\min_{h'\in H}E(h')\le \epsilon)\ge1-\delta

则称假设空间是不可知PAC学习的。

4 VC维

VC维:假设空间HH的VC维是能被HH打散的最大示例集的大小:

VC(H)=max{m:ΠH(m)=2m}VC(H)=\max \{m:\Pi_{H}(m)=2^m \}

例如对二分类问题来说,m个样本最多有2m2^m个可能结果,每种可能结果称为一种“对分”,若假设空间能实现数据集D的所有对分,则称数据集能被该假设空间打散。VC维指能被HH打散的最大示例集的大小。

应注意到,VC维与数据分布DD无关!在数据分布未知时,仍能计算出假设空间的VC维。

image.png

若假设空间HH的VC维是dd,则对任意整数m>dm \gt d,有:

ΠH(m)(emd)d\Pi_H (m)\le (\frac{e\cdot m}{d})^d

同时任何VC维有限的假设空间HH都是(不可知)PAC学习的。

5 Rademacher复杂度

Rademacher 复杂度 (Rademacher complexity) 是另一种刻画假设空间复杂度的途径,与VC维不同的是,它在一定程度上考虑了数据分布

考虑实值函数空间FRF \rightarrow \mathbb R,令Z={z1,z2,,zm}Z=\{z_1,z_2,\cdots,z_m\}。函数空间FF关于ZZ的经验Rademacher复杂度

R^Z(F)=Eσ[supfF1mi=1mσif(zi)]\hat R_Z(F)=\mathbb E_{\sigma}[ \sup_{f\in F}\frac{1}{m}\sum_{i=1}^m\sigma_if(z_i) ]

经验Rademacher复杂度衡量了函数空间FF与随机噪声在集合ZZ中的相关性。通常我们希望了解函数空间FFZZ上关于分布DD的相关性,因此,对所 有从DD独立同分布采样而得的大小为mm的集合ZZ求期望可得

Rm(F)=EZZ:Z=m[R^Z(F)]R_m(F)=\mathbb E_{Z \subseteq Z:|Z|=m}[\hat R_Z(F)]

假设空间HH的Rdemacher复杂度Rm(H)R_m(H)与增长函数ΠH(m)\Pi_H(m)满足

Rm(H)2lnΠH(m)mR_m(H)\le \sqrt{\frac{2\ln \Pi_H(m)}{m}}

6 稳定性

顾名思义,算法的“稳定性”考察的是算法在输入发生变化时,其输出是否会随之发生较大的变化。学习算法的输入是训练集,因此下面我们先定义训练集的两种变化:

  • 移除:D\iD^{\backslash i},表示移除DD中第ii个样例得到的集合

    D\i={z1,z2,,zi1,zi+1,,zm}D^{\backslash i}=\{z_1,z_2,\cdots,z_{i-1},z_{i+1},\cdots,z_m \}
  • 替换:DiD^{i},表示替换DD中第ii个样本得到的集合

    Di={z1,z2,,zi,,zm}D^i=\{z_1,z_2,\cdots,z_i',\cdots,z_m \}

损失函数刻画了预测标记和真实标记的差别:

image.png

算法的均匀稳定性:

image.png

因此,移除示例的稳定性包含了替换示例的稳定性。

若学习算法符合经验风险最小化原则(ERM)且稳定的,则假设空间HH是可学习的。稳定性通过损失函数与假设空间的可学习联系在了一起。