7 非均匀可学习性
到目前为止,在书中讨论的 PAC 可学性的概念允许样本大小取决于准确性和置信度参数,但在标记规则和底层数据分布方面,他们是一致的。因此,在这方面可学习的类是有限的(它们必须有一个有限的vc维,如定理6.7所述)。在本章中,我们将考虑更轻松、更弱的可学性概念。我们讨论这些概念的有用性,并提供使用这些定义可学习的概念类的特征。
我们通过定义“非均匀可学习性”的概念开始讨论,该概念允许样本大小取决于与学习者进行比较的假设。然后我们提供了非均匀可学习性的特征,并证明非均匀可学性是对不可知论的 PAC 可学性的严格放宽。我们还证明了非均匀可学性的一个充分条件是 H \mathcal H H 是假设类的一个可数并集,每个类都具有一致收敛性。这些结果将在第7.2节中通过引入一个新的学习范式来证明,该范式称为结构风险最小化( SRM )。在第7.3节中,我们为可数假设类指定 SRM 范式,它产生最小描述长度( MDL )范式。MDL 范式为一种被称为奥卡姆剃刀的归纳法哲学原理提供了一种形式的论证。接下来,在7.4节中,我们将一致性作为学习性的一个更弱的概念来介绍。最后,我们讨论了可学习性的不同概念的意义和有用性。
7.1 非均匀可学性
“非均匀可学性”允许样本大小对于学习者竞争的不同假设是不均匀的。我们说一个假设 h h h 与另一个假设 h ′ h^\prime h ′ 竞争 ( ϵ , δ ) (\epsilon,\delta) ( ϵ , δ ) ,其概率大于 ( 1 − δ ) (1-\delta) ( 1 − δ ) ,
L d ( h ) ≤ L d ( h ′ ) + ϵ . L_d(h)\le L_d(h^\prime)+\epsilon . L d ( h ) ≤ L d ( h ′ ) + ϵ .
在 PAC 可学习性中,“竞争力”的概念不是很有用,因为我们正在寻找一个具有绝对低风险的假设(在可实现的情况下)或与我们类中的假设(在不可知的情况下)实现的最小风险相比具有低风险的假设。因此,样本大小仅取决于准确度和置信度参数。然而,在非均匀可学习性中,我们允许样本大小的形式为 m H ( ϵ , δ , h ) m_\mathcal H(\epsilon,δ,h) m H ( ϵ , δ , h ) ;也就是说,这也取决于我们与之竞争的对手 h h h 。正式地,
定义7.1
如果存在一个学习方法 A 和一个函数 m H N U L : ( 0 , 1 ) 2 × H → N m_\mathcal H^{NUL}:(0,1)^2\times \mathcal H\to \mathbb N m H N UL : ( 0 , 1 ) 2 × H → N 以至于对所有ϵ , δ ∈ ( 0 , 1 ) \epsilon,\delta \in (0,1) ϵ , δ ∈ ( 0 , 1 ) 和所有 h ∈ H h\in \mathbb H h ∈ H ,如果m ≥ m H N U L ( ϵ , δ , h ) m\ge m_\mathcal H^{NUL}(\epsilon,\delta,h) m ≥ m H N UL ( ϵ , δ , h ) 则对于每个分布D,对S ∽ D m S\backsim D^m S ∽ D m 的选择概率至少为1 − δ 1-\delta 1 − δ 。则假设集 H \mathcal H H 是非均匀可学的。它认为
L D ( A ( S ) ) ≤ L D ( h ) + ϵ . L_D(A(S))\le L_D(h)+\epsilon . L D ( A ( S )) ≤ L D ( h ) + ϵ .
在这一点上,回顾不可知 PAC 可学习性的定义(定义3.3)可能是有用的:
如果存在学习算法 A 和一个函数 m H : ( 0 , 1 ) 2 → N m_\mathcal H:(0,1)^2\to \mathbb N m H : ( 0 , 1 ) 2 → N 以至于对所有 ϵ , δ ∈ ( 0 , 1 ) \epsilon,\delta \in (0,1) ϵ , δ ∈ ( 0 , 1 ) 和所有分布 D,如果 m ≥ m H ( ϵ , δ ) m\ge m_\mathcal H(\epsilon,\delta) m ≥ m H ( ϵ , δ ) ,对S ∽ D m S\backsim D^m S ∽ D m 的选择概率至少为1 − δ 1-\delta 1 − δ 。那么假设集 H \mathcal H H 是不可知 PAC 可学的,它认为
L D ( A ( S ) ) ≤ m i n h ′ ∈ H L D ( h ′ ) + ϵ . L_D(A(S))\le \underset {h^\prime\in \mathcal H}{min} L_D(h^\prime)+\epsilon . L D ( A ( S )) ≤ h ′ ∈ H min L D ( h ′ ) + ϵ .
注意,这意味着对于所有 h ∈ H h\in H h ∈ H
L D ( A ( S ) ) ≤ L D ( h ) + ϵ . L_D(A(S))\le L_D(h)+\epsilon . L D ( A ( S )) ≤ L D ( h ) + ϵ .
在这两种类型的可学习性中,我们要求输出假设将与类中的所有其他假设竞争 ( ϵ , δ ) (\epsilon,\delta) ( ϵ , δ ) 。但这两个可学习性概念之间的区别在于,样本大小是否取决于 A ( S ) A(S) A ( S ) 误差比较的假设。请注意,非均匀可学习性是不可知 PAC 可学习性的放宽。也就是说,如果一个类是不可知的 PAC 可学习的,那么它也是非均匀可学习的。
7.1.1 非均匀可学习性的表征
我们现在的目标是描述非均匀可学习性。在前一章中,我们发现了PAC可学习类的一个清晰的特征,通过证明一类二元分类器是不可知的 PAC 可学习的,当且仅当其维数是有限的。在下面的定理中,我们发现了非均匀可学习类的一个不同特征,用于二元分类任务。
定理 7.2 二元分类器的假设类 H \mathcal H H 是非均匀可学习的当且仅当它是不可知PAC可学习假设类的可数并集。
定理7.2的证明依赖于以下独立利益的结果:
理论7.3 设 H \mathcal H H 是一个假设类,可以写成假设类的可数并集,H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n∈N}\mathcal H_n H = ⋃ n ∈ N H n ,其中每个 H n \mathcal H_n H n 都具有一致收敛性。然后,它是非均匀可学习的。
回想一下,在第4章中,我们已经证明了一致收敛对于不可知PAC的可学习性是足够的。理论7.3将此结果推广到非均匀可学习性。下一节将通过引入一种新的学习范式来证明这个定理。现在我们来证明定理7.2。
定理7.2的证明
首先假设 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n∈N}\mathcal H_n H = ⋃ n ∈ N H n ,每个 H n \mathcal H_n H n 都是不可知PAC可学习的。利用统计学习的基本定理,证明了每个 H n \mathcal H_n H n 都具有一致收敛性。因此,使用定理7.3.我们认为 H \mathcal H H 是非均匀可学的。
对于另一个方向,假设H \mathcal H H 的非均匀可学习可以使用某种算法A。对于所有n ∈ N n\in N n ∈ N 、 使H n = { h ∈ H : m H N U L ( 1 / 8 , 1 / 7 , h ) ≤ n } \mathcal H_n=\{h\in \mathcal H:m_{\mathcal H}^{NUL}(1/8,1/7,h)\le n\} H n = { h ∈ H : m H N UL ( 1/8 , 1/7 , h ) ≤ n } 。显然,H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n∈N}\mathcal H_n H = ⋃ n ∈ N H n 。此外,使用m H N U L m_{\mathcal H}^{NUL} m H N UL 的定义,我们知道对于任何分布 D D D 满足 H n H_n H n 可实现性假设,在 S ∼ D n S\sim D^n S ∼ D n 上的概率至少为 6 / 7 6/7 6/7 的情况下,我们得到了L D ( A ( S ) ) ≤ 1 / 8 L_D(A(S))\le 1/8 L D ( A ( S )) ≤ 1/8 . 利用统计学习的基本定理,这意味着 H n \mathcal H_n H n 的VC维数必须是有限的,因此H n \mathcal H_n H n 是不可知 PAC 可学习的。
下面的例子表明,非均匀可学习性是不可知PAC可学习性的严格放宽;也就是说,有一些假设类是非均匀可学习的,但不是不可知PAC可学习的。
例7.1
考虑实例域为 X = R X= \mathbb R X = R 的二元分类问题。对于所有 n ∈ N n∈\mathbb N n ∈ N 设 H n \mathcal H_n H n 为 n n n 次多项式分类器类;也就是说,H n \mathcal H_n H n 是形式为 h ( x ) = s i g n ( p ( x ) ) h(x)=sign(p(x)) h ( x ) = s i g n ( p ( x )) 的所有分类器的集合,其中 p : R → R p:R\to R p : R → R 是 n n n 次多项式。设H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n H = ⋃ n ∈ N H n ,因此,H \mathcal H H 是 R R R 上所有多项式分类器的类。很容易验证 V C d i m ( H ) = ∞ VCdim(\mathcal H)=\infty V C d im ( H ) = ∞ 而 V C d i m ( H n ) = n + 1 VCdim(\mathcal H_n)=n+1 V C d im ( H n ) = n + 1 (参见练习12).因此,H \mathcal H H 不是PAC可学习的,而根据定理7.3,H \mathcal H H 是非均匀可学习的。
7.2 结构风险最小化
到目前为止,我们已经通过指定 H \mathcal H H 类假设对我们的先验知识进行了编码,我们认为 H \mathcal H H 类假设对于手头的学习任务来说是一个很好的预测因子。表达我们先前知识的另一种方式是通过指定 H \mathcal H H 内对假设的偏好。在结构风险最小化(SRM)范式中,我们首先假设 H \mathcal H H 可以写成 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n H = ⋃ n ∈ N H n 然后指定权重函数,w : N → [ 0 , 1 ] w:N\to [0,1] w : N → [ 0 , 1 ] ,它为每个假设类指定了一个权重,H n \mathcal H_n H n ,使得权重越高,反映出对假设类的偏好越强。在本节中,我们将讨论如何利用这些先验知识进行学习。在下一节中,我们将描述几个重要的加权方案,包括最小描述长度。
具体地说,假设 H \mathcal H H 是一个假设类,可以写成 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n H = ⋃ n ∈ N H n 。例如, H \mathcal H H 可以是所有多项式分类器的类,其中每个 H n \mathcal H_n H n 是 n n n 次多项式分类器的类(参见示例7.1)。假设对于每个 n n n ,类 H n \mathcal H_n H n 具有一致收敛性(见第4章中的定义4.3),并具有样本复杂度函数 m H n U C ( ϵ , δ ) m^{UC}_{\mathcal H_n}(\epsilon,\delta) m H n U C ( ϵ , δ ) 让我们也定义函数 ϵ n : N × ( 0 , 1 ) → ( 0 , 1 ) \epsilon_n :\mathbb N\times(0,1)\to (0,1) ϵ n : N × ( 0 , 1 ) → ( 0 , 1 ) 由
ϵ n ( m , δ ) = m i n { ϵ ∈ ( 0 , 1 ) : m H n U C ( ϵ , δ ) ≤ m } . ( 7.1 ) \epsilon_n(m,\delta) = min\{\epsilon \in(0,1):m^{UC}_{\mathcal H_n}(\epsilon,\delta)\le m\}.(7.1) ϵ n ( m , δ ) = min { ϵ ∈ ( 0 , 1 ) : m H n U C ( ϵ , δ ) ≤ m } . ( 7.1 )
换句话说,我们有一个固定的样本量 m m m ,我们感兴趣的是,通过使用 m m m 个示例样本,经验风险和真实风险之间的差距的最低可能上界。
从一致收敛和ϵ n \epsilon_n ϵ n 的定义可以看出,对于所有 m m m 和 δ δ δ ,概率至少为 1 − δ 1− δ 1 − δ 在 S ∼ D M S\sim D^M S ∼ D M 上的选择我们有
∀ h ∈ H n , ∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , δ ) . ( 7.2 ) \forall h\in \mathcal H_n,|L_\mathcal D(h)-L_S(h)|\le \epsilon_n(m,\delta).(7.2) ∀ h ∈ H n , ∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , δ ) . ( 7.2 )
设 w : N → [ 0 , 1 ] w:N\to [0,1] w : N → [ 0 , 1 ] 是这样一个函数 ∑ n = 1 ∞ w ( n ) ≤ 1 \sum^\infty_{n=1}w(n)\le 1 ∑ n = 1 ∞ w ( n ) ≤ 1 .我们将 w w w 称为假设类H 1 、 H 2 ⋅ ⋅ ⋅ ⋅ \mathcal H_1、\mathcal H_2\cdot\cdot\cdot\cdot H 1 、 H 2 ⋅ ⋅ ⋅ ⋅ 上的权重函数。。这样的权重函数可以反映学习者对每个假设类的重要性,或者不同假设类的复杂性的某种度量。如果 H \mathcal H H 是 N N N 个假设类的有限并集,则可以简单地将相同的权重 1 / N 1/N 1/ N 分配给所有假设类。这种相等的权重不对应于任何假设类别的先验偏好。当然,如果一个人认为(作为先验知识)某个假设类更可能包含正确的目标函数,那么应该为其分配更大的权重,以反映该先验知识。当 H H H 是假设类的(可数)无限并集时,统一加权是不可能的,但许多其他加权方案可能会起作用。例如,可以选择 w ( n ) = 6 π 2 n 2 w(n)=\frac{6}{π^2n^2} w ( n ) = π 2 n 2 6 或 w ( n ) = 2 − n w(n)=2^{−n} w ( n ) = 2 − n 。在本章后面,我们将提供另一种使用描述语言定义权重函数的方便方法。
SRM规则遵循“界限最小化”方法。这意味着范式的目标是找到一个假设,使真实风险的某个上限最小化。SRM规则希望最小化的界在以下定理中给出。
定理7.4
设 w : N → [ 0 , 1 ] w:N\to [0,1] w : N → [ 0 , 1 ] 是这样一个函数 ∑ n = 1 ∞ w ( n ) ≤ 1 \sum^\infty_{n=1}w(n)\le 1 ∑ n = 1 ∞ w ( n ) ≤ 1 .设 H \mathcal H H 是一个假设类,可以写成 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in \mathbb N}\mathcal H_n H = ⋃ n ∈ N H n ,其中对于每个 n n n ,H n \mathcal H_n H n 满足样本复杂度函数 m H n U C ( ϵ , δ ) m^{UC}_{\mathcal H_n}(\epsilon,\delta) m H n U C ( ϵ , δ ) 的一致收敛性。让 ϵ n \epsilon_n ϵ n 如等式(7.1)中所定义。然后,对于每个 δ ∈ ( 0 , 1 ) δ\in(0,1) δ ∈ ( 0 , 1 ) 和分布 D D D ,概率至少为 1 − δ 1−\delta 1 − δ 关于S ∼ D m S\sim D^m S ∼ D m 的选择,以下界限(同时)对所有 n ∈ N n\in N n ∈ N 和 h ∈ H n h\in \mathcal H_n h ∈ H n 保留。
∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , w ( n ) ⋅ δ ) . |L_\mathcal D(h)-L_S(h)|\le \epsilon_n(m,w(n)\cdot \delta). ∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , w ( n ) ⋅ δ ) .
因此,对于每个 δ ∈ ( 0 , 1 ) δ\in(0,1) δ ∈ ( 0 , 1 ) 和分布 D D D ,概率至少为 1 − δ 1−\delta 1 − δ 他认为
∀ h ∈ H n , L D ( h ) ≤ L S ( h ) + m i n n : h ∈ H n ϵ n ( m , w ( n ) ⋅ δ ) . ( 7.3 ) \forall h\in \mathcal H_n, L_\mathcal D(h)\le L_S(h)+\underset {n:h\in\mathcal H_n}{min}\epsilon_n(m,w(n)\cdot \delta).(7.3) ∀ h ∈ H n , L D ( h ) ≤ L S ( h ) + n : h ∈ H n min ϵ n ( m , w ( n ) ⋅ δ ) . ( 7.3 )
证明
对于每个 n n n ,定义 δ n = w ( n ) δ \delta_n=w(n)\delta δ n = w ( n ) δ 。应用以方程(7.2)中给出的速度对所有 n n n 保持一致收敛的假设,我们得到,如果我们预先固定 n n n ,则概率至少为 1 − δ 1−δ 1 − δ 的选择 S ∼ D m S\sim D^m S ∼ D m 。
∀ h ∈ H n , ∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , δ n ) . \forall h\in \mathcal H_n,| L_\mathcal D(h)-L_S(h) |\le\epsilon _n(m,\delta_n). ∀ h ∈ H n , ∣ L D ( h ) − L S ( h ) ∣ ≤ ϵ n ( m , δ n ) .
在 n = 1 , 2 , ⋅ ⋅ ⋅ ⋅ , n=1,2,\cdot\cdot\cdot\cdot, n = 1 , 2 , ⋅ ⋅ ⋅ ⋅ , 上应用并定界。,我们得到的概率至少为 1 − ∑ n δ n = 1 − δ ∑ n w ( n ) ≥ 1 − δ 1−\sum_n\delta_n=1−δ\sum_nw(n)\ge 1−\delta 1 − ∑ n δ n = 1 − δ ∑ n w ( n ) ≥ 1 − δ 前面的公式适用于所有 n n n ,这就是我们的证明。
表示
n ( h ) = m i n { n : h ∈ H n } , ( 7.4 ) n(h)=min\{n:h\in\mathcal H_n\},(7.4) n ( h ) = min { n : h ∈ H n } , ( 7.4 )
然后方程(7.3)意味着
L D ( h ) ≤ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h ) ) ⋅ δ ) . L_\mathcal D(h)\le L_S(h)+\epsilon_{n(h)}(m,w(n(h))\cdot\delta). L D ( h ) ≤ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h )) ⋅ δ ) .
SRM范式搜索最小化该界限的h,如以下伪代码中所述:
结构风险最小化(SRM) 先前知识:H = ⋃ n H n \mathcal H=\bigcup_n\mathcal H_n H = ⋃ n H n 其中 H n \mathcal H_n H n 与 m H n U C w : N → [ 0 , 1 ] m^{UC}_{\mathcal H_n}w:\mathbb N\to[0,1] m H n U C w : N → [ 0 , 1 ] 一致收敛 其中 ∑ n w ( n ) ≤ 1 \sum_nw(n)\le 1 ∑ n w ( n ) ≤ 1 定义:ϵ n \epsilon_n ϵ n 如等式(7.1)所示,n ( h ) n(h) n ( h ) 如等式(7.4)所示 输入:训练集 S ∼ D m S\sim \mathcal D^m S ∼ D m ,置信度 δ \delta δ 输出:h ∈ a r g m i n h ∈ H [ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h ) ) ⋅ δ ) ] h\in argmin_{h\in\mathcal H}[L_S(h)+\epsilon_{n(h)}(m,w(n(h))\cdot\delta)] h ∈ a r g mi n h ∈ H [ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h )) ⋅ δ )]
与前几章中讨论的ERM范式不同,我们不再只关心经验风险 L S ( h ) L_S(h) L S ( h ) ,而是为了减少估计误差,我们愿意将我们对低经验风险的一些偏见与对 ϵ n ( h ) ( m , w ( n ( h ) ) ⋅ δ ) \epsilon_{n(h)}(m,w(n(h))\cdot\delta) ϵ n ( h ) ( m , w ( n ( h )) ⋅ δ ) 较小的类别的偏见进行交换。
接下来,我们证明了SRM范式可以用于每个类的非均匀学习,这是一致收敛的假设类的可数并集。
定理7.5
设 H \mathcal H H 是一个假设类,使得 H = ⋃ n ∈ N H n \mathcal H=\bigcup_{n\in\mathbb N}\mathcal H_n H = ⋃ n ∈ N H n ,其中每个 H n \mathcal H_n H n 具有样本复杂度m H n U C m^{UC}_{\mathcal H_n} m H n U C 的一致收敛性。让 w : N → [ 0 , 1 ] w:N\to[0,1] w : N → [ 0 , 1 ] 使得 w ( n ) = 6 n 2 π 2 w(n)=\frac{6}{n^2π^2} w ( n ) = n 2 π 2 6 。然后,使用SRM规则和速率,H \mathcal H H 是非均匀可学习的。
m H N U L ( ϵ . δ , h ) ≤ m H n ( h ) U C ( ϵ / 2 , 6 δ ( π n ( h ) ) 2 ) m^{NUL}_{\mathcal H}(\epsilon.\delta,h)\le m^{UC}_{\mathcal H_{n(h)}}\Big(\epsilon/2,\frac{6\delta}{(\pi n(h))^2}\Big) m H N UL ( ϵ . δ , h ) ≤ m H n ( h ) U C ( ϵ /2 , ( πn ( h ) ) 2 6 δ )
证明
设 A A A 为关于加权函数 w w w 的SRM算法。对于所有h ∈ H h\in H h ∈ H ,ϵ \epsilon ϵ 和 δ \delta δ ,设 m ≥ m H n ( h ) U C m\ge m^{UC}_{\mathcal H_{n(h)}} m ≥ m H n ( h ) U C 。利用 ∑ n w ( n ) = 1 \sum_nw(n)=1 ∑ n w ( n ) = 1 的事实,我们可以应用定理7.4得到,概率至少为 1 − δ 1−δ 1 − δ 的选择 S ∼ D m S\sim \mathcal D^m S ∼ D m ,我们每个 h ′ ∈ H h^\prime\in\mathcal H h ′ ∈ H 都有,
L D ( h ′ ) ≤ . L_D(h^\prime)\le . L D ( h ′ ) ≤ .
上述情况尤其适用于SRM规则返回的假设A。根据SRM的定义,我们得到
L D ( A ( S ) ) ≤ m i n h ′ [ L S ( h ′ ) + ϵ n ( h ′ ) ( m , w ( n ( h ′ ) ) δ ) ] ≤ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h ′ ) ) δ ) . L_D(A(S))\le \underset {h^\prime}{min}[L_S(h^\prime)+\epsilon_{n(h^\prime)}(m,w(n(h^\prime))\delta)]\le L_S(h)+\epsilon_{n(h)}(m,w(n(h^\prime))\delta). L D ( A ( S )) ≤ h ′ min [ L S ( h ′ ) + ϵ n ( h ′ ) ( m , w ( n ( h ′ )) δ )] ≤ L S ( h ) + ϵ n ( h ) ( m , w ( n ( h ′ )) δ ) .
最后,如果 m ≥ m H n ( h ) U C ( ϵ / 2 , w ( n ( h ) δ ) m\ge m^{UC}_{\mathcal H_{n(h)}} (\epsilon/2,w(n(h)\delta) m ≥ m H n ( h ) U C ( ϵ /2 , w ( n ( h ) δ ) 然后明确地是 ϵ n ( h ) ( m , w ( n ( h ) ) δ ) ≤ ϵ / 2 \epsilon_{n(h)}(m,w(n(h))\delta)\le \epsilon/2 ϵ n ( h ) ( m , w ( n ( h )) δ ) ≤ ϵ /2 .另外,从每个 H n \mathcal H_n H n 的一致收敛性出发,我们得到了概率大于 1 − δ 1-δ 1 − δ ,
L S ( h ) ≤ L D ( h ) + ϵ / 2 L_S(h)\le L_{\mathcal D}(h)+\epsilon/2 L S ( h ) ≤ L D ( h ) + ϵ /2
结合前面的所有结果,我们得到 L D ( A ( S ) ) ≤ L D ( h ) + ϵ L_\mathcal D(A(S))\le L_{\mathcal D}(h)+\epsilon L D ( A ( S )) ≤ L D ( h ) + ϵ ,这就是我们的证明。
注意前面的定理也证明了定理7.3
备注7.2
(非一致可学习性没有免费午餐)我们已经证明,有限 VC 维类的任何可数并集都是非一致可学习的。结果表明,对于任何无限域集X X X ,X X X 上所有二值函数的类都不是有限维类的可数并。我们将此索赔的证明留作(非平凡的)练习(参见练习5)。因此,在某种意义上,非均匀学习也适用于非免费午餐定理:即,只要域不是有限的,就所有确定性二元分类器而言,不存在非均匀学习者(尽管对于每一个这样的分类器,都存在一个学习它的简单算法——关于只包含该分类器的假设类的ERM)。
将定理7.5中给出的非均匀可学习性结果与不可知 PAC 单独学习任何特定HN的任务进行比较是有趣的。非均匀 H \mathcal H H 类学习者的先验知识或偏见较弱——它在整个 H \mathcal H H 类中搜索模型,而不是专注于一个特定的 H n \mathcal H_n H n 。先验知识弱化的代价是与任何特定 h ∈ H h\in \mathcal H h ∈ H 竞争所需的样本复杂性的增加。对于这一差距的具体评估,考虑零一损失的二元分类任务。假设对于所有n,V C d i m ( H n ) = n VCdim(\mathcal H_n)=n V C d im ( H n ) = n 。由于 m H n ( h ) U C ( ϵ , δ ) = C n + l o g ( 1 / δ ) ϵ 2 m^{UC}_{\mathcal H_{n(h)}}(\epsilon,\delta)=C\frac {n+log(1/\delta)}{\epsilon^2} m H n ( h ) U C ( ϵ , δ ) = C ϵ 2 n + l o g ( 1/ δ ) (其中C是定理6.8中出现的常数),一个简单的计算表明
m H N U L ( ϵ , δ , h ) − m H n U C ( ϵ / 2 , δ ) ≤ 4 C 2 l o g ( 2 n ) ϵ 2 . m_{\mathcal H}^{NUL}(\epsilon,\delta,h)-m^{UC}_{\mathcal H_{n}}(\epsilon/2,\delta)\le 4C\frac {2log(2n)}{\epsilon^2}. m H N UL ( ϵ , δ , h ) − m H n U C ( ϵ /2 , δ ) ≤ 4 C ϵ 2 2 l o g ( 2 n ) .
也就是说,将学习者的先验知识从包含目标 h h h 的特定 H n \mathcal H_n H n 放宽到可数并集的成本取决于 h h h 所在的第一个类的索引。该成本随着类别指数的增加而增加,这可以解释为反映了知道一个良好的优先顺序的价值在 H \mathcal H H 。
7.3 最小描述长度和奥卡姆剃刀理论
设 H \mathcal H H 为可数假设类。然后,我们可以把 H \mathcal H H 写成单态类的可数并,即 H = ⋃ n ∈ N { h n } \mathcal H=\bigcup _{n\in\mathbb N}\{h_n\} H = ⋃ n ∈ N { h n } 。根据Hoeffding不等式(引理4.5),每个单态类都具有一致收敛性,收敛速度 m U C ( ϵ , δ ) = l o g ( 2 / δ ) 2 ϵ 2 m^{UC}(\epsilon,\delta)=\frac {log(2/\delta)}{2\epsilon^2} m U C ( ϵ , δ ) = 2 ϵ 2 l o g ( 2/ δ ) 。因此,方程(7.1)中的函数 ϵ n \epsilon_n ϵ n 变为 ϵ n ( m , δ ) = l o g ( 2 / δ ) 2 m \epsilon_n(m,\delta)=\frac {log(2/\delta)}{2m} ϵ n ( m , δ ) = 2 m l o g ( 2/ δ ) ,SRM规则变为
a r g m i n h n ∈ H [ L S ( h ) + − l o g ( w ( n ) ) + l o g ( 2 / ϵ ) 2 m ] . \underset {h_n\in\mathcal H}{argmin}\bigg[L_S(h)+\sqrt {\frac {-log(w(n))+log(2/\epsilon)}{2m}} \bigg]. h n ∈ H a r g min [ L S ( h ) + 2 m − l o g ( w ( n )) + l o g ( 2/ ϵ ) ] .
等价地,我们可以将 w w w 看作是从 H \mathcal H H 到 [ 0 , 1 ] [0,1] [ 0 , 1 ] 的函数,然后SRM规则变为
a r g m i n h ∈ H [ L S ( h ) + − l o g ( w ( h ) ) + l o g ( 2 / ϵ ) 2 m ] . \underset {h\in\mathcal H}{argmin}\bigg[L_S(h)+\sqrt {\frac {-log(w(h))+log(2/\epsilon)}{2m}} \bigg]. h ∈ H a r g min [ L S ( h ) + 2 m − l o g ( w ( h )) + l o g ( 2/ ϵ ) ] .
因此,在这种情况下,先验知识完全由我们分配给每个假设的权重决定。我们将更高的权重分配给我们认为更可能是正确的假设,在学习算法中,我们更喜欢权重更高的假设。
在本节中,我们将讨论定义 H \mathcal H H 上的权函数的一种特别方便的方法,它是从对假设的描述长度中导出的。有了一个假设类,人们可能会想知道我们如何描述或表示类中的每个假设。我们自然会修改一些描述语言。这可以是英语,也可以是编程语言,或者是一些数学公式。在这些语言中的任何一种中,描述都由从固定字母表中提取的有限的符号(或字符)字符串组成。我们现在将这些概念正式化。
假设 H \mathcal H H 是我们想要描述的假设类。固定一些有限的符号集 ∑ \sum ∑ (或“字符”),我们称之为字母表。对于具体性,我们设 ∑ = { 0 , 1 } \sum=\{0,1\} ∑ = { 0 , 1 } 。字符串是从 ∑ \sum ∑ 开始的有限符号序列;例如,σ = ( 0 , 1 , 1 , 1 , 0 ) \sigma=(0,1,1,1,0) σ = ( 0 , 1 , 1 , 1 , 0 ) 是长度为5 5 5 的字符串。我们用 ∣ σ ∣ |\sigma| ∣ σ ∣ 表示字符串的长度。所有有限长字符串的集合表示为 ∑ ∗ \sum^* ∑ ∗ . H \mathcal H H 的描述语言是函数 d : H → ∑ ∗ d:\mathcal H\to\sum^* d : H → ∑ ∗ , 将 H \mathcal H H 的每个成员 h h h 映射到字符串 d ( h ) d(h) d ( h ) 。 d ( h ) d(h) d ( h ) 称为“ h h h 的描述”,其长度用 ∣ h ∣ |h| ∣ h ∣ 表示。
我们将要求描述语言无前缀;也就是说,对于每个不同的 h h h ,h ′ h\prime h ′ , d ( h ) d(h) d ( h ) 不是 d ( h ′ ) d(h\prime) d ( h ′ ) 的前缀。也就是说,我们不允许任何字符串 d ( h ) d(h) d ( h ) 恰好是任何更长字符串 d ( h ′ ) d(h\prime) d ( h ′ ) 的第一个 ∣ h ∣ | h | ∣ h ∣ 符号。无前缀字符串集合具有以下组合属性:
引理7.6(卡夫不等式) 如果 S ⊆ { 0 , 1 } ∗ S\subseteq \{0,1\}^* S ⊆ { 0 , 1 } ∗ 是一组没有前缀的字符串,则
∑ σ ∈ S 1 2 ∣ σ ∣ ≤ 1. \sum_{\sigma\in S}\frac{1}{2^{|\sigma|}}\le 1. σ ∈ S ∑ 2 ∣ σ ∣ 1 ≤ 1.
证明 定义 S S S 成员的概率分布如下:反复投掷一枚无偏硬币,正面标记为 0 0 0 和 1 1 1 ,直到结果序列为 S S S 成员;在那一点上,停下来。对于每个 σ ∈ S \sigma \in S σ ∈ S 、 设 P ( σ ) P(\sigma) P ( σ ) 为该过程生成字符串 σ \sigma σ 的概率。注意,因为 S S S 是无前缀的,所以对于每个 σ ∈ S \sigma \in S σ ∈ S 、 如果掷硬币的结果跟在 σ \sigma σ 后面,那么只有当结果序列等于 σ \sigma σ 时,我们才会停止。因此,对于每一个 σ ∈ S \sigma \in S σ ∈ S ,我们得到了 P ( σ ) = 1 2 ∣ σ ∣ P(\sigma) =\frac {1}{2^{|σ|}} P ( σ ) = 2 ∣ σ ∣ 1 。由于概率加起来最多为1,我们的证明就结束了。
根据卡夫不等式,假设类 H \mathcal H H 的任何无前缀描述语言都会在该假设类上产生一个加权函数 w w w 我们将简单地设置 w ( H ) = 1 2 ∣ h ∣ w(H)=\frac{1}{2^|h|} w ( H ) = 2 ∣ h ∣ 1 。这一观察结果立即得出以下结论:
定理7.7
设 H \mathcal H H 为假设类,设d : H → { 0 , 1 } ∗ d:\mathcal H\to \{0,1\}^∗ d : H → { 0 , 1 } ∗ 是 H \mathcal H H 的无前缀描述语言。然后,对于每个样本大小 m m m ,每个置信参数 δ > 0 \delta>0 δ > 0 ,每个概率分布 D \mathcal D D ,概率大于 1 − δ 1−\delta 1 − δ 关于 S ∼ D m S\sim \mathcal D^m S ∼ D m 的选择我们有,
∀ h ∈ H , L D ( h ) ≤ L S ( h ) + ∣ h ∣ + l n ( 2 / δ ) 2 m , \forall h\in \mathcal H,L_{\mathcal D}(h)\le L_S(h)+\sqrt\frac{|h|+ln(2/\delta)}{2m}, ∀ h ∈ H , L D ( h ) ≤ L S ( h ) + 2 m ∣ h ∣ + l n ( 2/ δ ) ,
其中 ∣ h ∣ |h| ∣ h ∣ 是 d ( h ) d(h) d ( h ) 的长度。
证明 选择 w ( H ) = 1 2 ∣ h ∣ w(H)=\frac{1}{2^|h|} w ( H ) = 2 ∣ h ∣ 1 ,应用定理7.4中的ϵ n ( m , δ ) = l n ( 2 / δ ) 2 m \epsilon_n(m,\delta)=\sqrt\frac{ln(2/\delta)}{2m} ϵ n ( m , δ ) = 2 m l n ( 2/ δ ) ,注意 l n ( 2 ∣ h ∣ ) = ∣ h ∣ l n ( 2 ) < ∣ h ∣ ln(2^{|h|})=|h| ln(2)<|h| l n ( 2 ∣ h ∣ ) = ∣ h ∣ l n ( 2 ) < ∣ h ∣ 。
与定理7.4的情况一样,这一结果表明了 H \mathcal H H 的学习范式——给定训练集 S S S ,搜索假设 h ∈ H h\in \mathcal H h ∈ H 的最小化界,L S ( h ) + ∣ h ∣ + l n ( 2 / δ ) 2 m L_S(h)+\sqrt\frac{|h|+ln(2/\delta)}{2m} L S ( h ) + 2 m ∣ h ∣ + l n ( 2/ δ ) 。特别是,它建议权衡经验风险以节省描述长度。这就产生了最小描述长度的学习范式。
最小描述长度(MDL) 先前知识:H \mathcal H H 是一个可数假设类H \mathcal H H 由 { 0 , 1 } \{0,1\} { 0 , 1 } 上的无前缀语言描述 对于所有h ∈ H h\in \mathcal H h ∈ H ,∣ h ∣ \mid h\mid ∣ h ∣ 是 h h h 长度的表示 输入:训练集 S ∼ D m S\sim D^m S ∼ D m ,置信度 δ \delta δ 输出:h ∈ a r g m i n h ∈ H [ L S ( h ) + ∣ h ∣ + l n ( 2 / ϵ ) 2 m ] . h\in argmin_{h\in\mathcal H}\bigg[L_S(h)+\sqrt {\frac {\mid h \mid+ln(2/\epsilon)}{2m}} \bigg]. h ∈ a r g mi n h ∈ H [ L S ( h ) + 2 m ∣ h ∣ + l n ( 2/ ϵ ) ] .
例7.3
让 H \mathcal H H 是所有预测的类,可以使用一些编程语言,例如C++来实现。让我们使用在程序上运行 gzip 命令所获得的二进制字符串来表示每个程序(在字母表 { 0 , 1 } \{0,1\} { 0 , 1 } 上生成一个无前缀的描述语言)。然后,∣ h ∣ \mid h \mid ∣ h ∣ 是在与 h h h 相对应的 c++ 程序上运行时 gzip 输出的长度(以位为单位)。
7.3.1奥卡姆剃刀
定理7.7
这表明,如果两个假设共享相同的经验风险,那么描述较短的假设的真实风险可以以较低的值为界。因此,这一结果可以被视为传达了一个哲学信息:
简短的解释(即长度较短的假设)往往比冗长的解释更有效。
这是一个众所周知的原则,称为奥卡姆剃刀,以14世纪英国逻辑学家奥卡姆的威廉(William of Ockham)的名字命名,他被认为是第一个明确表达这一原则的人。在这里,我们为这一原则提供了一个可能的理由。定理7.7的不等式表明,假设 h h h 越复杂(从描述时间越长的意义上讲),它必须适合的样本量就越大,以保证它具有较小的真实风险 L D ( h ) L_{\mathcal D}(h) L D ( h ) 。
再看一眼,我们的奥卡姆剃须刀声称似乎有点问题。在奥卡姆剃刀原理在科学中通常被调用的上下文中,根据其复杂性被测量的语言是自然语言,而这里我们可以考虑任何抽象的抽象描述语言。假设我们有两个假设 ∣ h ′ ∣ \mid h^\prime \mid ∣ h ′ ∣ 比∣ h ∣ \mid h \mid ∣ h ∣ 小得多。根据前面的结果,如果两者在给定的训练集 S S S 上具有相同的误差,那么 ∣ h ∣ \mid h \mid ∣ h ∣ 的真实误差可能远高于 ∣ h ′ ∣ \mid h^\prime \mid ∣ h ′ ∣ 的真实误差,因此人们应该更喜欢 ∣ h ′ ∣ \mid h^\prime \mid ∣ h ′ ∣ 而不是 ∣ h ∣ \mid h \mid ∣ h ∣ 。然而,我们可以选择一种不同的描述语言,比如,将长度为3 3 3 的字符串指定给 h h h ,将长度为100000的字符串指定给 h ′ h^\prime h ′ 。突然之间,人们似乎更喜欢 h h h 而不是 h ′ h^\prime h ′ 。但是这些都是相同的 h h h 和 h ′ h^\prime h ′ ,我们在两句话之前争论过 h ′ h^\prime h ′ 应该更可取。这里的陷阱在哪里?
事实上,假设之间没有内在的普遍性差异。这里的关键方面是初始语言选择(或偏好于假设)和训练集之间的依赖顺序。正如我们从基本Hoeffding界(方程式(4.2))中所知道的,如果我们在看到数据之前做出任何假设,那么我们可以保证有一个相当小的估计误差项 L D ( h ) ≤ L S ( h ) + l n ( 2 / δ ) 2 m L_{\mathcal D}(h)\le L_S(h)+\sqrt\frac{ln(2/\delta)}{2m} L D ( h ) ≤ L S ( h ) + 2 m l n ( 2/ δ ) 。选择一种描述语言(或者,等价地,对假设进行某种加权)是承诺假设的一种弱形式。我们并没有承诺一个假设,而是将我们的承诺分散到许多人当中。只要它是独立于训练样本进行的,我们的泛化界就成立。正如选择由样本评估的单个假设可以是任意的一样,选择描述语言也是任意的。
7.4可学习性的其他概念——一致性
通过允许所需样本量不仅取决于ϵ 、 δ 、 h \epsilon、\delta、h ϵ 、 δ 、 h ,而且还取决于生成概率分布 D \mathcal D D (用于生成训练样本和确定风险)的基础数据,可以进一步放宽可学习性的概念。这种类型的性能保证是通过学习规则的一致性概念来实现的。
定义7.8(一致性)
设 Z Z Z 是一个域集, P P P 是 Z Z Z 上的一组概率分布,H \mathcal H H 是一个假设类。如果存在函数m H C O N : ( 0 , 1 ) 2 × H × P → N m_{\mathcal H}^{CON}:(0,1)^2\times \mathcal H\times P\to\mathbb N m H CON : ( 0 , 1 ) 2 × H × P → N ,则学习规则 A A A 与 H H H 和 P P P 一致,对于每一个ϵ , δ ∈ ( 0 , 1 ) \epsilon ,\delta \in(0,1) ϵ , δ ∈ ( 0 , 1 ) ,每个 h ∈ H h\in H h ∈ H 、所有D ∈ P \mathcal D \in P D ∈ P 、 如果m ≥ m H N U L ( ϵ , δ , h , D ) m\ge m^{NUL}_{\mathcal H}(\epsilon,\delta,h,\mathcal D) m ≥ m H N UL ( ϵ , δ , h , D ) ,则概率至少为 1 − δ 1−\delta 1 − δ 关于S ∼ D m S\sim \mathcal D^m S ∼ D m 的选择,它认为
L D ( A ( S ) ) ≤ L D ( h ) + ϵ . L_\mathcal D(A(S))\le L_\mathcal D(h)+\epsilon. L D ( A ( S )) ≤ L D ( h ) + ϵ .
如果 P P P 是所有分布的集合2 ^2 2 ,我们说 A A A 对于 H H H 是普遍一致的。
当然,一致性的概念是对我们以前的非一致可学习性概念的放松。显然,如果一个算法非均匀地学习一个类 H \mathcal H H ,它对该类也是普遍一致的。放松是严格的,因为有一致的学习规则,而这些规则不是成功的非一致学习者。例如,在后面的示例7.4中定义的算法Memory对于 N \mathbb N N 上的所有二进制分类器类来说是一致的。但是,正如我们之前所讨论的,这个类不是非均匀可学习的。
示例7.4
考虑如下定义的分类预测算法记忆。该算法存储训练示例,并在给定测试点 x x x 的情况下,预测训练样本中存在的所有标记的 x x x 实例中的多数标签(如果训练集中没有出现 x x x 实例,则预测一些固定的默认标签)。可以证明(参见练习6),对于每个可数域 X X X 和有限标签集 Y Y Y (谈及零一损失),记忆算法是普遍一致的。
直观地说,记忆算法是否应该被视为学习者并不明显,因为它缺乏泛化的方面,即使用观察到的数据来预测看不见的例子的标签。事实上,对于任何可数域集合上的所有函数类来说,记忆是一个一致的算法,因此对一致性保证的有用性提出了质疑。此外,目光敏锐的读者可能会注意到我们在第 2 2 2 章中介绍的导致过度拟合的“坏学习者”,实际上是记忆算法。在下一节中,我们将讨论可学习性的不同概念的意义,并根据可学习性的不同定义,重新讨论不免费午餐定理。
1.在文献中,一致性通常使用概率收敛(对应于弱一致性)或几乎确定收敛(对应于强一致性)的概念来定义。
2.通常,我们假设Z被赋予了一些子集的西格玛代数Ω, 我们所说的“所有分布”是指所有具有Ω 包含在其相关的可测量子集族中。
7.5讨论可学习性的不同概念
我们给出了可学习性的三个定义,现在讨论它们的有用性。通常情况下,数学定义的有用性取决于我们需要它做什么。因此,我们列出了通过定义可学习性来实现的几个可能目标,并根据这些目标讨论了不同定义的有用性。
所学假设的风险是什么?
推导学习算法性能保证的第一个可能目标是限制输出预测器的风险。在这里,PAC学习和非均匀学习都为我们提供了基于经验风险的学习假设的真实风险上界。一致性保证不提供这样的界限。然而,始终可以使用验证集(如第11章所述)来估计输出预测器的风险。
需要多少个例子才能与 H \mathcal H H 中的最佳假设一样好?
当处理一个学习问题时,一个自然的问题是我们需要收集多少个例子来学习它。这里,PAC学习给出了一个清晰的答案。然而,对于非均匀学习和一致性,我们事先不知道学习 H \mathcal H H 需要多少个示例。在非均匀学习中,这个数字取决于 H \mathcal H H 中的最佳假设,在一致性中,它还取决于基本分布。从这个意义上说,PAC学习是唯一有用的可学习性定义。另一方面,我们应该记住,即使我们学习的预测器的估计误差很小,如果 H \mathcal H H 具有较大的近似误差,其风险也可能很大。因此,对于“需要多少个例子才能与Bayes最优预测值一样好”的问题,即使是PAC担保也不能为我们提供清晰的答案。这反映了PAC学习的有用性依赖于我们先前知识的质量这一事实。
PAC保证还可以帮助我们理解,如果我们的学习算法返回一个具有很大风险的假设,我们下一步应该做什么,因为我们可以限制由估计误差引起的误差部分,从而知道有多少误差归因于近似误差。如果近似误差很大,我们知道应该使用不同的假设类。同样,如果一个非均匀算法失败,我们可以考虑不同的加权函数(子集)的假设。然而,当一致性算法失败时,我们不知道这是因为估计误差还是近似误差。此外,即使我们确定估算误差项存在问题,我们不知道要使估计误差变小还需要多少示例。
如何学习?如何表达先前的知识?
也许学习理论最有用的方面是回答“如何学习”的问题。PAC 学习的定义产生了学习的局限性(通过非免费午餐定理)和先验知识的必要性。它通过选择一个假设类为我们提供了一种清晰的编码先验知识的方法,一旦做出了这个选择,我们就有了一个通用的学习规则——ERM。非均匀可学习性的定义还提供了一种通过指定 H \mathcal H H 假设(子集)的权重对先验知识进行编码的清晰方法。一旦做出此选择,我们又有了一个通用的学习规则–SRM。SRM 规则在模型选择任务中也有优势,因为先验知识是部分的。我们在第11章详细阐述了模型选择,这里我们给出了一个简单的例子。
考虑将一维多项式拟合到数据的问题;也就是说,我们的目标是学习一个函数 h : R → R h:\mathbb R\to\mathbb R h : R → R ,作为先验知识,我们考虑多项式的假设类。然而,我们可能无法确定哪种程度的d会给我们的数据集带来最好的结果:小程度的 d d d 可能无法很好地拟合数据(即,它会有很大的近似误差),而高程度的 d d d 可能会导致过度拟合(即,它会有很大的估计误差)。在下文中,我们描述了将 2 2 2 、3 3 3 和 10 10 10 次多项式拟合到同一训练集的结果。
很容易看出,经验风险随着程度的增大而降低。因此,如果我们选择 H H H 作为所有 10 10 10 次多项式的类,那么关于该类的 ERM 规则将输出一个 10 10 10 次多项式,并且将过拟合。另一方面,如果我们选择的假设类别太小,例如,高达 2 2 2 次的多项式,则 ERM 将遭受拟合不足(即,较大的近似误差)。相比之下,我们可以在所有多项式集合上使用 SRM 规则,同时根据 H \mathcal H H 子集的阶数对其排序,这将产生一个三次多项式,因为其经验风险和其估计误差的界的组合最小。换句话说,SRM 规则使我们能够根据数据本身选择正确的模型。我们为这种灵活性付出的代价(除了相对于PAC学习关于最佳程度的估计误差略有增加外)是,我们事先不知道需要多少示例来与 H \mathcal H H 中的最佳假设竞争。
与PAC可学习性和非均匀可学习性的概念不同,一致性的定义不会产生自然的学习范式或编码先验知识的方法。事实上,在许多情况下,根本不需要事先知道。例如,我们看到,即使是记忆算法(直观上不应称为学习算法),对于定义在可数域和有限标签集上的任何类,也是一致的算法。这暗示一致性是一个非常弱的要求。
我们应该选择哪种学习算法?
有人可能会说,即使一致性是一个较弱的要求,学习算法对于从 X \mathcal X X 到 Y \mathcal Y Y 的所有函数集也是一致的,这为我们提供了一个保证,即对于足够多的训练示例,我们将始终与贝叶斯最优预测器一样好。因此,如果我们有两个算法,其中一个是一致的,另一个是不一致的,我们应该选择一致的算法。然而,出于两个原因,这个论点是有问题的。首先,对于大多数“自然”分布,我们可能会在实践中观察到一致性算法的样本复杂度非常大,以至于在每种实际情况下,我们都无法获得足够的样本来享受这种保证。第二,对于任何一个从 X \mathcal X X 到Y的函数的类来说,任何PAC或不一致的学习者都不难。具体地,考虑可数域 X \mathcal X X ,有限标签集 Y \mathcal Y Y 和假设类 H \mathcal H H ,从 X \mathcal X X 到 Y \mathcal Y Y 的函数。我们可以使用以下简单技巧使 H \mathcal H H 的任何非均匀学习者与从 X \mathcal X X 到 Y \mathcal Y Y 的所有分类器的类别一致:在接收到训练集后,我们将首先在训练集上运行非均匀学习者,然后我们将获得学习预测器的真实风险的界。如果这个界限足够小,我们就完成了。否则,我们返回到记忆算法。这一简单的修改使得算法在从 X \mathcal X X 到 Y \mathcal Y Y 的所有函数上都保持一致。由于任何算法都很容易保持一致,因此,仅仅出于一致性考虑,选择一种算法而不是另一种算法可能是不明智的。
7.5.1重新审视“无免费午餐”原则
回想一下,无免费午餐定理(第5章的定理5.1)意味着没有算法可以在无限域上学习所有分类器的类。相比之下,在本章中,我们看到记忆算法与可数无限域上的所有分类器类是一致的。为了理解为什么这两种说法并不相互矛盾,让我们首先回顾一下“没有免费午餐定理”的正式说法。
设 X \mathcal X X 为可数无限域, Y = { ± 1 } \mathcal Y =\{±1\} Y = { ± 1 } 。无免费午餐定理意味着:对于任何算法 A A A 和训练集大小 m m m ,存在 X \mathcal X X 上的分布和函数 h ∗ : X → Y h^*: \mathcal X\to\mathcal Y h ∗ : X → Y 、 如果将获得一个用 h ∗ h^* h ∗ 标记的独立同分布训练示例样本m m m ,然后 A A A 可能返回一个错误更大的分类器。
记忆的一致性意味着:对于 X \mathcal X X 上的每个分布和一个标记函数 h ∗ : X → Y h^*: \mathcal X\to\mathcal Y h ∗ : X → Y 、 存在一个大小为 m m m 的训练集(取决于分布和 h ∗ h^* h ∗ ),这样,如果Memory接收到至少 m m m 个示例,它很可能返回一个带有小错误的分类器。
我们看到,在无免费午餐定理中,我们首先确定训练集的大小,然后找到一个对这个训练集大小不利的分布和标签函数。相反,在一致性保证中,我们首先确定分布和标记函数,然后才找到一个训练集大小,足以学习这个特定的分布和标记函数。
7.6摘要
我们将非均匀可学习性引入PAC可学习性的松弛,将一致性引入非均匀可学习性的松弛。这意味着即使是无限维VC的类也可以学习,在某种较弱的可学习性意义上。我们讨论了可学习性的不同定义的有用性。
对于可数的假设类,我们可以应用最小描述长度方案,其中根据奥卡姆剃刀的原理,具有较短描述的假设是首选的。有趣的例子是我们可以在 C++ (或任何其他编程语言)中实现的所有预测因子的假设类,我们可以使用 MDL 方案来学习(非均匀)。
我们可以在 C++ 中实现的所有预测器都是一个功能强大的类,并且可能包含我们希望在实践中学习的所有知识。学习这门课的能力令人印象深刻,似乎这一章应该是本书的最后一章。事实并非如此,因为学习的计算方面:即应用学习规则所需的运行时。例如,为了实现所有 C++ 程序的 MDL 范例,我们需要对所有 C++ 程序进行详尽的搜索,这将永远持续下去。即使在所有 1000 1000 1000 个比特的描述长度的所有C++程序的实现中,ERM范式都需要对 2 1000 2^{1000} 2 1000 个假设进行穷举搜索。虽然学习该类的示例复杂性仅为 1000 + l o g ( 2 / δ ) ϵ 2 \frac{1000+log(2/\delta)}{\epsilon^2} ϵ 2 1000 + l o g ( 2/ δ ) ,但运行时是 ≤ 2 1000 \le 2^{1000} ≤ 2 1000 这是一个巨大的数字——远大于可见宇宙中的原子数量。在下一章中,我们将正式定义学习的计算复杂性。在本书的第二部分中,我们将研究可以有效实施 ERM 或 SRM 方案的假设类。
7.7书目备注
我们对非均匀可学习性的定义与Blumer、Ehrenfeucht、Haussler&Warmuth(1987)中OCCAM算法的定义有关。SRM的概念源于(Vapnik&Chervonenkis 1974,Vapnik 1995)。MDL的概念是由于(Rissanen 1978,Rissanen 1983)。Vapnik(1995)讨论了SRM和MDL之间的关系。这些概念也与正规化概念密切相关(例如Tikhonov(1943))。
我们将在本书的第二部分详细介绍正则化。估计量一致性的概念可以追溯到 Fisher(1922)。我们对一致性的介绍遵循了 Steinwart&Christmann(2008),他还导出了几个不免费午餐定理。
7.8练习
证明对于任何有限类 H \mathcal H H 和任何描述语言 d : H → { 0 , 1 } ∗ d:H\to\{0,1\}^∗ d : H → { 0 , 1 } ∗ , H \mathcal H H 的VC维数最多为 2 s u p { ∣ d ( h ) ∣ : h ∈ H } 2sup\{|d(h)| :h\in \mathcal H\} 2 s u p { ∣ d ( h ) ∣ : h ∈ H } –预测器的最大描述长度,单位为 H \mathcal H H 。此外,如果 d d d 是无前缀描述,则V C d i m ( H ) ≤ s u p { ∣ d ( h ) ∣ : h ∈ H } VCdim(H)\le sup\{|d(h)| :h\in \mathcal H\} V C d im ( H ) ≤ s u p { ∣ d ( h ) ∣ : h ∈ H } 。
设 H = { h n : n ∈ N } \mathcal H=\{h_n:n\in \mathbb N\} H = { h n : n ∈ N } 是二元分类的无限可数假设类。表明不可能为设 H \mathcal H H 是二元分类的无限可数假设类。表明不可能为 H \mathcal H H 中的假设分配权重,从而中的假设分配权重,从而
使用这些权重可以不均匀地学习 H \mathcal H H 。即,加权函数 w : H → [ 0 , 1 ] w:\mathcal H\to [0,1] w : H → [ 0 , 1 ] 应满足条件∑ h ∈ H w ( h ) ≤ 1 \sum_{h\in \mathcal H}w(h)\le 1 ∑ h ∈ H w ( h ) ≤ 1 .
权重将是单调不变的。也就是说,如果 i < j i<j i < j ,那么 w ( h i ) ≤ w ( h j ) w(h_i)\le w(h_j) w ( h i ) ≤ w ( h j )
考虑一个假设类 H = ⋃ n = 1 ∞ \mathcal H= \bigcup_{n=1}^\infty H = ⋃ n = 1 ∞ ,其中每 n ∈ N n\in \mathbb N n ∈ N 、 H n \mathcal H_n H n 是有限的。求加权函数 w : H → [ 0 , 1 ] w:\mathcal H\to[0,1] w : H → [ 0 , 1 ] 这样 ∑ h ∈ H w ( h ) ≤ 1 \sum_{h\in\mathcal H}w(h)\le 1 ∑ h ∈ H w ( h ) ≤ 1 因此,对于所有 h ∈ H h\in\mathcal H h ∈ H 、 w ( h ) w(h) w ( h ) 由 n ( h ) = m i n { n : h ∈ H n } n(h)=min\{n:h\in\mathcal H_n\} n ( h ) = min { n : h ∈ H n } 和 ∣ H n ( h ) ∣ |\mathcal H_{n(h)}| ∣ H n ( h ) ∣ 确定。
(*) 定义这样一个函数 w w w ,当所有的 H n \mathcal H_n H n 是可数的(可能是无限的)。
设 H \mathcal H H 为某个假设类。对于任何 h ∈ H h\in\mathcal H h ∈ H 、 根据某种固定的描述语言,设 ∣ H ∣ | H | ∣ H ∣ 表示 H \mathcal H H 的描述长度。考虑MDL学习范例,在该范例中算法返回:
h S ∈ a r g m i n h ∈ H [ L S ( h ) + ∣ h ∣ + l n ( 2 / δ ) 2 m ] , h_S\in arg\underset {h\in\mathcal H}{min}\Big[L_S(h)+\sqrt{\frac{|h|+ln(2/\delta)}{2m}}\Big], h S ∈ a r g h ∈ H min [ L S ( h ) + 2 m ∣ h ∣ + l n ( 2/ δ ) ] ,
其中 S S S 是尺寸为 m m m 的样本。对于任何 B > 0 B>0 B > 0 ,设 H B = h ∈ H : ∣ h ∣ ≤ B \mathcal H_B={h\in\mathcal H:|h|\le B} H B = h ∈ H : ∣ h ∣ ≤ B ,并定义
h B ∗ = a r g m i n h ∈ H B L D ( h ) . h^*_B=arg\underset {h\in\mathcal H_B}{min}L_D(h). h B ∗ = a r g h ∈ H B min L D ( h ) .
证明 L D ( h S ) − L D ( h B ∗ ) L_D(h_S)−L_D(h^∗_B) L D ( h S ) − L D ( h B ∗ ) 上关于B的一个界,置信参数 δ \delta δ 和训练集 m m m 的大小。
注意:这种界限在文献中被称为oracle不等式:我们希望估计我们与参考分类器(或“oracle”)h B ∗ h^∗_B h B ∗ 相比有多好
在这个问题中,我们希望展示一个非均匀可学习性的非免费午餐结果:即,在任何无限域上,所有函数的类即使在松弛的非均匀学习变化下也不可学习。
回想一下,如果存在函数m H N U L : ( 0 , 1 ) 2 × H → N m^{NUL}_\mathcal H:(0,1)^2\times\mathcal H\to\mathbb N m H N UL : ( 0 , 1 ) 2 × H → N ,则算法 A A A 非均匀地学习假设类 H \mathcal H H ,对于每一个ϵ , δ ∈ ( 0 , 1 ) \epsilon,\delta\in (0,1) ϵ , δ ∈ ( 0 , 1 ) 和对于所有h ∈ H h\in\mathcal H h ∈ H 、 如果 m ≥ m H N U L ( ϵ , δ , H ) m≥ m^{NUL}_\mathcal H(\epsilon,\delta,\mathcal H) m ≥ m H N UL ( ϵ , δ , H ) ,则对于每个分布 D \mathcal D D ,概率至少为 1 − δ 1− \delta 1 − δ 关于 S ∼ D m S\sim D^m S ∼ D m 的选择,它认为
L D ( A ( S ) ) ≤ L D ( h ) + ϵ L_\mathcal D(A(S))\le L_\mathcal D(h)+\epsilon L D ( A ( S )) ≤ L D ( h ) + ϵ
如果这样的算法存在,那么我们说 H \mathcal H H 是非均匀可学习的。
让 A A A 成为 H \mathcal H H 类的非均匀学习者。对于每个n ∈ N n\in\mathbb N n ∈ N 定义 H n A = { h ∈ H : m N U L ( 0.1 , 0.1 , H ) ≤ n } \mathcal H^A_n=\{h\in\mathcal H:m^{NUL}(0.1,0.1,\mathcal H)\le n\} H n A = { h ∈ H : m N UL ( 0.1 , 0.1 , H ) ≤ n } 。证明每一类H n \mathcal H_n H n VC维数都是有限的。
证明如果一个类 H \mathcal H H 是非均匀可学习的,那么就存在类 H n \mathcal H_n H n ,使得 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in\mathbb N} \mathcal H_n H = ⋃ n ∈ N H n ,对于所有 n ∈ N n\in\mathbb N n ∈ N 、 VCdim ( H n ) (\mathcal H_n) ( H n ) 是有限的。
设 H \mathcal H H 是一个打破无限集的类。然后,对于每个类序列 ( H n : n ∈ N ) (\mathcal H_n:n\in\mathbb N) ( H n : n ∈ N ) 使得 H = ⋃ n ∈ N H n \mathcal H=\bigcup _{n\in\mathbb N} \mathcal H_n H = ⋃ n ∈ N H n ,存在一些 n n n 对于 VCdim ( H n ) = ∞ (\mathcal H_n)=\infty ( H n ) = ∞ .
提示:给定一个类 H \mathcal H H ,它打碎了一些无限集 K K K ,以及一系列类( H n : n ∈ N ) (\mathcal H_n:n\in\mathbb N) ( H n : n ∈ N ) ,每个都有一个有限的VC维,从定义子集 K n ⊆ K K_n\subseteq K K n ⊆ K 开始,对于所有 n n n ,∣ K n ∣ > V C d i m ( H n ) |K_n|>VCdim(\mathcal H_n) ∣ K n ∣ > V C d im ( H n ) ,对于任何n ≠ m n\neq m n = m ,K n ∩ K m = ∅ K_n\cap K_m=\empty K n ∩ K m = ∅ . 现在,为每个这样的K n Kn K n 选择一个函数f n : K n → { 0 , 1 } f_n:K_n\to \{0,1\} f n : K n → { 0 , 1 } 所以没有h ∈ H n h\in\mathcal H_n h ∈ H n 与域K n K_n K n 上的 f n f_n f n 一致。最后,定义f : X → { 0 , 1 } f:X\to\{0,1\} f : X → { 0 , 1 } 通过组合这些 f n f_n f n 并证明 f ∈ ( H ∖ ⋃ n ∈ N H n ) f\in(\mathcal H\setminus \bigcup_{n\in\mathbb N}\mathcal H_n) f ∈ ( H ∖ ⋃ n ∈ N H n ) 。
构造一个从单位区间[ 0 , 1 ] [0,1] [ 0 , 1 ] 到{ 0 , 1 } \{0,1\} { 0 , 1 } 的函数类H 1 \mathcal H_1 H 1 ,它是非均匀可学习但不是PAC可学习的。
构造一个从单位区间[ 0 , 1 ] [0,1] [ 0 , 1 ] 到{ 0 , 1 } \{0,1\} { 0 , 1 } 的类函数H 2 H_2 H 2 ,它不是非均匀可学习的。
在这个问题中,我们希望证明算法Memory对于任何可数域上的每一类(二值)函数都是一个一致的学习者。设 X \mathcal X X 为可数域,D \mathcal D D 为 X \mathcal X X 上的概率分布。
设{ x i : i ∈ N } \{x_i:i\in\mathbb N\} { x i : i ∈ N } 是X \mathcal X X 元素的枚举,因此对于所有i ≤ j i\le j i ≤ j 、 D ( { x i } ) ≤ D ( { x j } ) \mathcal D(\{x_i\})\le \mathcal D(\{x_j\}) D ({ x i }) ≤ D ({ x j }) 。证明
l i m n → ∞ ∑ i ≥ n D ( { x i } ) = 0. \underset {n\to\infty}{lim}\sum_{i\ge n}\mathcal D(\{x_i\})=0. n → ∞ l im i ≥ n ∑ D ({ x i }) = 0.
给出任何 ϵ > 0 \epsilon>0 ϵ > 0 证明存在ϵ D > 0 \epsilon_D>0 ϵ D > 0 ,从而
D ( { x ∈ X : D ( { x } ) < ϵ D } ) < ϵ . \mathcal D(\{x\in\mathcal X:\mathcal D(\{x\})<\epsilon_D\})<\epsilon. D ({ x ∈ X : D ({ x }) < ϵ D }) < ϵ .
证明对于所有 η > 0 \eta > 0 η > 0 ,如果 n n n 对于所有 i > n i>n i > n 是 D ( { x i } ) < η D(\{x_i\})<\eta D ({ x i }) < η ,那么对于所有 m ∈ N m\in\mathbb N m ∈ N ,
P S ∼ D m [ ∃ x i : ( D ( { x i } ) > η 和 x i ∉ S ) ] ≤ n e − η m . \underset {S\sim\mathcal D^m}{\mathbb P}[\exist x_i:(D(\{x_i\})>\eta 和x_i\notin S)]\le ne^{-\eta m}. S ∼ D m P [ ∃ x i : ( D ({ x i }) > η 和 x i ∈ / S )] ≤ n e − η m .
得出结论,如果 X \mathcal X X 是可数的,那么对于 X \mathcal X X 上的每个概率分布 D \mathcal D D ,存在一个函数m D : ( 0 , 1 ) × ( 0 , 1 ) → N m_\mathcal D:(0,1)\times(0,1)\to\mathbb N m D : ( 0 , 1 ) × ( 0 , 1 ) → N 那么对于每一个ϵ , δ > 0 \epsilon,\delta >0 ϵ , δ > 0 如果m > m D ( ϵ , δ ) m>m_\mathcal D(\epsilon,\delta) m > m D ( ϵ , δ ) ,
P S ∼ D m [ D ( { x : x ∉ S } ) > ϵ ] < δ . \underset {S\sim\mathcal D^m}{\mathbb P}[\mathcal D(\{x:x\notin S\})>\epsilon]<\delta . S ∼ D m P [ D ({ x : x ∈ / S }) > ϵ ] < δ .
证明了对于任何可数域上的每一类(二值)函数,Memory都是一个一致的学习者。