6 VC维
在前一章中,我们将 E R M H ERM_\mathcal H ER M H 规则的误差分解为近似误差和估计误差。近似误差取决于我们的先验知识(通过选择假设类别 H \mathcal H H 反映)与潜在未知分布的拟合程度。相反,PAC可学习性的定义要求估计误差在所有分布上一致有界。
我们当前的目标是找出哪些类 H \mathcal H H 是PAC可学习的,并准确描述学习给定假设类的样本复杂性。到目前为止,我们已经看到有限类是可以学习的,但是所有函数的类(在无限大小的域上)不是。是什么让一门课可以学而另一门课不能学?无限大小的类是否可以学习,如果可以,是什么决定了它们的样本复杂性?
我们在本章的开头展示了无限类确实是可以学习的,因此,假设类的有限性不是可学习性的必要条件。然后,我们提出了一个非常清晰的特征家庭的可学习类的设置二值分类与零一损失。这一特征最早由弗拉基米尔·瓦普尼克(Vladimir Vapnik)和阿列克谢·切沃嫩基斯(Alexey Chervonenkis)于1970年发现,并依赖于一个称为瓦普尼克·切沃嫩基斯维度(VC维度)的组合概念。我们正式定义了VC维,给出了几个例子,然后阐述了统计学习理论的基本定理,它集成了可学习性、VC维、ERM规则和一致收敛的概念。
6.1: 无限大小的类是可以学习的
在第 四 章中,我们看到有限类是可学习的,事实上,假设类的样本复杂性是由其大小的对数上界的。为了证明假设类的大小不是其样本复杂性的正确表征,我们首先给出一个可学习的无限大小假设类的简单示例。
例 6.1 设 H \mathcal H H 是实线上的阈值函数集,即 H = { h a : a ∈ R } \mathcal H=\{h_a:a\in\mathbb R\} H = { h a : a ∈ R } ,其中 h a : R → { 0 , 1 } h_a:\mathbb R\to\{0,1\} h a : R → { 0 , 1 } 是 h a ( x ) = 1 [ x < a ] h_a(x)=1_{[x<a]} h a ( x ) = 1 [ x < a ] 的函数。为了提醒读者,如果 x < a x<a x < a 则 1 [ x < a ] \mathbb 1_{[x<a]} 1 [ x < a ] 为1否则为0。毫无疑问, H \mathcal H H 是无穷大的尺寸。然而,下面的引理表明,在使用ERM算法的PAC模型中 H \mathcal H H 是可学习的。
引理 6.1: 设 H \mathcal H H 为前面定义的阈值类。 H \mathcal H H 为PAC可学习,采用ERM规则,样本复杂度为 m H ( ϵ , δ ) ≤ [ log ( 2 / δ ) / ϵ ] m_\mathcal H(\epsilon,\delta)\le[\log(2/\delta)/\epsilon] m H ( ϵ , δ ) ≤ [ log ( 2/ δ ) / ϵ ] 。
证明: 设 a ∗ a^* a ∗ 是使假设 h ∗ ( x ) = 1 x < a ∗ h^*(x)=\mathbb 1_{x<a^*} h ∗ ( x ) = 1 x < a ∗ 达到 L D ( h ∗ ) = 0 L_\mathcal D(h^*)=0 L D ( h ∗ ) = 0 的阈值。设 D x \mathcal D_x D x 是 X \mathcal X X 域上的边际分布,同时设 a 0 < a ∗ < a 1 a_0<a^*<a_1 a 0 < a ∗ < a 1 为:
P x ∼ D x [ x ∈ ( a 0 , a ∗ ) ] = P x ∼ D x [ x ∈ ( a ∗ , a 1 ) ] = ϵ . \underset{x\sim\mathcal D_x}{\mathbb P}[x\in(a_0,a^*)]=\underset{x\sim\mathcal D_x}{\mathbb P}[x\in(a^*,a_1)]=\epsilon. x ∼ D x P [ x ∈ ( a 0 , a ∗ )] = x ∼ D x P [ x ∈ ( a ∗ , a 1 )] = ϵ .
(如果是 D x ( − ∞ , a ∗ ) ≤ ϵ \mathcal D_x(-\infty,a^*)\le\epsilon D x ( − ∞ , a ∗ ) ≤ ϵ ,我们设 a 0 = − ∞ a_0=-\infty a 0 = − ∞ , a 1 a_1 a 1 也一样)。给定一个训练集 S S S ,设 b 0 = max { x : ( x , 1 ) ∈ ∈ S } b_0=\max\{x: (x,1)∈\in S\} b 0 = max { x : ( x , 1 ) ∈∈ S } , b 1 = min { x : ( x , 0 ) ∈ S } b_1=\min\{x: (x,0)\in S\} b 1 = min { x : ( x , 0 ) ∈ S } (如果 S S S 中没有例子为正,则设 b 0 = − ∞ b_0=−\infty b 0 = − ∞ ;如果 S S S 中没有例子为负,则设 b 1 = ∞ b_1=\infty b 1 = ∞ )。设 b S b_S b S 是一个阈值,对应于ERM假设 h S h_S h S ,这意味着 b S ∈ ( b 0 , b 1 ) b_S\in(b_0, b_1) b S ∈ ( b 0 , b 1 ) 。因此, L D ( h S ) ≤ ϵ L_\mathcal D(h_S)\le\epsilon L D ( h S ) ≤ ϵ 的一个充分条件是 b 0 ≥ a 0 b_0\ge a_0 b 0 ≥ a 0 和 b 1 ≤ a 1 b_1\le a_1 b 1 ≤ a 1 同时存在。换句话说,
P S ∼ D m [ L D ( h S ) > ϵ ] ≤ P S ∼ D m [ b 0 < a 0 ∨ b 1 > a 1 ] , \underset{S\sim\mathcal D^m}{\mathbb P}[L_\mathcal D(h_S)>\epsilon]\le\underset{S\sim\mathcal D^m}{\mathbb P}[b_0<a_0\vee b_1>a_1], S ∼ D m P [ L D ( h S ) > ϵ ] ≤ S ∼ D m P [ b 0 < a 0 ∨ b 1 > a 1 ] ,
使用联合边界,我们可以通过
P S ∼ D m [ L D ( h S ) > ϵ ] ≤ P S ∼ D m [ b 0 < a 0 ] + P S ∼ D m [ b 1 > a 1 ] . ( 6.1 ) \underset{S\sim\mathcal D^m}{\mathbb P}[L_\mathcal D(h_S)>\epsilon]\le\underset{S\sim\mathcal D^m}{\mathbb P}[b_0<a_0]+\underset{S\sim\mathcal D^m}{\mathbb P}[b_1>a_1].\qquad\qquad\qquad(6.1) S ∼ D m P [ L D ( h S ) > ϵ ] ≤ S ∼ D m P [ b 0 < a 0 ] + S ∼ D m P [ b 1 > a 1 ] . ( 6.1 )
事件 b 0 < a 0 b_0<a_0 b 0 < a 0 发生的当且仅当 S S S 中的所有示例都不在该区间 ( a 0 , a ∗ ) (a_0,a^∗) ( a 0 , a ∗ ) 中,其概率质量定义为 ϵ \epsilon ϵ ,即:
P S ∼ D m [ b 0 < a 0 ] = P S ∼ D m [ ∀ ( x , y ) ∈ S , x ∉ ( a 0 , a ∗ ) ] = ( 1 − ϵ ) m ≤ e − ϵ m . \underset{S\sim\mathcal D^m}{\mathbb P}[b_0<a_0]=\underset{S\sim\mathcal D^m}{\mathbb P}[\forall(x,y)\in S,x\notin(a_0,a^*)]=(1-\epsilon)^m\le e^{-\epsilon m}. S ∼ D m P [ b 0 < a 0 ] = S ∼ D m P [ ∀ ( x , y ) ∈ S , x ∈ / ( a 0 , a ∗ )] = ( 1 − ϵ ) m ≤ e − ϵ m .
因为我们假设 m > log ( 2 / δ ) / ϵ m>\log(2/\delta)/\epsilon m > log ( 2/ δ ) / ϵ ,所以方程最大是 δ / 2 δ/2 δ /2 。同样,很容易看出 P S ∼ D m [ b 1 > a 1 ] ≤ δ / 2 \mathbb P_{S\sim\mathcal D^m}[b_1>a_1]\le\delta/2 P S ∼ D m [ b 1 > a 1 ] ≤ δ /2 。结合(6.1)式,我们得出了证明。
6.2 VC维
因此,我们看到,虽然 H \mathcal H H 的有限性是易学性的充分条件,但不是必要条件。正如我们将要展示的,假设类的VC维属性给出了它的可学习性的正确表征。为了推动vc维的定义,让我们回忆一下No-FreeLunch定理(定理5.1)及其证明。在这里,我们已经证明,在不限制假设类的情况下,对于任何学习算法,对手都可以构建一个学习算法表现较差的分布,而另一个学习算法将在相同的分布上成功。为此,对手使用有限集 C ⊂ X C\subset\mathcal X C ⊂ X ,并考虑集中在 C C C 元素上的一系列分布。每个分布都是从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的“真”目标函数导出的。为了使任何算法失败,对手使用了从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的所有可能函数集中选择目标函数的能力。
当考虑假设类 H \mathcal H H 的PAC可学习性时,对手被限制在构造某个假设 h ∈ H h\in\mathcal H h ∈ H 达到零风险的分布。由于我们考虑的分布集中在 C C C 的元素上,我们应该研究 H \mathcal H H 在 C C C 上的行为,这导致了下面的定义。
定义 6.2( H \mathcal H H 对 C C C 的限制): 设 H \mathcal H H 是从 X \mathcal X X 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的一类函数,以及设 C ⊂ { c 1 , . . . , c m } C\subset\{c_1,...,c_m\} C ⊂ { c 1 , ... , c m } 。 H \mathcal H H 到 C C C 的限制是从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的函数集,可以从 H \mathcal H H 派生。
H C = { ( h ( c 1 ) , . . . , h ( c m ) ) : h ∈ H } , \mathcal H_C=\{(h(c_1),...,h(c_m)):h\in\mathcal H\}, H C = {( h ( c 1 ) , ... , h ( c m )) : h ∈ H } ,
其中,我们将从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的每个函数表示为 { 0 , 1 } ∣ C ∣ \{0,1\}^{|C|} { 0 , 1 } ∣ C ∣ 中的向量。
如果 H \mathcal H H 对 C C C 的限制是从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的所有函数的集合,那么我们说 H \mathcal H H 分解了集合 C C C 。形式上:
定义6.3(分解): 假设 H \mathcal H H 类破坏了有限集合 C ⊂ X C\subset\mathcal X C ⊂ X ,如果 H \mathcal H H 到 C C C 的限制是从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的所有函数的集合。这就是, ∣ H C ∣ = 2 ∣ C ∣ |\mathcal H_C|=2^{|C|} ∣ H C ∣ = 2 ∣ C ∣ 。
例 6.2 设 H \mathcal H H 是 R \mathbb R R 上的阈值函数类。取一个集合 C = { c 1 } C=\{c_1\} C = { c 1 } 。现在,如果我们取 a = c 1 + 1 a=c_1+1 a = c 1 + 1 ,那么我们有 h a ( c 1 ) = 1 h_a(c_1)=1 h a ( c 1 ) = 1 ,如果我们取 a = c 1 − 1 a=c_1−1 a = c 1 − 1 ,那么我们有 h a ( c 1 ) = 0 h_a(c_1)=0 h a ( c 1 ) = 0 。因此, H C \mathcal H_C H C 是从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的所有函数的集合, H \mathcal H H 分解 C C C 。现在取一个集合 C = { c 1 , c 2 } C=\{c_1,c_2\} C = { c 1 , c 2 } ,其中 c 1 ≤ c 2 c_1\le c_2 c 1 ≤ c 2 。没有 h ∈ H h\in\mathcal H h ∈ H 可以解释标签 ( 0 , 1 ) (0,1) ( 0 , 1 ) ,因为将标签0指定给 c 1 c_1 c 1 的任何阈值也必须将标签0指定给 c 2 c_2 c 2 。因此,并非所有从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的函数都包含在 H C \mathcal H_C H C 中;因此, C C C 不会被 H \mathcal H H 分解。
回到对抗分布的构造,如无免费午餐定理(Theorem5.1)的证明,我们看到,每当某个集合 C C C 被 H \mathcal H H 打破时,对抗者不受 H \mathcal H H 限制,因为他们可以基于从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的任何目标函数构造 C C C 上的分布,同时仍然保持可实现性假设。这立即产生:
推论 6.4 设 H \mathcal H H 是从 X \mathcal X X 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的一类假设函数。设m为训练集大小。假设存在一组尺寸为 2 m 2m 2 m 的集合 C ⊂ X C\subset\mathcal X C ⊂ X ,其被 H \mathcal H H 分解。那么,对于任何学习算法A,都存在一个分布 D \mathcal D D 通过 X × { 0 , 1 } \mathcal X ×\{0,1\} X × { 0 , 1 } 和一个预测器 h ∈ H h\in\mathcal H h ∈ H ,使得 L D ( h ) = 0 L_\mathcal D(h)=0 L D ( h ) = 0 ,但至少有1/7通过 S ∼ D m S\sim\mathcal D^m S ∼ D m 的概率使 L D ( A ( S ) ) ≥ 1 / 8 L_\mathcal D(A(S))\ge1/8 L D ( A ( S )) ≥ 1/8 。
推论6.4告诉我们,如果 H \mathcal H H 分解了某个大小为 2 m 2m 2 m 的集合 C C C ,那么我们就不能用 m m m 的例子来学习 H \mathcal H H 。直观地说,如果一个集合被 H \mathcal H H 分解,我们收到一个样本,样本中包含了 C C C 的一半实例,这些实例的标签就不会给我们提供关于 C C C 中其余实例标签的信息——其余实例的所有可能标签都可以用 H \mathcal H H 中的某个假设来解释。哲学上,
如果有人能解释每一种现象,他的解释就毫无价值。
这将直接引导我们定义VC维度。
定义 6.5(VC维): 假设类 H \mathcal H H 的VC维数表示为 V C dim ( H ) VC\dim(\mathcal H) V C dim ( H ) ,是可被 H \mathcal H H 分解的集合 C ⊂ X C\subset\mathcal X C ⊂ X 的最大大小。如果 H \mathcal H H 能分解任意大的集合,我们说 H H H 有无穷维VC维。
因此,推论6.4的直接结果是:
定理 6.6: 设 H \mathcal H H 是一类无穷维VC。那么, H \mathcal H H 不是PAC可学习的。
证明: 因为 H \mathcal H H 有一个无限维的VC,对于任何大小为 m m m 的训练集,都存在一个大小为 2 m 2m 2 m 的破碎集,并且该声明后面是推论6.4。
我们将在本章后面看到,反之亦然:有限维保证可学习性。因此,VC维度表征了PAC的可学习性。但是在深入研究更多的理论之前,我们首先展示几个例子。
6.3 例子
在本节中,我们计算了几个假设类的VC维数。为了证明 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d ,我们需要证明:
1.存在一组大小为 d d d 的 C C C ,被 H \mathcal H H 分解。
2.尺寸为 d + 1 d+1 d + 1 的每个集 C C C 不会被 H \mathcal H H 粉碎。
6.3.1 阈值函数
设 H \mathcal H H 是 R \mathbb R R 上的阈值函数类。回想一下例子6.2。回想一下例子6.2,其中我们已经证明,对于任意集 C = { c 1 } C=\{c_1\} C = { c 1 } , H \mathcal H H 分解了 C C C ;因此 V C dim ( H ) ≥ 1 VC\dim(\mathcal H)\ge1 V C dim ( H ) ≥ 1 。我们还证明了对于任意集 C = { c 1 , c 2 } C=\{c_1,c_2\} C = { c 1 , c 2 } ,其中 c 1 ≤ c 2 c_1\le c_2 c 1 ≤ c 2 , H \mathcal H H 不会分解 C C C 。 因此,我们得出结论: V C dim ( H ) = 1 VC\dim(\mathcal H)=1 V C dim ( H ) = 1 。
6.3.2 间隔
设 H \mathcal H H 是 R \mathbb R R 上的区间类,即 H = { h a , b ∈ R , a < b } \mathcal H=\{h_{a,b}\in\mathbb R,a<b\} H = { h a , b ∈ R , a < b } ,其中 h a , b : R → { 0 , 1 } h_{a,b}:\mathbb R\to\{0,1\} h a , b : R → { 0 , 1 } 是一个像 h a , b = 1 x ∈ ( a , b ) h_{a,b}=1_{x\in(a,b)} h a , b = 1 x ∈ ( a , b ) 的函数。取集合 C = { 1 , 2 } C=\{1,2\} C = { 1 , 2 } 。然后, H \mathcal H H 会分解 C C C (确保您理解原因),从而 V C dim ( H ) ≥ 2 VC\dim(\mathcal H)\ge2 V C dim ( H ) ≥ 2 。现在取一个任意的集合 c = { c 1 , c 2 , c 3 } c=\{c_1,c_2,c_3\} c = { c 1 , c 2 , c 3 } ,并假定 c 1 ≤ c 2 ≤ c 3 c_1\le c_2\le c_3 c 1 ≤ c 2 ≤ c 3 。然后,标签 ( 1 , 0 , 1 ) (1,0,1) ( 1 , 0 , 1 ) 不能通过间隔获得,因此 H \mathcal H H 不会分解 C C C 。因此,我们得出结论, V C dim ( H ) = 2 VC\dim(\mathcal H)=2 V C dim ( H ) = 2 。
6.3.3 轴对齐矩形
设 H \mathcal H H 为轴对齐矩形的类别,形式上:
H = { h a 1 , a 2 , b 1 , b 2 : a 1 ≤ a 2 a n d b 1 ≤ b 2 } \mathcal H=\{h_{a_1,a_2,b_1,b_2}:a_1\le a_2 and b_1\le b_2\} H = { h a 1 , a 2 , b 1 , b 2 : a 1 ≤ a 2 an d b 1 ≤ b 2 }
其中:
h ( a 1 , a 2 , b 1 , b 2 ) ( x 1 , x 2 ) = ⟮ 0 o t h e r 1 a 1 ≤ x 1 ≤ a 2 , b 1 ≤ x 2 ≤ b 2 ( 6.2 ) h_{(a_1,a_2,b_1,b_2)}(x_1,x_2)=\lgroup^{1\qquad a_1\le x_1\le a_2,b_1\le x_2\le b_2}_{0\qquad other}\qquad\qquad\qquad(6.2) h ( a 1 , a 2 , b 1 , b 2 ) ( x 1 , x 2 ) = ⟮ 0 o t h er 1 a 1 ≤ x 1 ≤ a 2 , b 1 ≤ x 2 ≤ b 2 ( 6.2 )
我们将在下面展示 V C dim ( H ) = 4 VC\dim(\mathcal H)=4 V C dim ( H ) = 4 。为了证明这一点,我们需要找到一组被 H \mathcal H H 分解的4个点,并证明没有一组5个点可以被 H \mathcal H H 分解。找到一组被分解的4个点是很容易的(见图6.1)。现在,考虑任何集合 C ⊂ R 2 C\subset\mathbb R^2 C ⊂ R 2 的5点。在 C C C 中,取最左边的点(第一个坐标在 C C C 中最小)、最右边的点(第一个坐标最大)、最低点(第二个坐标最小)和最高点(第二个坐标最大)。在不丧失一般性的情况下,表示 C = { c 1 , . . . , c 5 } C=\{c_1,...,c_5\} C = { c 1 , ... , c 5 } ,并让 c 5 c_5 c 5 为未选择的点。现在,定义标签 ( 1 , 1 , 1 , 1 , 0 ) (1,1,1,1,0) ( 1 , 1 , 1 , 1 , 0 ) 。通过轴对齐的矩形不可能获得此标签。实际上,这样的矩形必须包含 c 1 , . . . , c 4 c_1,...,c_4 c 1 , ... , c 4 ;但在本例中,矩形也包含 c 5 c_5 c 5 ,因为其坐标在选定点定义的间隔内。因此, C C C 不会被 H \mathcal H H 分解,因此 V C dim ( H ) = 4 VC\dim(\mathcal H)=4 V C dim ( H ) = 4 。
图 6.1 左:4个点被轴对齐的矩形分解。右:任何与轴对齐的矩形都不能将c5标记为0,将其余点标记为1。
6.3.4 有限类
设H为有限类。很明显,对于任何集合 C C C ,我们都有 ∣ H C ∣ ≤ ∣ H ∣ |\mathcal H_C|\le|\mathcal H| ∣ H C ∣ ≤ ∣ H ∣ ,因此如果 ∣ H ∣ < 2 ∣ C ∣ |\mathcal H|<2^{|C|} ∣ H ∣ < 2 ∣ C ∣ 。这意味着 V C dim ( H ) ≤ log 2 ( ∣ H ∣ ) VC\dim(\mathcal H)\le\log_2(|\mathcal H|) V C dim ( H ) ≤ log 2 ( ∣ H ∣ ) 。这表明有限类的PAC可学习性来自于有限VC维类的PAC可学习性的更一般陈述,我们将在下一节中看到。但是,请注意,有限类 H \mathcal H H 的VC维数可以明显小于 log 2 ( ∣ H ∣ ) \log_2(|\mathcal H|) log 2 ( ∣ H ∣ ) 。例如,对于某些整数,设 X = { 1 , . . . , k } \mathcal X=\{1,...,k\} X = { 1 , ... , k } ,并考虑阈值函数类(如在实例6.2中定义的)。那么, ∣ H ∣ = k |\mathcal H|=k ∣ H ∣ = k ,但 V C dim ( H ) = 1 VC\dim(\mathcal H)=1 V C dim ( H ) = 1 。由于 k k k 可以任意大, log 2 ( ∣ H ∣ ) \log_2(|\mathcal H|) log 2 ( ∣ H ∣ ) 和 V C dim ( H ) VC\dim(\mathcal H) V C dim ( H ) 之间的间隙可以任意大。
6.3.5 VC维和参数个数
在前面的例子中,VC维度恰好等于定义假设类的参数数量。虽然这种情况经常发生,但并不总是如此。例如,考虑域 X = R \mathcal X=\mathbb R X = R 和假设类 H = { h θ : θ ∈ R } \mathcal H=\{h_\theta:\theta\in\mathbb R\} H = { h θ : θ ∈ R } ,其中 h θ : X { 0 , 1 } h_\theta:\mathcal X\{0,1\} h θ : X { 0 , 1 } 由 h θ ( x ) = ⌈ 0.5 sin ( θ x ) ⌉ h_\theta(x)=\lceil0.5\sin(\theta x)\rceil h θ ( x ) = ⌈ 0.5 sin ( θ x )⌉ 定义。可以证明 V C dim ( H ) = ∞ VC\dim(\mathcal H)=\infty V C dim ( H ) = ∞ , 也就是说,永远都可以找到被 H \mathcal H H 分解的点(见练习8)。
6.4 PAC学习的基本定理
我们已经证明了一类无穷维VC是不可学习的。相反的说法也是正确的,导致了统计学习理论的基本定理:
理论6.7(统计学习的基本定理): 设 H \mathcal H H 是从域 X \mathcal X X 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的一类假设函数,损失函数为0−1损失。那么,以下是等效的:
1.H具有一致收敛性。
2.任何ERM规则都是成功的不可知PAC学习者。
3.H是不可知论的PAC。
4.H是PAC可学习的。
5.任何ERM规则都是成功的PAC学习者。
6.H有一个有限的VC维数。
定理的证明将在下一节给出。
VC维度不仅表征了PAC的可学习性;它甚至决定了样本的复杂性。
理论6.8(统计学习的基本定理——定量版): 设 H \mathcal H H 是从域 X \mathcal X X 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的一类假设函数,损失函数为0−1损失。假设 v c dim ( H ) = d < ∞ vc\dim(\mathcal H)=d<\infty v c dim ( H ) = d < ∞ 。然后,存在绝对常数 C 1 C_1 C 1 和 C 2 C_2 C 2 ,因此:
1.H具有样本复杂度的一致收敛性
C 1 d + log ( 1 / δ ) ϵ 2 ≤ m H U C ( ϵ , δ ) ≤ C 2 d + log ( 1 / δ ) ϵ 2 C_1\frac{d+\log(1/\delta)}{\epsilon^2}\le m^{UC}_\mathcal H(\epsilon,\delta)\le C_2\frac{d+\log(1/\delta)}{\epsilon^2} C 1 ϵ 2 d + log ( 1/ δ ) ≤ m H U C ( ϵ , δ ) ≤ C 2 ϵ 2 d + log ( 1/ δ )
H \mathcal H H 是不可知的PAC,可学习样本复杂度
C 1 d + log ( 1 / δ ) ϵ 2 ≤ m H ( ϵ , δ ) ≤ C 2 d + log ( 1 / δ ) ϵ 2 C_1\frac{d+\log(1/\delta)}{\epsilon^2}\le m_\mathcal H(\epsilon,\delta)\le C_2\frac{d+\log(1/\delta)}{\epsilon^2} C 1 ϵ 2 d + log ( 1/ δ ) ≤ m H ( ϵ , δ ) ≤ C 2 ϵ 2 d + log ( 1/ δ )
H \mathcal H H 是具有样本复杂性的PAC可学习的
C 1 d + log ( 1 / δ ) ϵ ≤ m H ( ϵ , δ ) ≤ C 2 d log ( 1 / ϵ ) + log ( 1 / δ ) ϵ C_1\frac{d+\log(1/\delta)}{\epsilon}\le m_\mathcal H(\epsilon,\delta)\le C_2\frac{d\log(1/\epsilon)+\log(1/\delta)}{\epsilon} C 1 ϵ d + log ( 1/ δ ) ≤ m H ( ϵ , δ ) ≤ C 2 ϵ d log ( 1/ ϵ ) + log ( 1/ δ )
第28章给出了这个定理的证明。
注意6.3 我们阐述了二元分类任务的基本定理。类似的结果也适用于其他一些学习问题,如带有绝对损失或平方损失的回归。然而,这个定理并不适用于所有的学习任务。特别是,即使一致收敛性不成立,可学习性有时也是可能的(我们将在第13章练习2中看到一个例子)。此外,在某些情况下,ERM规则失败,但可通过其他学习规则学习。
6.5 证明理论6.7
我们已经在第4章中看到了 1 → 2 1\to2 1 → 2 。含义 2 → 3 2\to3 2 → 3 和 3 → 4 3\to4 3 → 4 是微不足道的,所以含义 2 → 5 2\to5 2 → 5 也是微不足道的。含义 4 → 6 4\to6 4 → 6 和 5 → 6 5\to6 5 → 6 来自于无免费午餐定理。难的是要证明 6 → 1 6\to1 6 → 1 这一点。证据基于两个主要主张:
如果 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d ,则即使 H \mathcal H H 可能是无限的,当将其限制为有限集 C ⊂ X C\subset\mathcal X C ⊂ X 时,其“有效”大小 ∣ H C ∣ |\mathcal H_C| ∣ H C ∣ 仅为 O ( ∣ C ∣ d ) O(|C|^d) O ( ∣ C ∣ d ) 。也就是说, H C \mathcal H_C H C 的大小随 ∣ C ∣ |C| ∣ C ∣ 呈多项式而非指数增长。这一主张经常被提到阿萨尔引理,但Shelah和Perles也独立地陈述和证明了这一点。正式声明见下文第6.5.1节。
在第4节中,我们证明了有限假设类具有一致收敛性。在后面的第6.5.2节中,我们推广了这个结果,并证明了当假设类具有“小有效大小”时,一致收敛是成立的。所谓“小有效大小”,我们指的是 ∣ H C ∣ |\mathcal H_C| ∣ H C ∣ 随 ∣ C ∣ |C| ∣ C ∣ 多项式增长的类。
6.5.1 Sauer引理与增长函数
通过考虑 H \mathcal H H 对有限个实例集的限制,我们定义了阴影的概念。在一组例子中,增长函数测量 H \mathcal H H 的最大“有效”大小。正式地:
定义6.9(增长函数): 设 H \mathcal H H 为假设类。然后是 H \mathcal H H 的增长函数,表示为 τ H : N → N \tau_\mathcal H:\mathbb N\to\mathbb N τ H : N → N ,定义为
τ H ( m ) = max C ⊂ X : ∣ C ∣ = m ∣ H C ∣ . \tau_\mathcal H(m)=\max_{C\subset\mathcal X:|C|=m}|\mathcal H_C|. τ H ( m ) = C ⊂ X : ∣ C ∣ = m max ∣ H C ∣.
换句话说, τ H ( m ) \tau_H(m) τ H ( m ) 是大小为 m m m 到 { 0 , 1 } \{0,1\} { 0 , 1 } 的集合 C C C 中不同函数的数目,可以通过将 H \mathcal H H 限制为 C C C 来获得。显然,如果 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d ,那么对于任何 m ≤ d m\le d m ≤ d 我们有 τ H ( m ) = 2 m \tau_\mathcal H(m)=2^m τ H ( m ) = 2 m 。在这种情况下, H \mathcal H H 从 C C C 到 { 0 , 1 } \{0,1\} { 0 , 1 } 导出所有可能的函数。Sauer、Shelah和Perles独立提出的下列美丽引理表明,当 m m m 变得大于VC维数时,增长函数随 m m m 呈多项式而不是指数增长。
引理 6.10(Sauer-Shelah-Perles): 设 H \mathcal H H 是一个假设类, V C dim ( H ) ≤ ∞ VC\dim(\mathcal H)\le\infty V C dim ( H ) ≤ ∞ 。那么,对于所有 m m m , τ H ( m ) ≤ ∑ i = 0 d ( m i ) \tau_\mathcal H(m)\le\sum^d_{i=0}(\underset{i}{^m}) τ H ( m ) ≤ ∑ i = 0 d ( i m ) 。特别是,如果 m > d + 1 m>d+1 m > d + 1 ,则 τ H ( m ) ≤ ( e m / d ) d \tau_\mathcal H(m)\le(em/d)^d τ H ( m ) ≤ ( e m / d ) d 。
Sauer引理的证明∗ ^* ∗
为了证明引理,它足以证明以下更强的断言:对于任何 C = { c 1 , . . . , c m } C=\{c_1,...,c_m\} C = { c 1 , ... , c m } ,我们有
∀ H , ∣ H C ∣ ≤ ∣ { B ⊆ C : H 分解 B } ∣ . ( 6.3 ) \forall\mathcal H,\qquad|\mathcal H_C|\le|\{B\subseteq C:\mathcal H分解B\}|.\qquad\qquad\qquad(6.3) ∀ H , ∣ H C ∣ ≤ ∣ { B ⊆ C : H 分解 B } ∣. ( 6.3 )
方程(6.3)足以证明引理的原因是如果 V C dim ( H ) ≤ d VC\dim(\mathcal H)\le d V C dim ( H ) ≤ d 那么没有一个集合的大小大于被 H \mathcal H H 粉碎的 d d d ,因此
∣ { B ⊆ C : H 分解 B } ∣ ≤ ∑ i = 0 d ( m i ) . |\{B\subseteq C:\mathcal H分解B\}|\le\sum^{d}_{i=0}(\underset{i}{^m}). ∣ { B ⊆ C : H 分解 B } ∣ ≤ i = 0 ∑ d ( i m ) .
当 m > d + 1 m>d+1 m > d + 1 时,前面的右边最多为 ( e m / d ) d (em/d)^d ( e m / d ) d (见附录A中的引理A.5)。
我们只剩下证明方程(6.3)了,我们使用归纳论点。对于 m = 1 m=1 m = 1 ,无论 H \mathcal H H 是什么,等式(6.3)的两边都等于1或两边都等于2(空集总是被认为被 H \mathcal H H 分解)。
假设方程(6.3)适用于大小为 k < m k<m k < m 的集合,让我们证明它适用于大小为 m m m 的集合。固定 H \mathcal H H 和 C = { c 1 , . . . , c m } C=\{c_1,...,c_m\} C = { c 1 , ... , c m } 。表示 C ′ = { c 2 , . . . , c m } C'=\{c_2,...,c_m\} C ′ = { c 2 , ... , c m } ,此外,定义以下两组:
Y 0 = { ( y 2 , . . . , y m ) : ( 0 , y 2 , . . . , y m ) ∈ H C ∨ ( 1 , y 2 , . . . , y m ) ∈ H C } , 和 Y 1 = { ( y 2 , . . . , y m ) : ( 0 , y 2 , . . . , y m ) ∈ H C ∧ ( 1 , y 2 , . . . , y m ) ∈ H C } . Y_0=\{(y_2,...,y_m):(0,y_2,...,y_m)\in\mathcal H_C\vee(1,y_2,...,y_m)\in\mathcal H_C\},\\
和\\
Y_1=\{(y_2,...,y_m):(0,y_2,...,y_m)\in\mathcal H_C\wedge(1,y_2,...,y_m)\in\mathcal H_C\}. Y 0 = {( y 2 , ... , y m ) : ( 0 , y 2 , ... , y m ) ∈ H C ∨ ( 1 , y 2 , ... , y m ) ∈ H C } , 和 Y 1 = {( y 2 , ... , y m ) : ( 0 , y 2 , ... , y m ) ∈ H C ∧ ( 1 , y 2 , ... , y m ) ∈ H C } .
很容易验证 ∣ H C ∣ = ∣ Y 0 ∣ + ∣ Y 1 ∣ |\mathcal H_C|=|Y_0|+|Y_1| ∣ H C ∣ = ∣ Y 0 ∣ + ∣ Y 1 ∣ 。此外,由于 Y 0 = H C ′ Y_0=\mathcal H_{C'} Y 0 = H C ′ ,使用归纳假设(适用于 H \mathcal H H 和 C ′ C' C ′ ),我们得到
∣ Y 0 ∣ = ∣ H C ′ ∣ ≤ ∣ { B ⊆ C ′ : H 分解 B } ∣ = ∣ { B ⊆ C : c 1 ∉ B ∧ H 分解 B } ∣ . |Y_0|=|\mathcal H_{C'}|\le|\{B\subseteq C':\mathcal H分解B\}|=|\{B\subseteq C:c_1\notin B\wedge\mathcal H分解B\}|. ∣ Y 0 ∣ = ∣ H C ′ ∣ ≤ ∣ { B ⊆ C ′ : H 分解 B } ∣ = ∣ { B ⊆ C : c 1 ∈ / B ∧ H 分解 B } ∣.
下来,将 H ′ ⊆ H \mathcal H'\subseteq\mathcal H H ′ ⊆ H 定义为
H ′ = { h ∈ H : ∃ h ′ ∈ H s . t . ( 1 − h ′ ( c 1 ) , h ′ ( c 2 ) , . . . , h ′ ( c m ) ) = ( h ( c 1 ) , h ( c 2 ) , . . . , h ( c m ) ) } , \begin{aligned}
\mathcal H'
&=\{h\in\mathcal H:\exists h'\in\mathcal H s.t.(1-h'(c_1),h'(c_2),...,h'(c_m))\\
&=(h(c_1),h(c_2),...,h(c_m))\},
\end{aligned} H ′ = { h ∈ H : ∃ h ′ ∈ H s . t . ( 1 − h ′ ( c 1 ) , h ′ ( c 2 ) , ... , h ′ ( c m )) = ( h ( c 1 ) , h ( c 2 ) , ... , h ( c m ))} ,
也就是说, H ′ \mathcal H' H ′ 包含一对假设,它们在 C ′ C' C ′ 上一致,在 c 1 c_1 c 1 上不同。使用这个定义,很明显,如果 H ′ \mathcal H' H ′ 破坏了集合 B ⊆ C ′ B\subseteq C' B ⊆ C ′ ,那么它也分解了集合 B ∪ { c 1 } B\cup\{c_1\} B ∪ { c 1 } ,反之亦然。结合 Y 1 = H C ′ ′ Y_1=\mathcal H'_{C'} Y 1 = H C ′ ′ 和归纳假设(现在应用于 H ′ \mathcal H' H ′ 和 C ′ C' C ′ ),我们得到
∣ Y 1 ∣ = ∣ H C ′ ′ ∣ ≤ ∣ { B ⊆ C ′ : H ′ 分解 B } ∣ = ∣ { B ⊆ C ′ : H ′ 分解 B ∪ { c 1 } } ∣ = ∣ { B ⊆ C : c 1 ∈ B ∧ H ′ 分解 B } ∣ ≤ ∣ { B ⊆ C : c 1 ∈ B ∧ H 分解 B } ∣ . \begin{aligned}
|Y_1|
&=|\mathcal H'_{C'}|\le|\{B\subseteq C':\mathcal H' 分解 B\}|=|\{B\subseteq C':\mathcal H' 分解 B\cup\{c_1\}\}|\\
&=|\{B\subseteq C:c_1\in B\wedge\mathcal H' 分解 B\}|\le|\{B\subseteq C:c_1\in B\wedge\mathcal H 分解 B\}|.
\end{aligned}
∣ Y 1 ∣ = ∣ H C ′ ′ ∣ ≤ ∣ { B ⊆ C ′ : H ′ 分解 B } ∣ = ∣ { B ⊆ C ′ : H ′ 分解 B ∪ { c 1 }} ∣ = ∣ { B ⊆ C : c 1 ∈ B ∧ H ′ 分解 B } ∣ ≤ ∣ { B ⊆ C : c 1 ∈ B ∧ H 分解 B } ∣.
总的来说,我们已经证明了这一点
∣ H C ∣ = Y 0 ∣ + ∣ Y 1 ∣ ≤ ∣ { B ⊆ C : c 1 ∉ B ∧ H 分解 B } ∣ + ∣ B ⊆ C : c 1 ∈ B ∧ H 分解 B } ∣ = ∣ { B ⊆ C : H 分解 B } ∣ , \begin{aligned}
|\mathcal H_C|
&=Y_0|+|Y_1|\\
&\le|\{B\subseteq C:c_1\notin B\wedge\mathcal H 分解 B\}|+|B\subseteq C:c_1\in B\wedge\mathcal H 分解 B\}|\\
&=|\{B\subseteq C:\mathcal H 分解 B\}|,
\end{aligned} ∣ H C ∣ = Y 0 ∣ + ∣ Y 1 ∣ ≤ ∣ { B ⊆ C : c 1 ∈ / B ∧ H 分解 B } ∣ + ∣ B ⊆ C : c 1 ∈ B ∧ H 分解 B } ∣ = ∣ { B ⊆ C : H 分解 B } ∣ ,
这就是我们的证明。
6.5.2 小有效尺寸类的一致收敛性
在这一节中,我们证明了如果H的有效尺寸很小,那么它就具有一致收敛性。正式地
定理 6.11: 设 H \mathcal H H 为一类, τ H \tau_\mathcal H τ H 为其增长函数。然后,对于每个 D \mathcal D D 和每个 δ ∈ ( 0 , 1 ) \delta\in(0,1) δ ∈ ( 0 , 1 ) ,概率至少为 1 − δ 1−\delta 1 − δ 关于 S ∼ D m S\sim\mathcal D^m S ∼ D m 的选择我们有
∣ L D ( h ) − L S ( h ) ∣ ≤ 4 + log ( τ H ( 2 m ) ) δ 2 m . |L_\mathcal D(h)-L_S(h)|\le\frac{4+\sqrt{\log(\tau_\mathcal H(2m))}}{\delta\sqrt{2m}}. ∣ L D ( h ) − L S ( h ) ∣ ≤ δ 2 m 4 + log ( τ H ( 2 m )) .
在证明定理之前,让我们先总结定理的证明6.7
理论证明6.7: 证明了如果VC维数是有限的,则一致收敛性成立。我们将证明这一点
m H U C ( ϵ , δ ) ≤ 4 16 d ( δ ϵ ) 2 log ( 16 d ( δ ϵ ) 2 ) + 16 d log ( 2 e / d ) ( δ ϵ ) 2 . m^{UC}_\mathcal H(\epsilon,\delta)\le4\frac{16d}{(\delta\epsilon)^2}\log(\frac{16d}{(\delta\epsilon)^2})+\frac{16d\log(2e/d)}{(\delta\epsilon)^2}. m H U C ( ϵ , δ ) ≤ 4 ( δϵ ) 2 16 d log ( ( δϵ ) 2 16 d ) + ( δϵ ) 2 16 d log ( 2 e / d ) .
从Sauer引理中我们得到了 m > d , τ H ( 2 m ) ≤ ( 2 e m / d ) d m>d,\tau_\mathcal H(2m)\le(2em/d)^d m > d , τ H ( 2 m ) ≤ ( 2 e m / d ) d 。结合定理6.11我们得到的概率至少为 1 − δ 1−\delta 1 − δ ,
∣ L S ( h ) − L D ( h ) ∣ ≤ 4 + d log ( 2 e m / d ) δ 2 m . |L_S(h)-L_\mathcal D(h)|\le\frac{4+\sqrt{d\log(2em/d)}}{\delta\sqrt{2m}}. ∣ L S ( h ) − L D ( h ) ∣ ≤ δ 2 m 4 + d log ( 2 e m / d ) .
为简单起见,假设 d log ( 2 e m / d ) ≥ 4 \sqrt{d\log(2em/d)}\ge4 d log ( 2 e m / d ) ≥ 4 ;因此,
∣ L S ( h ) − L D ( h ) ∣ ≤ 1 δ 2 d log ( 2 e m / d ) m . |L_S(h)-L_\mathcal D(h)|\le\frac{1}{\delta}\sqrt{\frac{2d\log(2em/d)}{m}}. ∣ L S ( h ) − L D ( h ) ∣ ≤ δ 1 m 2 d log ( 2 e m / d ) .
为了确保前面的内容最多是 ϵ \epsilon ϵ ,我们需要
m ≥ 2 d log ( m ) ( δ ϵ ) 2 + 2 d log ( 2 e / d ) ( δ ϵ ) 2 m\ge\frac{2d\log(m)}{(\delta\epsilon)^2}+\frac{2d\log(2e/d)}{(\delta\epsilon)^2} m ≥ ( δϵ ) 2 2 d log ( m ) + ( δϵ ) 2 2 d log ( 2 e / d )
标准的代数运算(见附录A中的引理A.2)表明,前一项成立的充分条件是
m ≥ 4 2 d ( δ ϵ ) 2 log ( 2 d ( δ ϵ ) 2 ) + 4 d log ( 2 e / d ) ( δ ϵ ) 2 . m\ge4\frac{2d}{(\delta\epsilon)^2}\log(\frac{2d}{(\delta\epsilon)^2})+\frac{4d\log(2e/d)}{(\delta\epsilon)^2}. m ≥ 4 ( δϵ ) 2 2 d log ( ( δϵ ) 2 2 d ) + ( δϵ ) 2 4 d log ( 2 e / d ) .
注意 6.4: 我们在证明定理6.7中导出的 m H U C m^{UC}_\mathcal H m H U C 的上界不是最紧的。在第28章中可以找到一个更严密的分析,得出定理6.8中给出的界限。
证明理论6.11:
我们将从展示这一点开始
E S ∼ D m [ sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ ] ≤ 4 + log ( τ H ( 2 m ) ) 2 m . ( 6.4 ) \underset{S\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|L_\mathcal D(h)-L_S(h)|]\le\frac{4+\sqrt{\log(\tau_\mathcal H(2m))}}{\sqrt{2m}}.\qquad\qquad\qquad(6.4) S ∼ D m E [ h ∈ H sup ∣ L D ( h ) − L S ( h ) ∣ ] ≤ 2 m 4 + log ( τ H ( 2 m )) . ( 6.4 )
由于随机变量 sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ \sup_{h\in\mathcal H}|L_\mathcal D(h)-L_S(h)| sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ 是非负的,因此定理的证明直接遵循前面使用马尔可夫不等式(见B.1节)的方法。
为了限制方程(6.4)的左侧,我们首先注意到,对于每一个 h ∈ H h\in\mathcal H h ∈ H ,我们可以重写 L D ( h ) = E S ′ ∼ D m L_\mathcal D(h)=\mathbb E_{S'\sim\mathcal D^m} L D ( h ) = E S ′ ∼ D m ,其中 S ′ = z 1 ′ , . . . , z m ′ S'=z'_1,...,z'_m S ′ = z 1 ′ , ... , z m ′ 是一个额外的独立且相同分布的样本。因此,
E S ∼ D m [ sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ ] = E S ∼ D m [ sup h ∈ H ∣ E S ′ ∼ D m L S ′ ( h ) − L S ( h ) ∣ ] . \underset{S\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|L_\mathcal D(h)-L_S(h)|]=\underset{S\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|\underset{S'\sim\mathcal D^m}{\mathbb E}L_{\mathcal S'}(h)-L_S(h)|]. S ∼ D m E [ h ∈ H sup ∣ L D ( h ) − L S ( h ) ∣ ] = S ∼ D m E [ h ∈ H sup ∣ S ′ ∼ D m E L S ′ ( h ) − L S ( h ) ∣ ] .
三角形不等式的推广:
∣ E S ′ ∼ D m [ L S ′ ( h ) − L S ( h ) ] ∣ ≤ E S ′ ∼ D m ∣ L S ′ ( h ) − L S ( h ) ∣ , |\underset{S'\sim\mathcal D^m}{\mathbb E}[L_{S'}(h)-L_S(h)]|\le\underset{S'\sim\mathcal D^m}{\mathbb E}|L_{S'}(h)-L_S(h)|, ∣ S ′ ∼ D m E [ L S ′ ( h ) − L S ( h )] ∣ ≤ S ′ ∼ D m E ∣ L S ′ ( h ) − L S ( h ) ∣ ,
事实上,期望值的上确界小于期望值的上确界:
sup h ∈ H E S ′ ∼ D m ∣ L S ′ ( h ) − L S ( h ) ∣ ≤ E S ′ ∼ D m sup h ∈ H ∣ L S ′ ( h ) − L S ( h ) ∣ . \sup_{h\in\mathcal H}\underset{S'\sim\mathcal D^m}{\mathbb E}|L_{S'}(h)-L_S(h)|\le\underset{S'\sim\mathcal D^m}{\mathbb E}\sup_{h\in\mathcal H}|L_{S'}(h)-L_S(h)|. h ∈ H sup S ′ ∼ D m E ∣ L S ′ ( h ) − L S ( h ) ∣ ≤ S ′ ∼ D m E h ∈ H sup ∣ L S ′ ( h ) − L S ( h ) ∣.
从形式上讲,前两个不等式源自Jensen不等式。结合我们所获得的一切:
E S ∼ D m [ sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ ] ≤ E S , S ′ ∼ D m [ sup h ∈ H ∣ L S ′ ( h ) − L S ( h ) ∣ ] = E S , S ′ ∼ D m [ sup h ∈ H 1 m ∣ ∑ i = 1 m ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] . ( 6.5 ) \begin{aligned}
\underset{S\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|L_\mathcal D(h)-L_S(h)|]
&\le\underset{S,S'\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|L_{S'}(h)-L_S(h)|]\\
&=\underset{S,S'\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}|\sum^{m}_{i=1}(\ell(h,z'_i)-\ell(h,z_i))|].\qquad(6.5)
\end{aligned} S ∼ D m E [ h ∈ H sup ∣ L D ( h ) − L S ( h ) ∣ ] ≤ S , S ′ ∼ D m E [ h ∈ H sup ∣ L S ′ ( h ) − L S ( h ) ∣ ] = S , S ′ ∼ D m E [ h ∈ H sup m 1 ∣ i = 1 ∑ m ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ] . ( 6.5 )
右侧的期望值高于两个独立且分布相同的样本 S = z 1 , . . . , z m S=z_1,...,z_m S = z 1 , ... , z m 和 S ′ = z 1 ′ , . . . , z m ′ S'=z'_1,...,z'_m S ′ = z 1 ′ , ... , z m ′ 的选择。由于所有这 2 m 2m 2 m 向量都是独立选择的且分布相同,如果我们用随机向量 z i ′ z'_i z i ′ 的名称替换随机向量 z i z_i z i 的名称,则不会发生任何变化。如果我们这样做,我们将得到 − ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) -(\ell(h,z'_i)-\ell(h,z_i)) − ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) 项,而不是方程式(6.5)中的 ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) (\ell(h,z'_i)-\ell(h,z_i)) ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) 项。因此,对于每个 σ ∈ { ± 1 } m \sigma\in\{\pm1\}^m σ ∈ { ± 1 } m ,方程(6.5)等于
E S , S ′ ∼ D m [ sup h ∈ H 1 m ∣ ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] \underset{S,S'\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}|\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i))|] S , S ′ ∼ D m E [ h ∈ H sup m 1 ∣ i = 1 ∑ m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ]
因为这对每个 σ ∈ { ± 1 } m \sigma\in\{\pm1\}^m σ ∈ { ± 1 } m 都成立,如果我们从 { ± 1 } \{\pm1\} { ± 1 } 上的均匀分布中随机均匀地对 σ \sigma σ 的每个分量进行采样,也成立,表示为 U ± U_\pm U ± 。因此,等式(6.5)也等于
E σ ∼ U ± m E S , S ′ ∼ D m [ sup h ∈ H 1 m ∣ ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] , \underset{\sigma\sim U^m_{\pm}}{\mathbb E}\underset{S,S'\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}|\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i))|], σ ∼ U ± m E S , S ′ ∼ D m E [ h ∈ H sup m 1 ∣ i = 1 ∑ m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ] ,
根据期望的线性,它也等于:
E S , S ′ ∼ D m E σ ∼ U ± m [ sup h ∈ H 1 m ∣ ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] . \underset{S,S'\sim\mathcal D^m}{\mathbb E}\underset{\sigma\sim U^m_{\pm}}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}|\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i))|]. S , S ′ ∼ D m E σ ∼ U ± m E [ h ∈ H sup m 1 ∣ i = 1 ∑ m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ] .
接下来,修复 S S S 和 S ′ S' S ′ ,让 C C C 成为 S S S 和 S ′ S' S ′ 中出现的实例。那么,我们只能取 h ∈ H C h\in\mathcal H_C h ∈ H C 的上确界。因此
E σ ∼ U ± m [ sup h ∈ H 1 m ∣ ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] = E σ ∼ U ± m [ max h ∈ H C 1 m ∣ ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) ∣ ] \underset{\sigma\sim U^m_{\pm}}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}|\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i))|]\\
=\underset{\sigma\sim U^m_{\pm}}{\mathbb E}[\max_{h\in\mathcal H_C}\frac{1}{m}|\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i))|] σ ∼ U ± m E [ h ∈ H sup m 1 ∣ i = 1 ∑ m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ] = σ ∼ U ± m E [ h ∈ H C max m 1 ∣ i = 1 ∑ m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) ∣ ]
固定一些 h ∈ H C h\in\mathcal H_C h ∈ H C 并表示 θ h 1 m ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i ) ) \theta_h\frac{1}{m}\sum^m_{i=1}\sigma_i(\ell(h,z'_i)-\ell(h,z_i)) θ h m 1 ∑ i = 1 m σ i ( ℓ ( h , z i ′ ) − ℓ ( h , z i )) 。因为 E [ θ h ] = 0 \mathbb E[\theta_h]=0 E [ θ h ] = 0 和 θ h \theta_h θ h 是自变量的平均值,每个自变量取 [ − 1 , 1 ] [−1,1] [ − 1 , 1 ] ,我们通过Hoeffding不等式得到,对于每个 ρ > 0 \rho>0 ρ > 0 ,
P [ ∣ θ h ∣ > ρ ] ≤ 2 exp ( − 2 m ρ 2 ) . \mathbb P[|\theta_h|>\rho]\le2\exp(-2m\rho^2). P [ ∣ θ h ∣ > ρ ] ≤ 2 exp ( − 2 m ρ 2 ) .
应用 h ∈ H C h\in\mathcal H_C h ∈ H C 上的并集界,我们得到了任意 ρ > 0 \rho>0 ρ > 0 的并集界,
P [ max h ∈ H C ∣ θ h ∣ > ρ ] ≤ 2 ∣ H C ∣ exp ( − 2 m ρ 2 ) . \mathbb P[\max_{h\in\mathcal H_C}|\theta_h|>\rho]\le2|\mathcal H_C|\exp(-2m\rho^2). P [ h ∈ H C max ∣ θ h ∣ > ρ ] ≤ 2∣ H C ∣ exp ( − 2 m ρ 2 ) .
最后,附录A中的引理A.4告诉我们,前面的引理
E [ max h ∈ H C ∣ θ h ∣ ] ≤ 4 + log ( ∣ H C ∣ ) 2 m . \mathbb E[\max_{h\in\mathcal H_C}|\theta_h|]\le\frac{4+\sqrt{\log(|\mathcal H_C|)}}{\sqrt{2m}}. E [ h ∈ H C max ∣ θ h ∣ ] ≤ 2 m 4 + log ( ∣ H C ∣ ) .
结合 τ H \tau_\mathcal H τ H 的定义,我们已经证明
E S ∼ D m [ sup h ∈ H ∣ L D ( h ) − L S ( h ) ∣ ] ≤ 4 + log ( τ H ∣ H C ∣ ) 2 m . \underset{S\sim\mathcal D^m}{\mathbb E}[\sup_{h\in\mathcal H}|L_\mathcal D(h)-L_S(h)|]\le\frac{4+\sqrt{\log(\tau_\mathcal H|\mathcal H_C|)}}{\sqrt{2m}}. S ∼ D m E [ h ∈ H sup ∣ L D ( h ) − L S ( h ) ∣ ] ≤ 2 m 4 + log ( τ H ∣ H C ∣ ) .
6.6 摘要
学习理论的基本定理描述了使用VC维的二元分类器类的PAC可学习性。一个类的VC维是一个组合属性,表示该类可以粉碎的最大样本量。基本定理表明,一个类是PAC可学习的当且仅当其VC维数是有限的,并规定了PAC学习所需的样本复杂性。该定理还表明,如果一个问题是完全可学习的,则一致收敛成立,因此使用ERM规则该问题是可学习的。
6.7 书目注释
VC维数的定义及其与可学习性和一致收敛性的关系是Vapnik& Chervonenkis(1971)开创性工作的结果。与PAC可学习性定义相关的是Blumer、Ehrenfeucht、Haussler& Warmuth(1989)。
提出了VC维的几个推广。例如,脂肪破碎维度表征了一些回归问题的可学习性(卡恩斯、夏皮雷、塞利、阿隆、本·大卫、塞萨·比安奇、豪斯勒、巴雷特、朗、威廉姆森、安东尼、巴雷特、1999),纳塔拉扬维度表征了一些多类学习问题的可学习性(Natarajan 1989)。然而,一般来说,可学习性和一致收敛性之间并不等价。参见(Shalev Shwartz,Shamir,Srebro& Sridharan 2010,Daniely,Sabato,Ben David& Shalev Shwartz 2011)。
Sauer引理已被Sauer在回答鄂尔多斯问题时证明(Sauer 1972)。Shelah(和Perles一起)证明了它是Shelah稳定模型理论的一个有用引理(Shelah 1972)。Gil Kalai告诉我们,在后来的某个时候,Benjy Weiss在遍历理论的背景下向Perles询问了这样一个结果,Perles忘记了他已经证明过一次,于是又证明了一次。Vapnik和Chervonenkis在统计学习理论的背景下证明了这个引理。
6.8 练习
显示VC维的以下单调性:对于每两个假设类,如果 H ′ ⊆ H \mathcal H'\subseteq\mathcal H H ′ ⊆ H 然后 V C dim ( H ′ ) ≤ V C dim ( H ) VC\dim(\mathcal H')\le VC\dim(\mathcal H) V C dim ( H ′ ) ≤ V C dim ( H ) 。
给定一些有限域集 X \mathcal X X 和一个数字 k ≤ ∣ X ∣ k\le|\mathcal X| k ≤ ∣ X ∣ ,计算出以下每一类的维(并证明您的说法):
H = k X = { h ∈ { 0 , 1 } X : ∣ { x : h ( x ) = 1 } ∣ = k } \mathcal H^\mathcal X_{=k}=\{h\in\{0,1\}^\mathcal X:|\{x:h(x)=1\}|=k\} H = k X = { h ∈ { 0 , 1 } X : ∣ { x : h ( x ) = 1 } ∣ = k } ,也就是说,将值1指定给 X \mathcal X X 的 k k k 个元素的所有函数集。
H a t − m o s t − k = { h ∈ { 0 , 1 } X : ∣ { x : h ( x ) = 1 } ∣ ≤ k o r ∣ { x : h ( x ) = 0 } ∣ ≤ k } \mathcal H_{at-most-k}=\{h\in\{0,1\}^\mathcal X:|\{x:h(x)=1\}|\le k\quad or\quad|\{x:h(x)=0\}|\le k\} H a t − m os t − k = { h ∈ { 0 , 1 } X : ∣ { x : h ( x ) = 1 } ∣ ≤ k or ∣ { x : h ( x ) = 0 } ∣ ≤ k } 。