3 Rademacher复杂度和VC维
机器学习中通常使用的假设集是无限的。但是,在处理无限假设集时,上一章的样本复杂性边界是没有信息的。有人可能会问,当假设集 H \mathcal H H 为无穷大时,从有限样本进行有效学习是否可能。我们对轴对齐矩形族(例2.4)的分析表明,至少在某些情况下,这确实是可能的,因为我们证明了无限概念类是可压缩的。我们在本章中的目标是推广这个结果,并得出无限假设集的一般学习保证。
这样做的总体思路是将无限情况简化为对有限组假设的分析,然后按照上一章的步骤进行。这种简化有不同的技术,每种技术都依赖于一系列假设的不同复杂性概念。我们将使用的第一个复杂性概念是Rademacher复杂性 。这将有助于我们使用基于McDiarmid不等式的相对简单的证明来获得学习保证,同时获得高质量的边界,包括我们将在未来章节中经常使用的数据相关边界。然而,对于某些假设集,用有证明了的Rademacher复杂性的估算结果是NP-Hard。因此,我们随后介绍了另外两个纯粹的组合概念,增长函数 和VC维 。我们首先将Rademacher复杂度与增长函数联系起来,然后根据VC维对增长函数进行约束。VC维度通常更容易绑定或估计。我们将回顾一系列示例,展示如何计算或绑定它,然后将增长函数与VC维度联系起来。这将导致基于VC维度的泛化边界。最后,我们给出了两种不同设置下基于VC维度的下限:可实现设置 ,其中考虑的假设集中至少有一个假设达到零预期误差,以及非可实现设置 ,其中假设集中没有任何假设达到零预期误差。
3.1 Rademacher复杂度
我们将继续使用 H \mathcal H H 来表示前面章节中的假设集。本节的许多结果是普遍的,适用于任意损失函数L : Y × Y → R L:\mathcal Y × \mathcal Y\to \mathbb R L : Y × Y → R 。在下文中, G \mathcal G G 通常被解释为与 Z = X × Y Z=X×Y Z = X × Y 到 R \mathbb R R 的 H \mathcal H H 映射相关的损失函数族:
G = { g : ( x , y ) → L ( h ( x ) , y ) : h ∈ H } . \mathcal G=\{g:(x,y)\to L(h(x),y):h\in \mathcal H\}. G = { g : ( x , y ) → L ( h ( x ) , y ) : h ∈ H } .
然而,定义是在函数族 G \mathcal G G 从任意输入空间 Z \mathcal Z Z 映射到 R \mathbb R R 的一般情况下给出的。
Rademacher复杂度通过测量假设集与随机噪声的匹配程度来捕获函数族的丰富性。以下陈述了经验和平均Rademacher复杂性的正式定义。
定义 3.1:(Empirical Rademacher complexity)
设 G \mathcal G G 是一个从 Z \mathcal Z Z 映射到 [ a , b ] [a,b] [ a , b ] 的函数族, S = ( z 1 , … , z m ) \mathcal S=(z_1,…,z_m) S = ( z 1 , … , z m ) 是一个大小为 m \mathcal m m 且元素在 Z \mathcal Z Z 中的固定样本。然后, G \mathcal G G 相对于样本 S S S 的经验Rademacher复杂度定义为:
R ^ S ( G ) = E ϵ [ sup g ∈ G 1 m ∑ i = 1 m ϵ i g ( z i ) ] , (3.1) \hat {\mathcal R}_S(\mathcal G)=\underset{\epsilon}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\epsilon_ig(z_i)],
\tag{3.1} R ^ S ( G ) = ϵ E [ g ∈ G sup m 1 i = 1 ∑ m ϵ i g ( z i )] , ( 3.1 )
式中,ϵ = ( σ i , . . . , σ m ) T \epsilon=(\sigma_i,...,\sigma_m)^{T} ϵ = ( σ i , ... , σ m ) T ,其中 σ \sigma σ 是取{ − 1 , + 1 } \{−1, +1\} { − 1 , + 1 } . 随机变量σ i \sigma_i σ i 称为Rademacher变量。
设 g S g_S g S 表示函数g在样本S上取的值向量: g S = ( g ( z 1 ), … , g ( z m ) ) T g_S=(g(z_1),…,g(z_m))^T g S = ( g ( z 1 ), … , g ( z m ) ) T 。然后,经验的Rademacher复杂性可以改写为
R ^ S ( G ) = E ϵ [ sup g ∈ G σ g S m ] . \hat {\mathcal R}_S(\mathcal G)=\underset{\epsilon}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{\sigma g_S}{m}]. R ^ S ( G ) = ϵ E [ g ∈ G sup m σ g S ] .
内积σ ⋅ g S \sigma·g_S σ ⋅ g S 测量 g S g_S g S 与随机噪声向量 σ \sigma σ 的相关性。上确界 sup g ∈ G σ g S m \sup_{g\in\mathcal G\frac{\sigma g_S}{m}} sup g ∈ G m σ g S 是衡量函数类 G \mathcal G G 在样本 S \mathcal S S 上与 σ \sigma σ 相关程度的指标。因此,经验Rademacher复杂度平均衡量函数类 G \mathcal G G 与 S \mathcal S S 上随机噪声的相关性。这描述了族G \mathcal G G 的丰富性:更丰富或更复杂的族G \mathcal G G 可以生成更多的向量g S g_S g S ,从而平均更好地与随机噪声相关。
定义 3.2(Rademacher复杂度)
设D \mathcal D D 表示抽取样本所依据的分布。对于任意整数 m ≥ 1 m\ge 1 m ≥ 1 ,G \mathcal G G 的Rademacher复杂度是根据D \mathcal D D 绘制的尺寸为m m m 的所有样本的经验Rademacher复杂度的期望值:
R m ( G ) = E S ∼ D m [ R ^ S ( G ) ] ( 3.2 ) \mathcal R_m(\mathcal G)=\underset{\mathcal S\sim\mathcal D^m}{\mathbb E}[\hat{\mathcal R}_S(\mathcal G)]\qquad\qquad\qquad(3.2) R m ( G ) = S ∼ D m E [ R ^ S ( G )] ( 3.2 )
现在,我们准备基于Rademacher复杂度给出我们的第一个泛化边界。
定理 3.3
设 G \mathcal G G 是从Z \mathcal Z Z 映射到 [ 0 , 1 ] [0,1] [ 0 , 1 ] 的函数族。然后,对于任何 δ > 0 \delta>0 δ > 0 ,概率至少为 1 − δ 1−\delta 1 − δ 在尺寸为 m m m 的i.i.d.样品S \mathcal S S 的拉伸上,以下各项均适用于所有 g ∈ G g\in\mathcal G g ∈ G :
E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + log 1 δ 2 m ( 3.3 ) \mathbb E[g(z)]\le\frac{1}{m}\sum^m_{i=1}g(z_i)+2\mathcal R_m(\mathcal G)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}} \qquad\qquad\qquad(3.3) E [ g ( z )] ≤ m 1 i = 1 ∑ m g ( z i ) + 2 R m ( G ) + 2 m log δ 1 ( 3.3 )
a n d E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + 3 log 1 δ 2 m ( 3.4 ) and\qquad\mathbb E[g(z)]\le\frac{1}{m}\sum^m_{i=1}g(z_i)+2\mathcal R_m(\mathcal G)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.4) an d E [ g ( z )] ≤ m 1 i = 1 ∑ m g ( z i ) + 2 R m ( G ) + 3 2 m log δ 1 ( 3.4 )
证明:对于任何样品S = ( z 1 , … , z m ) S=(z_1,…,z_m) S = ( z 1 , … , z m ) 和任何 g ∈ G g\in \mathcal G g ∈ G ,我们用 E ^ S [ g ] \hat{\mathbb E}_S[g] E ^ S [ g ] 表示覆盖物的经验平均值: E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) \hat{\mathbb E}_S[g]=\frac{1}{m}\sum^m_{i=1}g(z_i) E ^ S [ g ] = m 1 ∑ i = 1 m g ( z i ) 。证明方法是将McDiarmid不等式应用于任意样本 S S S 的函数 Φ \Phi Φ ,其中定义函数为:
Φ ( S ) = sup g ∈ G ( E [ g ] − E ^ S [ g ] ) . ( 3.5 ) \Phi (S)=\underset{g\in\mathcal G}{\sup}(\mathbb E[g]-\hat{\mathbb E}_S[g]).\qquad\qquad\qquad(3.5) Φ ( S ) = g ∈ G sup ( E [ g ] − E ^ S [ g ]) . ( 3.5 )
设 S S S 和 S ′ S' S ′ 是两个只差一点的样本,设 S S S 中的 z m z_m z m 和 S ′ S' S ′ 中的 z m ′ z'_m z m ′ 。那么,由于上确界的差不超过差的上确界,我们有了
Φ ( S ′ ) − Φ ( S ) ≤ sup g ∈ G ( E ^ S [ g ] − E ^ S ′ [ g ] ) = sup g ∈ G g ( z m ) − g ( z m ′ ) m ≤ 1 m ( 3.6 ) \Phi (S')-\Phi (S)\le\sup_{g\in\mathcal G}(\hat{\mathbb E}_S[g]-\hat{\mathbb E}_{S'}[g])=\sup_{g\in\mathcal G}\frac{g(z_m)-g(z'_m)}{m}\le\frac{1}{m}\qquad\qquad\qquad(3.6) Φ ( S ′ ) − Φ ( S ) ≤ g ∈ G sup ( E ^ S [ g ] − E ^ S ′ [ g ]) = g ∈ G sup m g ( z m ) − g ( z m ′ ) ≤ m 1 ( 3.6 )
同样,我们可以得到 Φ ( S ) − Φ ( S ′ ) ≤ 1 m \Phi(S)−\Phi(S')\le\frac{1}{m} Φ ( S ) − Φ ( S ′ ) ≤ m 1 ,因此 ∣ Φ ( S ) − Φ ( S ′ ) ∣ ≤ 1 m |\Phi(S)−\Phi(S')|\le\frac{1}{m} ∣Φ ( S ) − Φ ( S ′ ) ∣ ≤ m 1 。然后,根据McDiarmid不等式,对于任何 δ > 0 \delta>0 δ > 0 ,概率至少为1 − δ 2 1−\frac{\delta}{2} 1 − 2 δ ,以下公式成立:
Φ ( S ) ≤ E S [ Φ ( S ) ] + log 2 δ 2 m ( 3.7 ) \Phi(S)\le\underset{S}{\mathbb E}[\Phi(S)]+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\qquad\qquad\qquad(3.7) Φ ( S ) ≤ S E [ Φ ( S )] + 2 m log δ 2 ( 3.7 )
接下来,我们将右侧的期望值限定为:
E S [ Φ ( S ) ] = E S [ sup g ∈ G ( E [ g ] − E ^ S ( g ) ) ] \qquad\qquad\underset{S}{\mathbb E}[\Phi (S)]=\underset{S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}(\mathbb E[g]-\hat{\mathbb E}_S(g))]
S E [ Φ ( S )] = S E [ g ∈ G sup ( E [ g ] − E ^ S ( g ))]
= E S [ sup g ∈ G E S ′ [ E ^ S ′ ( g ) − E ^ S ( g ) ] ] ( 3.8 ) =\underset{S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\underset{S'}{\mathbb E}[\hat{\mathbb E}_{S'}(g)-\hat{\mathbb E}_S(g)]]\qquad\qquad\qquad(3.8) = S E [ g ∈ G sup S ′ E [ E ^ S ′ ( g ) − E ^ S ( g )]] ( 3.8 )
≤ E S , S ′ [ sup g ∈ G ( E ^ S ′ ( g ) − E ^ S ( g ) ) ] ( 3.9 ) \le\underset{S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}(\hat{\mathbb E}_{S'}(g)-\hat{\mathbb E}_S(g))]\qquad\qquad\qquad(3.9) ≤ S , S ′ E [ g ∈ G sup ( E ^ S ′ ( g ) − E ^ S ( g ))] ( 3.9 )
= E S , S ′ [ sup g ∈ G 1 m ∑ i = 1 m ( g ( z i ′ ) − g ( z i ) ) ] ( 3.10 ) =\underset{S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}(g(z'_i)-g(z_i))]\qquad\qquad\qquad(3.10) = S , S ′ E [ g ∈ G sup m 1 i = 1 ∑ m ( g ( z i ′ ) − g ( z i ))] ( 3.10 )
= E σ , S , S ′ [ sup g ∈ G 1 m ∑ i = 1 m σ i ( g ( z i ′ ) − g ( z i ) ) ] ( 3.11 ) =\underset{\sigma,S,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_i(g(z'_i)-g(z_i))]\qquad\qquad\qquad(3.11) = σ , S , S ′ E [ g ∈ G sup m 1 i = 1 ∑ m σ i ( g ( z i ′ ) − g ( z i ))] ( 3.11 )
≤ E σ , S ′ [ sup g ∈ G 1 m ∑ i = 1 m σ i g ( z i ′ ) ] + E σ , S [ sup g ∈ G 1 m ∑ i = 1 m − σ i g ( z i ) ] ( 3.12 ) \le\underset{\sigma,S'}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_ig(z'_i)]+\underset{\sigma,S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}-\sigma_ig(z_i)]\qquad\qquad\qquad(3.12) ≤ σ , S ′ E [ g ∈ G sup m 1 i = 1 ∑ m σ i g ( z i ′ )] + σ , S E [ g ∈ G sup m 1 i = 1 ∑ m − σ i g ( z i )] ( 3.12 )
= 2 E σ , S [ sup g ∈ G 1 m ∑ i = 1 m σ i g ( z i ) ] = 2 R m ( G ) . ( 3.13 ) =2\underset{\sigma,S}{\mathbb E}[\underset{g\in \mathcal G}{\sup}\frac{1}{m}\sum^m_{i=1}\sigma_ig(z_i)]=2\mathcal R_m(\mathcal G).\qquad\qquad\qquad(3.13) = 2 σ , S E [ g ∈ G sup m 1 i = 1 ∑ m σ i g ( z i )] = 2 R m ( G ) . ( 3.13 )
方程式(3.8)使用了这样一个事实,即 S ′ S' S ′ 中的点以 i.i.d.方式采样,因此 E [ g ] = E S ′ [ E ^ S ′ ( g ) ] \mathbb E[g]=\mathbb E_{S'}[\hat{\mathbb E}_{S'}(g)] E [ g ] = E S ′ [ E ^ S ′ ( g )] ,如(2.3)所示。不平等 3.9 由于上确界函数的次可加性而成立。
在方程(3.11)中,我们引入了Rademacher变量 σ i \sigma_i σ i ,它是均匀分布的独立随机变量,取值于{−1,1}如定义3.2所示。这不会改变(3.10)中出现的期望值:当 σ i = 1 \sigma_i=1 σ i = 1 时,相关的和保持不变;当 σ i = − 1 \sigma_i=−1 σ i = − 1 ,相关的总和和翻转符号,这相当于在 S S S 和 S 0 S_0 S 0 之间交换 z i z_i z i 和 z 0 z_0 z 0 。由于我们对所有可能的 S S S 和 S 0 S_0 S 0 进行预期,因此该掉期不会影响总体预期;我们只是在期望范围内改变求和的顺序。
方程(3.12)由上确界函数的次可加性决定,即不等式 sup ( U + V ) ≤ sup ( U ) + sup ( V ) \sup (U+V)\le\sup(U)+\sup(V) sup ( U + V ) ≤ sup ( U ) + sup ( V ) 。 最后,(3.13)源于Rademacher复杂性的定义以及变量 σ i \sigma_i σ i 和 − σ i −\sigma_i − σ i 以相同的方式分布。
方程(3.13)中的 R m ( G ) \mathcal R_m(\mathcal G) R m ( G ) 的约化得到方程(3.3)中的界,使用 δ \delta δ 代替 δ / 2 \delta/2 δ /2 。为了推导 R ^ S ( G ) \hat{\mathcal R}_S(\mathcal G) R ^ S ( G ) 的界,我们观察到,根据定义3.1,改变 S S S 中的一个点最多改变 1 / m 1/m 1/ m 的 R ^ S ( G ) \hat{\mathcal R}_S(\mathcal G) R ^ S ( G ) 。然后,再次使用McDiarmid不等式,概率为 1 − δ / 2 1− \delta/2 1 − δ /2 如下所示:
E σ ∑ j i \underset{\sigma}{\mathbb E}\sum^i_j σ E j ∑ i
R m ( G ) ≤ R ^ S ( G ) + log 2 δ 2 m . ( 3.14 ) \mathcal R_m(\mathcal G)\le\hat {\mathcal R}_S(\mathcal G)+\sqrt{\frac{\log\frac{2}{\delta}}{2m}}.\qquad\qquad\qquad(3.14) R m ( G ) ≤ R ^ S ( G ) + 2 m log δ 2 . ( 3.14 )
最后,我们使用并集界来组合不等式3.7和3.14,其概率至少为 1 − δ 1-\delta 1 − δ :
Φ ( S ) ≤ 2 R ^ S ( G ) + 3 log 2 δ 2 m ( 3.15 ) \Phi(S)\le2\hat {\mathcal R}_S(\mathcal G)+3\sqrt{\frac{\log\frac{2}{\delta}}{2m}}\qquad\qquad\qquad(3.15) Φ ( S ) ≤ 2 R ^ S ( G ) + 3 2 m log δ 2 ( 3.15 )
以上这个匹配(3.4).
下面的结果将假设集 H \mathcal H H 的经验Rademacher复杂性与二进制损失(zero-one loss)情况下与 H \mathcal H H 相关的损失函数族 G \mathcal G G 联系起来。
引理 3.4
设 H \mathcal H H 为取值在 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } 中的函数族,设G为与H相关的zero-one损失函数族: G = { ( x , y ) → 1 h ( x ) ≠ y : h ∈ H } \mathcal G=\{(x,y)\to 1_{h(x)\neq y}:h\in\mathcal H\} G = {( x , y ) → 1 h ( x ) = y : h ∈ H } 。 对于 X × { − 1 , + 1 } \mathcal X\times\{-1,+1\} X × { − 1 , + 1 } 中任意元素的样本 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) S=((x_1,y_1),...,(x_m,y_m)) S = (( x 1 , y 1 ) , ... , ( x m , y m )) ,设 S X S_\mathcal X S X 表示其在 X : S X = ( x 1 , . . . , x m ) \mathcal X:S_\mathcal X=(x_1,...,x_m) X : S X = ( x 1 , ... , x m ) 上的投影:。那么, G \mathcal G G 和 H \mathcal H H 的经验Rademacher复杂性之间有以下关系:
R ^ S ( G ) = 1 2 R ^ S x ( H ) . ( 3.16 ) \hat {\mathcal R}_S(\mathcal G)=\frac{1}{2}\hat {\mathcal R}_{S_x} (\mathcal H).\qquad\qquad\qquad(3.16) R ^ S ( G ) = 2 1 R ^ S x ( H ) . ( 3.16 )
证明: 对于 X × { − 1 , + 1 } \mathcal X \times \{-1,+1\} X × { − 1 , + 1 } 中任意元素的样本 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) S=((x_1,y_1),...,(x_m,y_m)) S = (( x 1 , y 1 ) , ... , ( x m , y m )) ,根据定义, G \mathcal G G 的经验Rademacher复杂度可表示为:
R ^ S ( G ) = E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i 1 h ( x i ) ≠ y i ] \hat{\mathcal R}_S(\mathcal G)=\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_i1_{h(x_i)\neq y_i}] R ^ S ( G ) = σ E [ h ∈ H sup m 1 i = 1 ∑ m σ i 1 h ( x i ) = y i ]
= E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i 1 − y i h ( x i ) 2 ] \qquad\qquad=\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_i\frac{1-y_ih(x_i)}{2}] = σ E [ h ∈ H sup m 1 i = 1 ∑ m σ i 2 1 − y i h ( x i ) ]
= 1 2 E σ [ sup h ∈ H 1 m ∑ i = 1 m − σ i y i h ( x i ) ] \qquad\qquad=\frac{1}{2}\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}-\sigma_iy_ih(x_i)] = 2 1 σ E [ h ∈ H sup m 1 i = 1 ∑ m − σ i y i h ( x i )]
= 1 2 E σ [ sup h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] = 1 2 R ^ S x ( H ) , \qquad\qquad\qquad\qquad=\frac{1}{2}\underset{\sigma}{\mathbb E}[\sup_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i)]=\frac{1}{2}\hat{\mathcal R}_{S_x}(\mathcal H), = 2 1 σ E [ h ∈ H sup m 1 i = 1 ∑ m σ i h ( x i )] = 2 1 R ^ S x ( H ) ,
这里我们使用了 1 h ( x i ) ≠ y i = ( 1 − y i h ( x i ) / 2 ) 1_{h(x_i)\neq y_i}=(1-y_ih(xi)/2) 1 h ( x i ) = y i = ( 1 − y i h ( x i ) /2 ) 的事实,以及对于固定的 y i ∈ { − 1 , + 1 } y_i\in\{-1,+1\} y i ∈ { − 1 , + 1 } , σ i \sigma_i σ i 和 − y i σ i -y_i\sigma_i − y i σ i 以相同的方式分布的事实。
注意,这个引理暗示,通过取期望,对于任意 m ≥ 1 m\ge1 m ≥ 1 , R m ( G ) = 1 2 R m ( H ) \mathcal R_m(\mathcal G)=\frac{1}{2}\mathcal R_m(\mathcal H) R m ( G ) = 2 1 R m ( H ) 。这些经验Rademacher复杂性和平均Rademacher复杂性之间的联系可以用来根据假设集 H \mathcal H H 的Rademacher复杂性推导二元分类的泛化界。
定理 3.5 (Rademacher复杂度界限-二元分类)
设 H \mathcal H H 为函数族,取值范围为 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } ;设 D \mathcal D D 为输入空间 X \mathcal X X 上的分布。然后,对于任何δ>0,通过根据 D \mathcal D D 绘制尺寸为m的样本 S S S 且其概率至少为 1 − δ 1-\delta 1 − δ ,则对任意 h ∈ H h\in \mathcal H h ∈ H 均成立:
R ( h ) ≤ R ^ S ( h ) + R m ( H ) + log 1 δ 2 m ( 3.17 ) R(h)\le\hat R_S(h)+\mathcal R_m(\mathcal H)+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.17) R ( h ) ≤ R ^ S ( h ) + R m ( H ) + 2 m log δ 1 ( 3.17 )
a n d R ( h ) ≤ R ^ S ( h ) + R S ( H ) + 3 log 1 δ 2 m ( 3.18 ) and\qquad R(h)\le\hat R_S(h)+\mathcal R_S(\mathcal H)+3\sqrt{\frac{\log\frac{1}{\delta}}{2m}}\qquad\qquad\qquad(3.18) an d R ( h ) ≤ R ^ S ( h ) + R S ( H ) + 3 2 m log δ 1 ( 3.18 )
证明:结果紧跟定理3.3和引理3.4。
该定理为基于Rademacher复杂度的二元分类提供了两个推广界。请注意,第二个界限(3.18)与数据有关:经验Rademacher复杂度 R ^ S ( H ) \hat{\mathcal R}_S(\mathcal H) R ^ S ( H ) 是特定样本 S S S 的函数。因此,如果我们能够计算 R ^ S ( H ) \hat{\mathcal R}_S(\mathcal H) R ^ S ( H ) ,这个界限可能是特别有用的。但是,我们如何计算经验Rademacher复杂性?再次使用 σ i \sigma_i σ i 和 − σ i −\sigma_i − σ i 以同样的方式分布,我们可以写
R ^ S ( H ) = E σ [ sup h ∈ H 1 m ∑ i = 1 m − σ i h ( x i ) ] = − E σ [ inf h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] . \hat{\mathcal R}_S(\mathcal H)=\underset{\sigma}{\mathbb E}[\underset{h\in\mathcal H}{\sup}\frac{1}{m}\sum^m_{i=1}-\sigma_ih(x_i)]=-\underset{\sigma}{\mathbb E}[\underset{h\in\mathcal H}{\inf}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i)]. R ^ S ( H ) = σ E [ h ∈ H sup m 1 i = 1 ∑ m − σ i h ( x i )] = − σ E [ h ∈ H inf m 1 i = 1 ∑ m σ i h ( x i )] .
现在,对于 σ \sigma σ 的固定值,计算 inf h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) \inf_{h\in\mathcal H}\frac{1}{m}\sum^m_{i=1}\sigma_ih(x_i) inf h ∈ H m 1 ∑ i = 1 m σ i h ( x i ) 相当于一个 经验风险最小化 问题,这对于某些假设集来说是很难计算的。因此,在某些情况下,计算 R ^ S ( H ) \hat{\mathcal R}_S(\mathcal H) R ^ S ( H ) 可能在计算上很困难。在下一节中,我们将把Rademacher复杂性与组合度量联系起来,这些组合度量更易于计算,并且在许多环境下的学习分析中具有独立的用途。
3.2 增长函数
在这里,我们将展示Rademacher复杂度如何根据 增长函数 来限定。
定义 3.6(增长函数)
假设集 Π H : H → H \Pi_\mathcal H:\mathbb H\to\mathbb H Π H : H → H 的增长函数 H \mathcal H H 定义如下:
∀ m ∈ H , Π H ( m ) = max { x 1 , . . . , x m } ⊆ X ∣ { ( h ( x 1 ) , . . . , h ( x m ) ) : h ∈ H } ∣ . ( 3.19 ) \forall m\in\mathbb H,\Pi_\mathcal H(m)=\underset{\{x_1,...,x_m\}\subseteq X}{\max}|\{(h(x_1),...,h(x_m)):h\in\mathcal H\}|.\qquad\qquad\qquad(3.19) ∀ m ∈ H , Π H ( m ) = { x 1 , ... , x m } ⊆ X max ∣ {( h ( x 1 ) , ... , h ( x m )) : h ∈ H } ∣. ( 3.19 )
换句话说, ∏ H ( m ) \prod_\mathcal H(m) ∏ H ( m ) 是使用 H \mathcal H H 中的假设对 m m m 个点进行分类的不同方式的最大数量。这些不同的分类中的每一种都被称为二元分类,因此,生长函数计算了由假设实现的二分法的数量。这提供了假设集 H \mathcal H H 丰富性的另一个度量。然而,与Rademacher复杂度不同,该度量不依赖于分布,它是纯组合的。
为了将Rademacher复杂性与增长函数联系起来,我们将使用Massart引理。
定理3.7(Massart引理)
设 A ⊆ R m \mathcal A\subseteq\mathbb R^m A ⊆ R m 为有限集,以及 r = max x ∈ A ∣ ∣ X ∣ ∣ 2 r=\max_{x\in A}||X||_2 r = max x ∈ A ∣∣ X ∣ ∣ 2 ,则以下等式成立:
E σ [ 1 m sup X ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 log ∣ A ∣ m , ( 3.20 ) \underset{\sigma}{\mathbb E}[\frac{1}{m}\sup_{X\in\mathcal A}\sum^m_{i=1}\sigma_ix_i]\le\frac{r\sqrt{2\log|\mathcal A|}}{m},\qquad\qquad\qquad(3.20) σ E [ m 1 X ∈ A sup i = 1 ∑ m σ i x i ] ≤ m r 2 log ∣ A ∣ , ( 3.20 )
式中, σ i s σ_is σ i s 为独立均匀随机变量,取值为 − 1 , 1 {−1,1} − 1 , 1 和 x 1 , . . . , x m x_1,...,x_m x 1 , ... , x m 是向量 X X X 的分量。
证明: 由于随机变量 σ i x i \sigma_ix_i σ i x i 是独立的,且每个 σ i x i \sigma_ix_i σ i x i 取的值在 [ − ∣ x i ∣ , ∣ x i ∣ ] [−|x_i |,| x_i |] [ − ∣ x i ∣ , ∣ x i ∣ ] 和 ∑ i = 1 m x i 2 ≤ r 2 \sqrt{\sum^m_{i=1}x^2_i}\le r^2 ∑ i = 1 m x i 2 ≤ r 2 中。 因此结果直接由推论D.11给出的最大值期望界得出。
利用这个结果,我们现在可以用增长函数来限制Rademacher的复杂性。
推论 3.8
设 G \mathcal G G 是一个取值函数族 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } . 那么,以下观点成立:
R m ( G ) ≤ 2 log Π G ( m ) m . ( 3.21 ) \mathcal R_m(\mathcal G)\le \sqrt{\frac{2\log\Pi_{\mathcal G(m)}}{m}}.\qquad\qquad\qquad(3.21) R m ( G ) ≤ m 2 log Π G ( m ) . ( 3.21 )
证明: 对于固定样本 S = ( x 1 , … , x m ) S=(x_1,…,x_m) S = ( x 1 , … , x m ) ,我们用 G ∣ S \mathcal G_{|S} G ∣ S 表示函数值的向量集 ( g ( x 1 ) , … , g ( x m ) ) (g(x_1),…,g(x_m)) ( g ( x 1 ) , … , g ( x m )) ,其中 g g g 在 G \mathcal G G 中。自 g ∈ G g\in\mathcal G g ∈ G 接受值 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } ,这些向量的范数有界于 m \sqrt m m 。然后我们可以应用Massart引理如下:
R m ( G ) = E S [ E σ [ sup u ∈ G ∣ S 1 m ∑ i = 1 m σ i u i ] ] ≤ E S [ m 2 log ∣ G ∣ S ∣ m ] . \mathcal R_m(\mathcal G)=\underset{S}{\mathbb E}[\underset{\sigma}{\mathbb E}[\sup_{u\in{\mathcal G|S}}\frac{1}{m}\sum^m_{i=1}\sigma_iu_i]]\le \underset{S}{\mathbb E}[\frac{\sqrt{m}\sqrt{2\log|\mathcal G_{|S}|}}{m}]. R m ( G ) = S E [ σ E [ u ∈ G ∣ S sup m 1 i = 1 ∑ m σ i u i ]] ≤ S E [ m m 2 log ∣ G ∣ S ∣ ] .
根据定义, ∣ G ∣ S ∣ |\mathcal G_{|S}| ∣ G ∣ S ∣ 受增长函数的约束,因此,
R m ( G ) ≤ E S [ m 2 log Π G ( m ) m ] = 2 log Π G ( m ) m , \mathcal R_m(\mathcal G)\le \underset{S}{\mathbb E}[\frac{\sqrt{m}\sqrt{2\log\Pi_\mathcal G(m)}}{m}]=\sqrt{\frac{2\log\Pi\mathcal G(m)}{m}}, R m ( G ) ≤ S E [ m m 2 log Π G ( m ) ] = m 2 log Π G ( m ) ,
这就是证明的结论。
将定理3.5的推广界(3.17)与推论3.8相结合,就增长函数而言,立即产生以下推广界。
推论3.9(增长函数推广界)
设 H \mathcal H H 是一个取值函数族 { − 1 , + 1 } \{−1, +1\} { − 1 , + 1 } 。然后,对于任何 δ > 0 \delta>0 δ > 0 ,概率至少为 1 − δ 1−\delta 1 − δ 、 对于任何 h ∈ H h\in\mathcal H h ∈ H ,
R ( h ) ≤ R ^ S ( h ) + 2 log Π H ( m ) m + log 1 δ 2 m . ( 3.22 ) R(h)\le\hat R_S(h)+\sqrt{\frac{2\log\Pi_\mathcal H(m)}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}.\qquad\qquad\qquad(3.22) R ( h ) ≤ R ^ S ( h ) + m 2 log Π H ( m ) + 2 m log δ 1 . ( 3.22 )
图 3.1 实线上区间的VC维数。(a)任何两点都可能被打破。(b)三个点中的任何一个样本都不能被粉碎,因为(+,−,+) 无法实现标记。
增长函数边界也可以直接导出(不首先使用Rademacher复杂度边界)。由此产生的界限如下所示:
P [ ∣ R ( h ) − R ^ S ( h ) ∣ > ϵ ] ≤ 4 Π H ( 2 m ) exp ( − m ϵ 2 8 ) , ( 3.23 ) \mathbb P[|R(h)-\hat R_S(h)|>\epsilon]\le4\Pi_\mathcal H(2m)\exp(-\frac{m\epsilon^2}{8}),\qquad\qquad\qquad(3.23) P [ ∣ R ( h ) − R ^ S ( h ) ∣ > ϵ ] ≤ 4 Π H ( 2 m ) exp ( − 8 m ϵ 2 ) , ( 3.23 )
它和(3.22)只有常数不同。
增长函数的计算可能并不总是方便的,因为根据定义,它需要计算所有 m ≥ 1 m\ge1 m ≥ 1 的 Π H ( m ) \Pi_\mathcal H(m) Π H ( m ) 。下一节将介绍假设集 H \mathcal H H 复杂性的另一种度量方法,该方法基于单个标量,事实证明,它与增长函数的行为密切相关。
3.3 VC维数
这里,我们介绍了VC维(Vapnik-Chervonenkis维)的概念。VC维也是一个纯粹的组合概念,但它通常比增长函数(或Rademacher复杂性)更容易计算。正如我们将看到的,VC维度是学习中的一个关键数量,与增长函数直接相关。
为了定义假设集 H \mathcal H H 的VC维数,我们首先引入破碎的概念。回想上一节,假设集合 H \mathcal H H ,集合 S S S 的二分法是使用 H \mathcal H H 中的假设标记 S S S 点的可能方法之一。当 H \mathcal H H 实现S的所有可能二分法时,即 Π H ( m ) = 2 m \Pi_\mathcal H(m)=2^m Π H ( m ) = 2 m 时, m > 1 m>1 m > 1 点集 S S S 被假设集 H \mathcal H H 打破。
定义 3.10(VC维数)
假设集 H \mathcal H H 的VC维是可被 H \mathcal H H 粉碎的最大集的大小:
V C dim ( H ) = max { m : Π H ( m ) = 2 m } . ( 3.24 ) VC\dim(\mathcal H)=\max\{m:\Pi_\mathcal H(m)=2^m\}.\qquad\qquad\qquad(3.24) V C dim ( H ) = max { m : Π H ( m ) = 2 m } . ( 3.24 )
请注意,根据定义,如果是 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d ,则存在一组可被粉碎的大小。然而,这并不意味着所有尺寸为 d d d 或更小的集合都被粉碎,事实上,情况通常并非如此。
图 3.2 利用 R 2 \mathbb R^2 R 2 中的超平面对四个点进行不可实现的二分法。(a) 所有四个点都位于凸面外壳上。(b) 三个点位于凸面外壳上,而其余点位于内部。
为了进一步说明这一概念,我们将检查一系列假设集的示例,并确定每种情况下的VC维度。为了计算VC维度,我们通常会显示其值的下限,然后是匹配的上限。为了给 V C d i m ( H ) VCdim(\mathcal H) V C d im ( H ) 一个下界,只需证明基数 d d d 的集合 S S S 可以被 H \mathcal H H 破坏。为了给上界,我们需要证明没有基数 d + 1 d+1 d + 1 的集合 S S S 可以被 H \mathcal H H 破坏,这通常更困难。
例3.11(实线上的间隔)
我们的第一个例子涉及实线上区间的假设类。很明显,VC维度至少是两个,因为所有四个二分法 ( + , + ) , ( − , − ) , ( + , − ) , ( − , + ) (+,+),(-,-),(+,-),(-,+) ( + , + ) , ( − , − ) , ( + , − ) , ( − , + ) 都可以实现,如图3.1(a)所示。相反,根据间隔的定义,由于无法实现 ( + , − , + ) (+,-,+) ( + , − , + ) 标记,因此三个点的集合不能被打破。因此,V C dim ( i n t e r v a l i n R ) = 2 VC\dim(interval\quad in\quad\mathbb R)=2 V C dim ( in t er v a l in R ) = 2 。
例3.12(超平面)
考虑 R 2 \mathbb R^2 R 2 中的超平面集合,我们首先观察到 R 2 \mathbb R^2 R 2 中的任意三个非共线点可以被粉碎。为了得到前三个二分法,我们选择一个超平面,它的一侧有两个点,另一侧有第三个点。为了得到第四个二分法,我们将所有三个点都放在超平面的同一侧。剩下的四个二分法是通过简单地切换符号来实现的。接下来,通过考虑两种情况,我们证明了四个点不能被破坏:(i)四个点位于由四个点定义的凸壳上,以及(ii)四个点中的三个位于凸壳上,其余点是内部的。在第一种情况下,无法实现一个对角线对的正标签和另一个对角线对的负标签,如图3.2(a)所示。在第二种情况下,无法实现凸壳上点为正、内点为负的标签,如图3.2(b)所示。因此, V C dim ( h y p e r p l a n e s i n R 2 ) = 3 VC\dim(hyperplanes\quad in\quad\mathbb R^2)=3 V C dim ( h y p er pl an es in R 2 ) = 3 。
更一般地,在 R d \mathbb R^d R d 中,我们从 R d \mathbb R^d R d 中的一组d点开始,将 X 0 \Chi_0 X 0 设置为原点,并将 X i \Chi_i X i 定义为 i ∈ { 1 , . . . , d } i\in\{1,...,d\} i ∈ { 1 , ... , d } ,即坐标为1且所有其他点均为0的点,从而得出下限。设 y 0 , y 1 , . . . y d y_0,y_1,...y_d y 0 , y 1 , ... y d 是 X 0 , X 1 , . . . , X d \Chi_0,\Chi_1,...,\Chi_d X 0 , X 1 , ... , X d 的任意标签集。设 W W W 为第 i i i 个坐标为 y i y_i y i 的向量。然后,由方程 W ⋅ X + y 0 2 = 0 W\cdot\Chi+\frac{y_0}{2}=0 W ⋅ X + 2 y 0 = 0 的超平面定义的分类器分解 X 0 , X 1 , . . . , X d \Chi_0,\Chi_1,...,\Chi_d X 0 , X 1 , ... , X d ,因为对于任何 i ∈ { 0 , . . . , d } i\in\{0,...,d\} i ∈ { 0 , ... , d } ,
s g n ( W ⋅ X i + y 0 2 ) = s g n ( y i + y 0 2 ) = y i . ( 3.25 ) sgn(W\cdot\Chi_i+\frac{y_0}{2})=sgn(y_i+\frac{y_0}{2})=y_i.\qquad\qquad\qquad(3.25) s g n ( W ⋅ X i + 2 y 0 ) = s g n ( y i + 2 y 0 ) = y i . ( 3.25 )
为了得到一个上界,只要证明没有一组 d + 2 d+2 d + 2 点可以被半空间破坏就足够了。为了证明这一点,我们将使用以下一般定理。
定理3.13(拉东定理)
d + 2 d+2 d + 2 点的任意集合 X \mathcal X X 可以划分为两个子集 X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 ,使得 X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 的凸包相交。
证明: 设 X = { X 1 , . . . , X d + 2 } ⊂ R d \mathcal X=\{X_1,...,X_{d+2}\}\subset\mathbb R^d X = { X 1 , ... , X d + 2 } ⊂ R d 。以下是 α 1 , . . . , α d + 2 \alpha_1,...,\alpha_{d+2} α 1 , ... , α d + 2 中的 d + 1 d+1 d + 1 线性方程组:
∑ i = 1 d + 2 α i X i = 0 a n d ∑ i = 1 d + 2 α i = 0 , ( 3.26 ) \sum^{d+2}_{i=1}\alpha_iX_i=0\qquad and\qquad\sum^{d+2}_{i=1}\alpha_i=0,\qquad\qquad\qquad(3.26) i = 1 ∑ d + 2 α i X i = 0 an d i = 1 ∑ d + 2 α i = 0 , ( 3.26 )
由于第一个等式引出一个等式,因此每个分量对应一个等式。未知数的数量 d + 2 d+2 d + 2 大于方程的数量 d + 1 d+1 d + 1 ,因此系统允许非零解 β 1 , . . . , β d + 2 \beta_1,...,\beta_{d+2} β 1 , ... , β d + 2 。因为 ∑ i = 1 d + 2 β i = 0 \sum^{d+2}_{i=1}\beta_i=0 ∑ i = 1 d + 2 β i = 0 , J 1 = { i ∈ [ d + 2 ] : β i > 0 } \mathcal J_1=\{i\in[d+2]:\beta_i>0\} J 1 = { i ∈ [ d + 2 ] : β i > 0 } 和 J 1 = { i ∈ [ d + 2 ] : β i ≤ 0 } \mathcal J_1=\{i\in[d+2]:\beta_i\le0\} J 1 = { i ∈ [ d + 2 ] : β i ≤ 0 } 都是非空集, X 1 = { X i : i ∈ J 1 } \mathcal X_1=\{X_i:i\in\mathcal J_1\} X 1 = { X i : i ∈ J 1 } 和 X 2 = { X i : i ∈ J 2 } \mathcal X_2=\{X_i:i\in\mathcal J_2\} X 2 = { X i : i ∈ J 2 } 构成X的一个分区。根据(3.26)的最后一个方程式, ∑ i ∈ J 1 β i = − ∑ i ∈ J 2 β i \sum_{i\in\mathcal J_1}\beta_i=-\sum_{i\in\mathcal J_2}\beta_i ∑ i ∈ J 1 β i = − ∑ i ∈ J 2 β i 。设 β = ∑ i ∈ J 1 \beta=\sum_{i\in\mathcal J_1} β = ∑ i ∈ J 1 。然后(3.26)的第一部分暗示
∑ i ∈ J 1 β i β X i = ∑ i ∈ J 2 − β i β X i , \sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}X_i=\sum_{i\in\mathcal J_2}\frac{-\beta_i}{\beta}X_i, i ∈ J 1 ∑ β β i X i = i ∈ J 2 ∑ β − β i X i ,
用 ∑ i ∈ J 1 β i β = ∑ i ∈ J 2 − β β = 1 \sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}=\sum_{i\in\mathcal J_2}\frac{-\beta}{\beta}=1 ∑ i ∈ J 1 β β i = ∑ i ∈ J 2 β − β = 1 表示,和 β i β ≥ 0 \frac{\beta_i}{\beta}\ge0 β β i ≥ 0 表示 i ∈ J 2 i\in\mathcal J_2 i ∈ J 2 , − β i β ≥ 0 \frac{-\beta_i}{\beta}\ge0 β − β i ≥ 0 表示 i ∈ J 2 i\in\mathcal J_2 i ∈ J 2 。根据凸包的定义(B.6),这意味着 ∑ i ∈ J 1 β i β X i \sum_{i\in\mathcal J_1}\frac{\beta_i}{\beta}X_i ∑ i ∈ J 1 β β i X i 既属于 X 1 \mathcal X1 X 1 的凸包,也属于 X 2 \mathcal X_2 X 2 的凸包。
现在,让 X \mathcal X X 是一组 d + 2 d+2 d + 2 点。根据Radon定理,可以将其划分为两个集 X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 ,使它们的凸包相交。
现在,让 X \mathcal X X 是一组 d + 2 d+2 d + 2 点。根据Radon定理,可以将其划分为两个集 X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 ,使它们的凸包相交。请注意,当两组点 X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 由超平面分隔时,它们的凸包也由该超平面分隔。因此, X 1 \mathcal X_1 X 1 和 X 2 \mathcal X_2 X 2 不能被超平面分开, X \mathcal X X 也不会破碎。结合我们的上下界,我们证明了V C dim ( R d 中的超平面 ) = d + 1 VC\dim(\mathbb R^d中的超平面)=d+1 V C dim ( R d 中的超平面 ) = d + 1 。
例3.14(轴对齐矩形):
通过考虑菱形图案中的四个点,我们首先证明了VC维数至少为四。然后,很明显,所有16种二分法都可以实现,其中一些如图3.3(a)所示。相反,对于任何一组五个不同的点,如果我们构造包含这些点的最小轴对齐矩形,则其中一个点位于该矩形的内部。
图3.3 VC轴对齐矩形的尺寸。(a) 菱形图案中四个点的可实现二分法示例。(b) 如果内部点和其余点具有相反的标签,则无法实现五个点的采样。
想象一下,我们为这个内部点指定一个负标签,为其余四个点中的每个点指定一个正标签,如图3所示。3(b)。没有轴对齐的矩形可以实现此标记。因此,没有一组五个不同的点可以被粉碎和 V C dim ( 轴对齐矩形 ) = 4 VC\dim(轴对齐矩形)=4 V C dim ( 轴对齐矩形 ) = 4 。
例3.15(凸多边形)
我们主要研究平面上的凸d-角类。为了得到一个下限,我们证明了任何一组 2 d + 1 2d+1 2 d + 1 点都可以被粉碎。为此,我们选择位于圆上的 2 d + 1 2d+1 2 d + 1 点,对于特定的标签,如果负标签多于正标签,则带有正标签的点将用作多边形的顶点,如图3.4(a)所示。否则,负点的切线将用作多边形的边,如(3.4)(b)所示。为了推导上界,可以证明选择圆上的点可以最大化可能的二分法的数量,因此 V C dim ( 凸面 ) = 2 d + 1 VC\dim(凸面)=2d+1 V C dim ( 凸面 ) = 2 d + 1 。还要注意 V C d i m ( 凸多边形 ) = + ∞ VCdim(凸多边形)=+\infty V C d im ( 凸多边形 ) = + ∞ 。
例3.16(正弦函数)
前面的例子表明, H \mathcal H H 的VC维数与定义 H \mathcal H H 的自由参数的数量一致。例如,定义超平面的参数数量与其VC维度匹配。然而,这并不适用于一般情况。本章中的几个练习说明了这一事实。下面从这个角度提供了一个引人注目的例子。考虑下面的正弦函数族: { t → sin ( ω t ) : ω ∈ R } \{t\to\sin(\omega t):\omega\in\mathbb R\} { t → sin ( ω t ) : ω ∈ R } 。这个函数类的一个实例如图3.5所示。这些正弦函数可用于对实线上的点进行分类:
图3.4 平面上的凸面 d d d 形角可以破碎 2 d + 1 2d+1 2 d + 1 个点。(a) 当有更多的负标签时,d形构造。(b) 有更多正面标签时的 d d d 形构造。
图3.5 用于分类的正弦函数 ( ω = 50 ) (\omega=50) ( ω = 50 ) 示例。
用于对实线上的点进行分类:如果点位于曲线上方,则标记为正,否则标记为负。虽然这个正弦函数族是通过一个参数ω定义的,但可以证明 V C dim ( s i n ) = + ∞ VC\dim(sin)=+\infty V C dim ( s in ) = + ∞ (练习3.20)。
许多其他假设集的VC维度可以通过类似的方式确定或上界(参见本章练习)。特别是,维数为 r < ∞ r<\infty r < ∞ 的任何向量空间的 V C VC V C 维数最多可以显示为 r r r (练习3.19)。下一个结果,即阿索尔引理,澄清了增长函数概念与 V C VC V C 维度之间的联系。
图3.6 Sauer引理证明中 G 1 \mathcal G_1 G 1 和 G 2 \mathcal G_2 G 2 如何构造的图解。
定理3.17(Sauer引理)
设 H \mathcal H H 为 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d 的假设集。然后,对于所有 m ∈ ] m a t h b b N m\in]mathbb N m ∈ ] ma t hbb N ,以下不等式成立:
Π H ( m ) ≤ ∑ i = 0 d ⟮ i m ⟯ . ( 3.27 ) \Pi_\mathcal H(m)\le\sum^d_{i=0}\lgroup^m_i\rgroup.\qquad\qquad\qquad(3.27) Π H ( m ) ≤ i = 0 ∑ d ⟮ i m ⟯ . ( 3.27 )
证明: 证明是通过归纳法在 m + d m+d m + d 上进行的。该声明显然适用于 m = 1 m=1 m = 1 和 d = 0 d=0 d = 0 或 d = 1 d=1 d = 1 。 现在,假设它适用于 ( m − 1 , d − 1 ) (m-1,d-1) ( m − 1 , d − 1 ) 和 ( m − 1 , d ) (m-1,d) ( m − 1 , d ) 。固定一个具有 Π H ( m ) \Pi\mathcal H(m) Π H ( m ) 二分法的集合 S = { x 1 , . . . , x m } \mathcal S=\{x_1,...,x_m\} S = { x 1 , ... , x m } ,并设 G = H ∣ S \mathcal G=\mathcal H_{|S} G = H ∣ S 是由对 S \mathcal S S 的限制所导出的概念 H \mathcal H H 的集合。
现在考虑 S ′ = { x 1 , . . . , x m − 1 } S'=\{x_1,...,x_{m-1}\} S ′ = { x 1 , ... , x m − 1 } 上的下列数族。我们将 G 1 = G ∣ S ′ \mathcal G_1=\mathcal G_{|\mathcal S'} G 1 = G ∣ S ′ 定义为约束 S ′ S' S ′ 而产生的概念 H \mathcal H H 的集合。接下来,通过将每个概念标识为 S ′ S' S ′ 或 S S S 中它是非零的点的集合,我们可以定义为
G 2 = { g ′ ⊆ S : ( g ′ ∈ G ) ∧ ( g ′ ∪ { x m } ∈ G ) } . \mathcal G_2=\{g'\subseteq\mathcal S:(g'\in\mathcal G)\wedge(g'\cup\{x_m\}\in\mathcal G)\}. G 2 = { g ′ ⊆ S : ( g ′ ∈ G ) ∧ ( g ′ ∪ { x m } ∈ G )} .
由于 g ′ ⊆ S ′ g'\subseteq\mathcal S' g ′ ⊆ S ′ , g ′ ∈ G g'\in\mathcal G g ′ ∈ G 意味着不添加 x m x_m x m ,它是 G \mathcal G G 的一个概念。此外,约束 g ′ ∪ { x m } ∈ G g'\cup\{x_m\}\in\mathcal G g ′ ∪ { x m } ∈ G 意味着将 x m x_m x m 添加到 g ′ g' g ′ 也使其成为 G \mathcal G G 的概念。 G 1 \mathcal G_1 G 1 和 G 2 \mathcal G_2 G 2 的结构如图3.6所示。观察 ∣ G 1 ∣ + ∣ G 2 ∣ = ∣ G ∣ |\mathcal G_1|+|\mathcal G_2|=|\mathcal G| ∣ G 1 ∣ + ∣ G 2 ∣ = ∣ G ∣ 得到 G 1 \mathcal G_1 G 1 和 G 2 \mathcal G_2 G 2 的定义。
由于 V C dim ( G 1 ) ≤ V C dim ( G ) ≤ d VC\dim(\mathcal G_1)\le VC\dim(\mathcal G)\le d V C dim ( G 1 ) ≤ V C dim ( G ) ≤ d ,则通过生长函数的定义,利用归纳假设,
∣ G 1 ∣ ≤ Π G 1 ( m − 1 ) ≤ ∑ i = 0 d ⟮ i m − 1 ⟯ . |\mathcal G_1|\le\Pi_{\mathcal G_1}(m-1)\le\sum^d_{i=0}\lgroup^{m-1}_i\rgroup. ∣ G 1 ∣ ≤ Π G 1 ( m − 1 ) ≤ i = 0 ∑ d ⟮ i m − 1 ⟯ .
此外,根据 G 2 \mathcal G_2 G 2 的定义,如果集合 Z ⊆ S ′ \mathcal Z\subseteq\mathcal S' Z ⊆ S ′ 被 G ′ \mathcal G' G ′ 粉碎,然后集合 Z ∪ { x m } \mathcal Z\cup\{x_m\} Z ∪ { x m } 被 G \mathcal G G 粉碎。因此,
V C dim ( G 2 ) ≤ V C dim ( G ) − 1 = d − 1 , VC\dim(\mathcal G_2)\le VC\dim(\mathcal G)-1=d-1, V C dim ( G 2 ) ≤ V C dim ( G ) − 1 = d − 1 ,
根据生长函数的定义和归纳假设,
∣ G 2 ∣ ≤ Π G 2 ( m − 1 ) ≤ ∑ i = 0 d − 1 ⟮ i m − 1 ⟯ . |\mathcal G_2|\le\Pi_{\mathcal G_2}(m-1)\le\sum^{d-1}_{i=0}\lgroup^{m-1}_i\rgroup. ∣ G 2 ∣ ≤ Π G 2 ( m − 1 ) ≤ i = 0 ∑ d − 1 ⟮ i m − 1 ⟯ .
因此,
∣ G ∣ = ∣ G 1 ∣ + ∣ G 2 ∣ ≤ ∑ i = 0 d ( i m − 1 ) + ∑ i = 0 d + 1 ( i m − 1 ) = ∑ i = 0 d ( i m − 1 ) + ( i − 1 m − 1 ) = ∑ i = 0 d ( i m ) , |\mathcal G|=|\mathcal G_1|+|\mathcal G_2|\le\sum^d_{i=0}(^{m-1}_i)+\sum^{d+1}_{i=0}(^{m-1}_i)=\sum^d_{i=0}(^{m-1}_i)+(^{m-1}_{i-1})=\sum^d_{i=0}(^m_i), ∣ G ∣ = ∣ G 1 ∣ + ∣ G 2 ∣ ≤ i = 0 ∑ d ( i m − 1 ) + i = 0 ∑ d + 1 ( i m − 1 ) = i = 0 ∑ d ( i m − 1 ) + ( i − 1 m − 1 ) = i = 0 ∑ d ( i m ) ,
这就完成了归纳证明。
Sauer引理的重要性可以从推论3.18中看出,它显著地表明生长函数只表现出两种类型的行为: V C dim ( H ) = d < + ∞ VC\dim(\mathcal H)=d<+\infty V C dim ( H ) = d < + ∞ ,在这种情况下 Π H ( m ) = O ( m d ) \Pi_\mathcal H(m)=O(m^d) Π H ( m ) = O ( m d ) ,或 V C dim ( H ) = + ∞ VC\dim(\mathcal H)=+\infty V C dim ( H ) = + ∞ ,在这种情况下 Π H ( m ) = 2 m \Pi_\mathcal H(m)=2^m Π H ( m ) = 2 m 。
推论3.18
设 H \mathcal H H 为 V C dim ( H ) = d VC\dim(\mathcal H)=d V C dim ( H ) = d 的假设集。那么对于所有的 m ≥ d m\ge d m ≥ d 来说,
Π H ( m ) ≤ ( e m d ) d = O ( m d ) . ( 3.28 ) \Pi_\mathcal H(m)\le(\frac{em}{d})^d=O(m^d).\qquad\qquad\qquad(3.28) Π H ( m ) ≤ ( d e m ) d = O ( m d ) . ( 3.28 )
证明: 证明从Sauer引理开始。第一个不等式将每个和乘以一个从 m ≥ d m\ge d m ≥ d 开始大于或等于1的因子,而第二个不等式将非负和与之相加。
Π H ( m ) ≤ ∑ i = 0 d ( i m ) ≤ ∑ i = 0 d ( i m ) ( m d ) d − i ≤ ∑ i = 0 m ( i m ) ( m d ) d − i = ( m d ) d ∑ i = 0 m ( i m ) ( d m ) i = ( m d ) d ( 1 + d m ) m ≤ ( m d ) d e d . \begin{aligned}
\Pi_\mathcal H(m)
&\le\sum^d_{i=0}(^m_i)\\
&\le\sum^d_{i=0}(^m_i)(\frac{m}{d})^{d-i}\\
&\le\sum^m_{i=0}(^m_i)(\frac{m}{d})^{d-i}\\
&=(\frac{m}{d})^d\sum^m_{i=0}(^m_i)(\frac{d}{m})^i\\
&=(\frac{m}{d})^d(1+\frac{d}{m})^m\le(\frac{m}{d})^de^d.
\end{aligned} Π H ( m ) ≤ i = 0 ∑ d ( i m ) ≤ i = 0 ∑ d ( i m ) ( d m ) d − i ≤ i = 0 ∑ m ( i m ) ( d m ) d − i = ( d m ) d i = 0 ∑ m ( i m ) ( m d ) i = ( d m ) d ( 1 + m d ) m ≤ ( d m ) d e d .
在使用二项式定理简化表达式后,使用一般不等式 ( 1 − x ) ≤ e − x (1-x)\le e^{-x} ( 1 − x ) ≤ e − x 得到最终不等式。
刚建立的VC维和生长函数之间的显式关系,结合推论3.9,立即导致以下基于VC维的泛化边界。
推论3.19(VC维泛化界)
设 H \mathcal H H 是一个取值函数族 { − 1 , 1 } \{−1,1\} { − 1 , 1 } 与VC维数 d d d 。然后,对于任何 δ > 0 δ>0 δ > 0 ,概率至少为 1 − δ 1−\delta 1 − δ 、 以下适用于所有 h ∈ H h\in\mathcal H h ∈ H :
R ( h ) ≤ R ^ S ( h ) + 2 d log e m d m + log 1 δ 2 m . ( 3.29 ) R(h)\le\hat R_S(h)+\sqrt{\frac{2d\log\frac{em}{d}}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}.\qquad\qquad\qquad(3.29) R ( h ) ≤ R ^ S ( h ) + m 2 d log d e m + 2 m log δ 1 . ( 3.29 )
因此,这个推广界的形式是
R ( h ) ≤ R ^ S ( h ) + O ( log ( m / d ) ( m / d ) ) , ( 3.30 ) R(h)\le\hat R_S(h)+O(\sqrt{\frac{\log(m/d)}{(m/d)}}),\qquad\qquad\qquad(3.30) R ( h ) ≤ R ^ S ( h ) + O ( ( m / d ) log ( m / d ) ) , ( 3.30 )
它强调了泛化的比率/数据的重要性。该定理提供了奥卡姆剃刀原理的另一个实例,其中简单性是用更小的VC维度来衡量的。
VC维度边界可以直接导出,而无需使用中间的Rademacher复杂度边界,如(3.23):将Sauer引理与(3.23)相结合,得到以下高概率边界
R ( h ) ≤ R ^ S ( h ) + 8 d log 2 e m d + 8 log 4 δ m , R(h)\le\hat R_S(h)+\sqrt{\frac{8d\log\frac{2em}{d}+8\log\frac{4}{\delta}}{m}}, R ( h ) ≤ R ^ S ( h ) + m 8 d log d 2 e m + 8 log δ 4 ,
它的一般形式是(3.30)。对数因子在这些界限中只起次要作用。事实上,可以使用更精细的分析来消除该因素。
3.4 下界
在上一节中,我们给出了泛化误差的几个上界。相比之下,本节根据所用假设集的VC维度提供了任何学习算法的泛化误差的下界。
通过发现任何算法的“坏”分布来显示这些下界。由于学习算法是任意的,因此很难指定特定的分布。相反,它足以非建设性地证明它的存在。在高层次上,用来实现这一点的证明技术是保罗·埃尔多的概率论方法。在下面的证明中,首先给出了定义分布的参数的期望误差的下界。由此可知,下限至少适用于一组参数,即一个分布。
定理3.20(下限,可实现情况)
设 H \mathcal H H 为vc维数 d > 1 d>1 d > 1 的假设集。那么,对于任何 m ≥ 1 m\ge1 m ≥ 1 和任何学习算法 A \mathcal A A ,都存在一个分布 D \mathcal D D 除以 X \mathcal X X 和一个目标函数 f ∈ H f\in\mathcal H f ∈ H 以致
P S ∼ D m [ R D ( h S , f ) > d − 1 32 m ] ≥ 1 / 100. ( 3.31 ) \underset{S\sim\mathcal D^m}{\mathbb P}[R_\mathcal D(h_S,f)>\frac{d-1}{32m}]\ge1/100.\qquad\qquad\qquad(3.31) S ∼ D m P [ R D ( h S , f ) > 32 m d − 1 ] ≥ 1/100. ( 3.31 )
证明: 设 X ˉ = { x 0 , x 1 , . . . , x d − 1 } ⊆ X \bar X=\{x_0,x_1,...,x_{d-1}\}\subseteq X X ˉ = { x 0 , x 1 , ... , x d − 1 } ⊆ X 是一个被 H \mathcal H H 打碎的集合。对于任何 ϵ > 0 \epsilon>0 ϵ > 0 ,我们选择 D \mathcal D D ,使其支持度减少到 X ˉ \bar X X ˉ ,因此一个点 x 0 x_0 x 0 具有非常高的概率 ( 1 − 8 ϵ ) (1-8\epsilon) ( 1 − 8 ϵ ) ,其余概率质量均匀分布在其他点之间:
P D [ x 0 ] = 1 − 8 ϵ a n d ∀ i ∈ [ d − 1 ] , P D [ x i ] = 8 ϵ d − 1 . ( 3.32 ) \underset{\mathcal D}{\mathbb P}[x_0]=1-8\epsilon\qquad and\qquad\forall_i\in[d-1],\underset{\mathcal D}{\mathbb P}[x_i]=\frac{8\epsilon}{d-1}.\qquad\qquad\qquad(3.32) D P [ x 0 ] = 1 − 8 ϵ an d ∀ i ∈ [ d − 1 ] , D P [ x i ] = d − 1 8 ϵ . ( 3.32 )
有了这个定义,大多数样本都包含 X 0 X_0 X 0 ,因为 X X X 被粉碎,当确定 x i x_i x i 席上没有落在训练集中的标签时, A \mathcal A A 基本上不能比抛掷硬币更好。
我们假设 A \mathcal A A 在 x 0 x_0 x 0 上没有错误,但不失一般性。对于一个样本 S S S ,我们让 S ˉ \bar S S ˉ 表示其元素在 { x 1 , . . . , x d − 1 } \{x_1,...,x_{d-1}\} { x 1 , ... , x d − 1 } 中的集合,让 S \mathcal S S 是大小为 m m m 的样本 S S S 的集合,使得 ∣ S ˉ ∣ ≤ ( d − 1 ) / 2 |\bar S|\le(d-1)/2 ∣ S ˉ ∣ ≤ ( d − 1 ) /2 。现在,固定一个样本 S ∈ S S\in\mathcal S S ∈ S ,并考虑在所有标号 f : X ˉ → { 0 , 1 } f:\bar X\to\{0,1\} f : X ˉ → { 0 , 1 } 上的均匀分布 U \mathcal U U ,因为集合被破坏,所有的标号都在 H \mathcal H H 中。然后,以下下限成立:
E f ∼ U [ R D ( h S , f ) ] = ∑ f ∑ x ∈ X ˉ 1 h S ( x ) ≠ f ( x ) P [ x ] P [ f ] ≥ ∑ f ∑ x ∉ S ˉ 1 h S ( x ) ≠ f ( x ) P [ x ] P [ f ] = ∑ x ∉ S ˉ ( ∑ f 1 h S ( x ) ≠ f ( x ) P [ x ] ) P [ f ] = 1 2 ∑ x ∉ S ˉ P [ f ] ≥ 1 2 d − 1 2 8 ϵ d − 1 = 2 ϵ . ( 3.33 ) \begin{aligned}
\underset{f\sim\mathcal U}{\mathbb E}[R_\mathcal D(h_S,f)]
&=\sum_f\sum_{x\in\bar X}1_{h_S(x)\neq f(x)}\mathbb P[x]\mathbb P[f]\\
&\ge\sum_f\sum_{x\notin\bar S}1_{h_S(x)\neq f(x)}\mathbb P[x]\mathbb P[f]\\
&=\sum_{x\notin\bar S}(\sum_f1_{h_S(x)\neq f(x)}\mathbb P[x])\mathbb P[f]\\
&=\frac{1}{2}\sum_{x\notin\bar S}\mathbb P[f]\ge\frac{1}{2}\frac{d-1}{2}\frac{8\epsilon}{d-1}=2\epsilon.\qquad\qquad\qquad(3.33)
\end{aligned} f ∼ U E [ R D ( h S , f )] = f ∑ x ∈ X ˉ ∑ 1 h S ( x ) = f ( x ) P [ x ] P [ f ] ≥ f ∑ x ∈ / S ˉ ∑ 1 h S ( x ) = f ( x ) P [ x ] P [ f ] = x ∈ / S ˉ ∑ ( f ∑ 1 h S ( x ) = f ( x ) P [ x ]) P [ f ] = 2 1 x ∈ / S ˉ ∑ P [ f ] ≥ 2 1 2 d − 1 d − 1 8 ϵ = 2 ϵ . ( 3.33 )
第一个下界成立,因为当我们只考虑 x ∉ S ˉ x\notin\bar S x ∈ / S ˉ 而不是 X ˉ \bar X X ˉ 中的所有 X ∉ S ˉ X\notin\bar S X ∈ / S ˉ 时,我们从求和中去除非负项。在重新排列项之后,随后的等式成立,因为我们对 f ∈ H f\in\mathcal H f ∈ H 取一个期望值,每个 f f f 和 H \mathcal H H 上的权重相等, H \mathcal H H 粉碎 X ˉ \bar X X ˉ 。由于 D \mathcal D D 和 S ˉ \bar S S ˉ 的定义,最后的下限成立,后者意味着 ∣ X ˉ − S ˉ ∣ ≥ ( d − 1 ) / 2 |\bar X-\bar S|\ge(d-1)/2 ∣ X ˉ − S ˉ ∣ ≥ ( d − 1 ) /2 。
由于(3.33)适用于所有 S ∈ S S\in\mathcal S S ∈ S ,因此它也适用于所有 S ∈ S S\in\mathcal S S ∈ S : E S ∈ S [ E f ∼ U [ R D ( h S , f ) ] ] ≥ 2 ϵ \mathbb E_{S\in\mathcal S}[\mathbb E_{f\sim\mathcal U}[R_\mathcal D(h_S,f)]]\ge 2\epsilon E S ∈ S [ E f ∼ U [ R D ( h S , f )]] ≥ 2 ϵ 。根据Fubini定理,期望值可以置换,因此,
E f ∼ U [ E S ∈ S [ R D ( h S , f ) ] ] ≥ 2 ϵ . ( 3.34 ) \underset{f\sim\mathcal U}{\mathbb E}[\underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f)]]\ge2\epsilon.\qquad\qquad\qquad(3.34) f ∼ U E [ S ∈ S E [ R D ( h S , f )]] ≥ 2 ϵ . ( 3.34 )
这意味着 E f ∼ U [ E S ∈ S [ R D ( h S , f ) ] ] ≥ 2 ϵ \underset{f\sim\mathcal U}{\mathbb E}[\underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f)]]\ge2\epsilon f ∼ U E [ S ∈ S E [ R D ( h S , f )]] ≥ 2 ϵ 至少用于一个标记 f 0 ∈ H f_0\in\mathcal H f 0 ∈ H 。将该期望分解为两部分,并使用 R D ( h S , f 0 ) ≤ P D [ X ˉ − { x 0 } ] R_\mathcal D(h_S,f_0)\le\mathbb P_\mathcal D[\bar X-\{x_0\}] R D ( h S , f 0 ) ≤ P D [ X ˉ − { x 0 }] ,我们得到:
E S ∈ S [ R D ( h S , f 0 ) ] = ∑ S : R D ( h S , f 0 ) ≥ ϵ R D ( h S , f 0 ) P [ R D ( h S , f 0 ) ] + ∑ S : R D ( h S , f 0 ) < ϵ R D ( h S , f 0 ) P [ R D ( h S , f 0 ) ] ≤ P D [ X ˉ − { x 0 } ] P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ P S ∈ S [ R D ( h S , f 0 ) < ϵ ] ≤ 8 ϵ P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ ( 1 − P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ) . \begin{aligned}
\underset{S\in\mathcal S}{\mathbb E}[R_\mathcal D(h_S,f_0)]
&=\sum_{S:R_\mathcal D(h_S,f_0)\ge\epsilon}R_\mathcal D(h_S,f_0)\mathbb P[R_\mathcal D(h_S,f_0)]+\sum_{S:R_\mathcal D(h_S,f_0)<\epsilon}R_\mathcal D(h_S,f_0)\mathbb P[R_\mathcal D(h_S,f_0)]\\
&\le\underset{\mathcal D}{\mathbb P}[\bar X-\{x_0\}]\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]+\epsilon\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)<\epsilon]\\
&\le8\epsilon\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]+\epsilon(1-\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]).
\end{aligned} S ∈ S E [ R D ( h S , f 0 )] = S : R D ( h S , f 0 ) ≥ ϵ ∑ R D ( h S , f 0 ) P [ R D ( h S , f 0 )] + S : R D ( h S , f 0 ) < ϵ ∑ R D ( h S , f 0 ) P [ R D ( h S , f 0 )] ≤ D P [ X ˉ − { x 0 }] S ∈ S P [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ S ∈ S P [ R D ( h S , f 0 ) < ϵ ] ≤ 8 ϵ S ∈ S P [ R D ( h S , f 0 ) ≥ ϵ ] + ϵ ( 1 − S ∈ S P [ R D ( h S , f 0 ) ≥ ϵ ]) .
P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] \mathbb P_{S\in\mathcal S}[R_\mathcal D(h_S,f_0)\ge\epsilon] P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] 收益率中的集合项
P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ 1 7 ϵ ( 2 ϵ − ϵ ) = 1 7 . ( 3.35 ) \underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\frac{1}{7\epsilon}(2\epsilon-\epsilon)=\frac{1}{7}.\qquad\qquad\qquad(3.35) S ∈ S P [ R D ( h S , f 0 ) ≥ ϵ ] ≥ 7 ϵ 1 ( 2 ϵ − ϵ ) = 7 1 . ( 3.35 )
因此,所有样本 S S S (不一定在 S S S 中)上的概率可以是下限,如下所示:
P S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ P S ∈ S [ R D ( h S , f 0 ) ≥ ϵ ] P [ S ] ≥ 1 7 P [ S ] . ( 3.36 ) \underset{S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\underset{S\in\mathcal S}{\mathbb P}[R_\mathcal D(h_S,f_0)\ge\epsilon]\mathbb P[\mathcal S]\ge\frac{1}{7}\mathbb P[\mathcal S].\qquad\qquad\qquad(3.36) S P [ R D ( h S , f 0 ) ≥ ϵ ] ≥ S ∈ S P [ R D ( h S , f 0 ) ≥ ϵ ] P [ S ] ≥ 7 1 P [ S ] . ( 3.36 )
这使我们找到了 P [ S ] \mathbb P[S] P [ S ] 的一个下界。根据乘法Chernoff界(定理D.4),对于任何 γ > 0 \gamma>0 γ > 0 ,大于 ( d − 1 ) / 2 (d−1)/2 ( d − 1 ) /2 点在尺寸为 m m m 的样本中绘制:
1 − P [ S ] = P [ S m ≥ 8 ϵ m ( 1 + γ ) ] ≤ e − 8 ϵ m γ 2 3 . ( 3.37 ) 1-\mathbb P[\mathcal S]=\mathbb P[S_m\ge8\epsilon m(1+\gamma)]\le e^{-8\epsilon m\frac{\gamma^2}{3}}.\qquad\qquad\qquad(3.37) 1 − P [ S ] = P [ S m ≥ 8 ϵ m ( 1 + γ )] ≤ e − 8 ϵ m 3 γ 2 . ( 3.37 )
因此,对于 ϵ = ( d − 1 ) / ( 32 m ) \epsilon=(d-1)/(32m) ϵ = ( d − 1 ) / ( 32 m ) 和 γ = 1 \gamma=1 γ = 1 ,
P [ S m ≥ d − 1 2 ] ≤ e − ( d − 1 ) / 12 ≤ e − 1 / 12 ≤ 1 − 7 δ , ( 3.38 ) \mathbb P[S_m\ge\frac{d-1}{2}]\le e^{-(d-1)/12}\le e^{-1/12}\le1-7\delta,\qquad\qquad\qquad(3.38) P [ S m ≥ 2 d − 1 ] ≤ e − ( d − 1 ) /12 ≤ e − 1/12 ≤ 1 − 7 δ , ( 3.38 )
对于 δ ≤ . 01. \delta\le.01. δ ≤ .01. 得到 P [ S ] ≥ 7 δ \mathbb P[\mathcal S]\ge7\delta P [ S ] ≥ 7 δ 和 P S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ δ \mathbb P_S[R_\mathcal D(h_S,f_0)\ge\epsilon]\ge\delta P S [ R D ( h S , f 0 ) ≥ ϵ ] ≥ δ 。
该定理表明,对于任何算法 A \mathcal A A ,都存在 X X X 上的“坏”分布和一个目标函数 f f f ,其由 A \mathcal A A 返回的假设误差是一个常数乘以 d m \frac{d}{m} m d ,具有一定的常数概率。这进一步证明了VC维度在学习中所起的关键作用。结果表明,当VC维数为无穷大时,在可实现的情况下,PAC学习是不可能的。
请注意,该证明显示了比定理陈述更强的结果:分布 D \mathcal D D 的选择独立于算法 A \mathcal A A 。现在我们给出了一个定理,给出了不可实现情况下的下界。需要以下两个引理来证明。
引理3.21
设 α \alpha α 为均匀分布的随机变量,取 { α − , α + } \{\alpha_-,\alpha_+\} { α − , α + } 中的值,其中 α − = 1 2 − ϵ 2 \alpha_-=\frac{1}{2}-\frac{\epsilon}{2} α − = 2 1 − 2 ϵ 和 α + = 1 2 + ϵ 2 \alpha_+=\frac{1}{2}+\frac{\epsilon}{2} α + = 2 1 + 2 ϵ ,设 S S S 为 m ≥ 1 m\ge1 m ≥ 1 个随机变量的样本, X 1 , . . . , X m X_1,...,X_m X 1 , ... , X m 取 { 0 , 1 } \{0,1\} { 0 , 1 } 中的值,并根据 P D α [ X = 1 ] = α \mathbb P_{\mathcal D_\alpha}[X=1]=\alpha P D α [ X = 1 ] = α 定义的分布 D α \mathcal D_\alpha D α 独立且均匀分布。设 h h h 是从 X m X^m X m 到 α − , α + \alpha_-,\alpha_+ α − , α + 的函数,则以下公式成立:
α E [ S ∼ D α m P [ h ( S ) ≠ α ] ] ≥ Φ ( 2 ⌈ m / 2 ⌉ , ϵ ) , ( 3.39 ) \underset{\mathbb E}{\alpha}[\underset{\mathbb P}{S\sim\mathcal D^m_\alpha}[h(S)\neq\alpha]]\ge\Phi(2\lceil m/2\rceil,\epsilon),\qquad\qquad\qquad(3.39) E α [ P S ∼ D α m [ h ( S ) = α ]] ≥ Φ ( 2 ⌈ m /2 ⌉ , ϵ ) , ( 3.39 )
其中 Φ ( m , ϵ ) = 1 4 ( 1 − 1 − exp ( − m ϵ 2 1 − ϵ 2 ) ) \Phi(m,\epsilon)=\frac{1}{4}(1-\sqrt{1-\exp(-\frac{m\epsilon^2}{1-\epsilon^2})}) Φ ( m , ϵ ) = 4 1 ( 1 − 1 − exp ( − 1 − ϵ 2 m ϵ 2 ) ) 表示所有 m m m 和 ϵ \epsilon ϵ 。
证明: 这个引理可以用两枚带有 α − \alpha_- α − 和 α + \alpha_+ α + 偏差的硬币的实验来解释。这意味着,对于基于从 D α − \mathcal D_{\alpha_-} D α − 或 D α + D_{\alpha_+} D α + 中抽取的样本 S S S 的判别规则 h ( S ) h(S) h ( S ) ,要确定投掷了哪枚硬币,样本大小 m m m 必须至少为 Ω ( 1 / ϵ 2 ) \Omega(1/\epsilon^2) Ω ( 1/ ϵ 2 ) 。这个证明留作练习(练习D.3)。我们将利用这样一个事实,即对于任何固定的 ϵ \epsilon ϵ ,函数 m ↦ Φ ( m , x ) m\mapsto\Phi(m,x) m ↦ Φ ( m , x ) 是凸的,这并不难建立。
引理3.22
设 Z Z Z 为取 [ 0 , 1 ] [0,1] [ 0 , 1 ] 值的随机变量。然后,对于任意 γ ∈ [ 0 , 1 ) \gamma\in[0,1) γ ∈ [ 0 , 1 ) ,
P [ z > γ ] ≥ E [ Z ] − γ 1 − γ > E [ Z ] − γ . ( 3.40 ) \mathbb P[z>\gamma]\ge\frac{\mathbb E[Z]-\gamma}{1-\gamma}>\mathbb E[Z]-\gamma.\qquad\qquad\qquad(3.40) P [ z > γ ] ≥ 1 − γ E [ Z ] − γ > E [ Z ] − γ . ( 3.40 )
证明: 由于 Z Z Z 取的值在 [ 0 , 1 ] [0,1] [ 0 , 1 ] 中,
E [ Z ] = ∑ z ≤ γ P [ Z = z ] z + ∑ z > γ P [ Z = z ] z ≤ ∑ z ≤ γ P [ Z = z ] γ + ∑ z > γ P [ Z = z ] = γ P [ Z ≤ γ ] + P [ Z > γ ] = γ ( 1 − P [ Z > γ ] ) + P [ Z > γ ] = ( 1 − γ ) P [ Z > γ ] + γ , \begin{aligned}
\mathbb E[Z]
&=\sum_{z\le\gamma}\mathbb P[Z=z]z+\sum_{z>\gamma}\mathbb P[Z=z]z\\
&\le\sum_{z\le\gamma}\mathbb P[Z=z]\gamma+\sum_{z>\gamma}\mathbb P[Z=z]\\
&=\gamma\mathbb P[Z\le\gamma]+P[Z>\gamma]\\
&=\gamma(1-\mathbb P[Z>\gamma])+\mathbb P[Z>\gamma]\\
&=(1-\gamma)\mathbb P[Z>\gamma]+\gamma,
\end{aligned} E [ Z ] = z ≤ γ ∑ P [ Z = z ] z + z > γ ∑ P [ Z = z ] z ≤ z ≤ γ ∑ P [ Z = z ] γ + z > γ ∑ P [ Z = z ] = γ P [ Z ≤ γ ] + P [ Z > γ ] = γ ( 1 − P [ Z > γ ]) + P [ Z > γ ] = ( 1 − γ ) P [ Z > γ ] + γ ,
这就是证据的结论。
定理3.23(下限,不可变现情况)
设 H \mathcal H H 为 V C VC V C 维 d > 1 d>1 d > 1 的假设集。然后,对于任意 m ≥ 1 m\ge1 m ≥ 1 和任意学习算法 A \mathcal A A ,存在分布 D \mathcal D D 除以 X × { 0 , 1 } X\times\{0,1\} X × { 0 , 1 } ,从而:
P S ∼ D m [ R D ( h S ) − inf h ∈ H R D ( h ) > d 320 m ] ≥ 1 / 64. ( 3.41 ) \underset{S\sim\mathcal D^m}{\mathbb P}[R_\mathcal D(h_S)-\underset{h\in\mathcal H}{\inf}R_\mathcal D(h)>\sqrt{\frac{d}{320m}}]\ge1/64.\qquad\qquad\qquad(3.41) S ∼ D m P [ R D ( h S ) − h ∈ H inf R D ( h ) > 320 m d ] ≥ 1/64. ( 3.41 )
等价地,对于任何学习算法,样本复杂度验证
m ≥ d 320 ϵ 2 . ( 3.42 ) m\ge\frac{d}{320\epsilon^2}.\qquad\qquad\qquad(3.42) m ≥ 320 ϵ 2 d . ( 3.42 )
证明: 设 X ˉ = { x 1 , . . . , x d } ⊆ X \bar X=\{x_1,...,x_d\}\subseteq X X ˉ = { x 1 , ... , x d } ⊆ X 为一组被 H \mathcal H H 击碎的粒子。对于任意 α ∈ [ 0 , 1 ] \alpha\in[0,1] α ∈ [ 0 , 1 ] 和任意向量 σ = ( σ 1 , . . . , σ d ) T ∈ { − 1 , + 1 } d \sigma=(\sigma_1,...,\sigma_d)^T\in\{-1,+1\}^d σ = ( σ 1 , ... , σ d ) T ∈ { − 1 , + 1 } d ,我们定义了一个分布 D σ \mathcal D_\sigma D σ ,其支持度 X ˉ × { 0 , 1 } \bar X\times\{0,1\} X ˉ × { 0 , 1 } 如下:
∀ i ∈ [ d ] , P D σ [ ( x i , 1 ) ] = 1 d ( 1 2 + σ i α 2 ) . ( 3.43 ) \forall_i\in[d],\quad\underset{\mathcal D_\sigma}{\mathbb P}[(x_i,1)]=\frac{1}{d}(\frac{1}{2}+\frac{\sigma_i\alpha}{2}).\qquad\qquad\qquad(3.43) ∀ i ∈ [ d ] , D σ P [( x i , 1 )] = d 1 ( 2 1 + 2 σ i α ) . ( 3.43 )
因此,每个点 x i , i ∈ [ d ] x_i,i\in[d] x i , i ∈ [ d ] 的标签遵循有偏硬币的分布 P D σ [ ⋅ ∣ x i ] \mathbb P_{\mathcal D_\sigma}[\cdot|x_i] P D σ [ ⋅ ∣ x i ] ,其中偏差由 σ i \sigma_i σ i 的符号和 α \alpha α 的大小决定。为了确定每个点 x i x_i x i 的最可能标签,学习算法因此需要以比 α \alpha α 更高的精度估计 P D σ [ 1 ∣ x i ] \mathbb P_{\mathcal D_\sigma}[1|x_i] P D σ [ 1∣ x i ] 。为了进一步增加难度,将根据算法选择 α \alpha α 和 σ \sigma σ ,如引理3.21所示, Ω ( 1 / α 2 ) \Omega(1/\alpha^2) Ω ( 1/ α 2 ) 训练样本中每个点 x i x_i x i 的实例。
显然,对于所有 i ∈ [ d ] i\in[d] i ∈ [ d ] ,贝叶斯分类器 h D σ ∗ h^*_{\mathcal D_\sigma} h D σ ∗ 由 h D σ ∗ ( x i ) = arg max y ∈ { 0 , 1 } P [ y ∣ x i ] = 1 σ i > 0 h^*_{\mathcal D_\sigma}(x_i)=\arg\max_{y\in\{0,1\}}\mathbb P[y|x_i]=1_{\sigma_i>0} h D σ ∗ ( x i ) = arg max y ∈ { 0 , 1 } P [ y ∣ x i ] = 1 σ i > 0 定义。因为 X ˉ \bar X X ˉ 被粉碎,所以 h D σ ∗ h^*_{\mathcal D_\sigma} h D σ ∗ 在 H \mathcal H H 中。对于所有的 h ∈ H h\in\mathcal H h ∈ H ,
R D σ ( h ) − R D σ ( h D σ ∗ ) = 1 d ∑ x ∈ X ˉ ( α 2 + α 2 ) 1 h ( x ) ≠ h D σ ∗ ( x ) = α d ∑ x ∈ X ˉ 1 h ( x ) ≠ h D σ ∗ ( x ) . ( 3.44 ) R_{\mathcal D_\sigma}(h)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})=\frac{1}{d}\sum_{x\in\bar X}(\frac{\alpha}{2}+\frac{\alpha}{2})1_{h(x)\neq h^*_{\mathcal D_\sigma}(x)}=\frac{\alpha}{d}\sum_{x\in\bar X}1_{h(x)\neq h^*_{\mathcal D_\sigma}(x)}.\quad(3.44) R D σ ( h ) − R D σ ( h D σ ∗ ) = d 1 x ∈ X ˉ ∑ ( 2 α + 2 α ) 1 h ( x ) = h D σ ∗ ( x ) = d α x ∈ X ˉ ∑ 1 h ( x ) = h D σ ∗ ( x ) . ( 3.44 )
让 h S h_S h S 表示学习算法 A \mathcal A A 在接收到根据 D σ \mathcal D_\sigma D σ 绘制的标记样本 S S S 后返回的假设。我们将用 ∣ S ∣ x |S|_x ∣ S ∣ x 表示点 x x x 在 S S S 中的出现次数。设 U \mathcal U U 表示 { − 1 , + 1 } d \{-1,+1\}^d { − 1 , + 1 } d 上的均匀分布。然后,鉴于 ( 3.44 ) (3.44) ( 3.44 ) ,以下观点成立:
E σ ∼ U S ∼ D σ m [ 1 α [ R D σ ( h S ) − R D σ ( h D σ ∗ ) ] ] = 1 d ∑ x ∈ X ˉ E σ ∼ U S ∼ D σ m [ 1 h S ( x ) ≠ h D σ ∗ ( x ) ] = 1 d ∑ x ∈ X ˉ E σ ∼ U [ P S ∼ D σ m [ h S ( x ) ≠ h D σ ∗ ( x ) ] ] = 1 d ∑ x ∈ X ˉ ∑ n = 0 m E σ ∼ U [ P S ∼ D σ m [ h S ( x ) ≠ h D σ ∗ ( x ) ∣ ∣ S ∣ x = n ] P [ ∣ S ∣ x = n ] ] ≥ 1 d ∑ x ∈ X ˉ ∑ n = 0 m Ω ( n + 1 , α ) P [ ∣ S ∣ x = n ] ( 引理 3.21 ) ≥ 1 d ∑ x ∈ X ˉ Ω ( m / d , α ) ( Φ ( ⋅ , α ) 的凸性与 J e n s e n 不等式。 ) \begin{aligned}
&\underset{\underset{S\sim\mathcal D^m_\sigma}{\sigma\sim\mathcal U}}{\mathbb E}[\frac{1}{\alpha}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})]]\\
&=\frac{1}{d}\sum_{x\in\bar X}\underset{\underset{S\sim\mathcal D^m_\sigma}{\sigma\sim\mathcal U}}{\mathbb E}[1_{h_S(x)\neq h^*_{\mathcal D_\sigma}(x)}]\\
&=\frac{1}{d}\sum_{x\in\bar X}\underset{\sigma\sim\mathcal U}{\mathbb E}[\underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[h_S(x)\neq h^*_{\mathcal D_\sigma}(x)]]\\
&=\frac{1}{d}\sum_{x\in\bar X}\sum^m_{n=0}\underset{\sigma\sim\mathcal U}{\mathbb E}[\underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[h_S(x)\neq h^*_{\mathcal D_\sigma}(x)||S|_x=n]\mathbb P[|S|_x=n]]\\
&\ge\frac{1}{d}\sum_{x\in\bar X}\sum^m_{n=0}\Omega(n+1,\alpha)\mathbb P[|S|_x=n]\qquad\qquad\qquad\qquad\qquad(引理 3.21)\\
&\ge\frac{1}{d}\sum_{x\in\bar X}\Omega(m/d,\alpha)\qquad\qquad\qquad\qquad\qquad(\Phi(\cdot,\alpha)的凸性与Jensen不等式。)
\end{aligned} S ∼ D σ m σ ∼ U E [ α 1 [ R D σ ( h S ) − R D σ ( h D σ ∗ )]] = d 1 x ∈ X ˉ ∑ S ∼ D σ m σ ∼ U E [ 1 h S ( x ) = h D σ ∗ ( x ) ] = d 1 x ∈ X ˉ ∑ σ ∼ U E [ S ∼ D σ m P [ h S ( x ) = h D σ ∗ ( x )]] = d 1 x ∈ X ˉ ∑ n = 0 ∑ m σ ∼ U E [ S ∼ D σ m P [ h S ( x ) = h D σ ∗ ( x ) ∣∣ S ∣ x = n ] P [ ∣ S ∣ x = n ]] ≥ d 1 x ∈ X ˉ ∑ n = 0 ∑ m Ω ( n + 1 , α ) P [ ∣ S ∣ x = n ] ( 引理 3.21 ) ≥ d 1 x ∈ X ˉ ∑ Ω ( m / d , α ) ( Φ ( ⋅ , α ) 的凸性与 J e n se n 不等式。 )
由于 σ \sigma σ 上的期望值是 Φ ( m / d + 1 , α ) \Phi(m/d+1,\alpha) Φ ( m / d + 1 , α ) 的下界,因此必然存在某个 σ ∈ { − 1 , + 1 } d \sigma\in\{-1,+1\}^d σ ∈ { − 1 , + 1 } d
E S ∼ D σ m [ 1 α [ R D σ ( h S ) − R D σ ( h D σ ∗ ) ] ] > Φ ( m / d + 1 , α ) . ( 3.45 ) \underset{S\sim\mathcal D^m_\sigma}{\mathbb E}[\frac{1}{\alpha}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})]]>\Phi(m/d+1,\alpha).\qquad\qquad\qquad(3.45) S ∼ D σ m E [ α 1 [ R D σ ( h S ) − R D σ ( h D σ ∗ )]] > Φ ( m / d + 1 , α ) . ( 3.45 )
然后,通过引理3.22,对于 σ \sigma σ ,对于任何 γ ∈ [ 0 , 1 ] \gamma\in[0,1] γ ∈ [ 0 , 1 ] ,
P S ∼ D σ m [ 1 α [ R D σ ( h S ) − R D σ ( h D σ ∗ ) ] > γ u ] > ( 1 − γ ) u , ( 3.46 ) \underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[\frac{1}{\alpha}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})]>\gamma u]>(1-\gamma)u,\qquad\qquad\qquad(3.46) S ∼ D σ m P [ α 1 [ R D σ ( h S ) − R D σ ( h D σ ∗ )] > γ u ] > ( 1 − γ ) u , ( 3.46 )
其中 u = Φ ( m / d + 1 , α ) u=\Phi(m/d+1,\alpha) u = Φ ( m / d + 1 , α ) 。选择 δ \delta δ 和 ϵ \epsilon ϵ ,使得 δ ≤ ( 1 − γ ) u \delta\le(1-\gamma)u δ ≤ ( 1 − γ ) u 和 ϵ ≤ γ α u \epsilon\le\gamma\alpha u ϵ ≤ γ αu
P S ∼ D σ m [ R D σ ( h S ) − R D σ ( h D σ ∗ ) > ϵ ] > δ . ( 3.47 ) \underset{S\sim\mathcal D^m_\sigma}{\mathbb P}[R_{\mathcal D_\sigma}(h_S)-R_{\mathcal D_\sigma}(h^*_{\mathcal D_\sigma})>\epsilon]>\delta.\qquad\qquad\qquad(3.47) S ∼ D σ m P [ R D σ ( h S ) − R D σ ( h D σ ∗ ) > ϵ ] > δ . ( 3.47 )
为了满足定义 ϵ \epsilon ϵ 和 δ \delta δ 的不等式,设 γ = 1 − 8 δ \gamma=1-8\delta γ = 1 − 8 δ 。然后
δ ≤ ( 1 − γ ) u ⟺ u ≥ 1 8 ( 3.48 ) ⟺ 1 4 ( 1 − 1 − exp ( − ( m / d + 1 ) α 2 1 − α 2 ) ) ≥ 1 8 ( 3.49 ) ⟺ ( m / d + 1 ) α 2 1 − α 2 ≤ log 4 3 ( 3.50 ) ⟺ m d ≤ ( 1 α − 1 ) log 4 3 − 1. ( 3.51 ) \begin{aligned}
\delta\le(1-\gamma)u
&\Longleftrightarrow u\ge\frac{1}{8}\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad\qquad(3.48)\\
&\Longleftrightarrow\frac{1}{4}(1-\sqrt{1-\exp(-\frac{(m/d+1)\alpha^2}{1-\alpha^2})})\ge\frac{1}{8}\qquad\qquad\qquad(3.49)\\
&\Longleftrightarrow\frac{(m/d+1)\alpha^2}{1-\alpha^2}\le\log\frac{4}{3}\qquad\qquad\qquad\qquad\qquad\qquad\quad(3.50)\\
&\Longleftrightarrow\frac{m}{d}\le(\frac{1}{\alpha}-1)\log\frac{4}{3}-1.\qquad\qquad\qquad\qquad\qquad\qquad(3.51)
\end{aligned} δ ≤ ( 1 − γ ) u ⟺ u ≥ 8 1 ( 3.48 ) ⟺ 4 1 ( 1 − 1 − exp ( − 1 − α 2 ( m / d + 1 ) α 2 ) ) ≥ 8 1 ( 3.49 ) ⟺ 1 − α 2 ( m / d + 1 ) α 2 ≤ log 3 4 ( 3.50 ) ⟺ d m ≤ ( α 1 − 1 ) log 3 4 − 1. ( 3.51 )
选择 α = 8 ϵ / ( 1 − 8 δ ) \alpha=8\epsilon/(1-8\delta) α = 8 ϵ / ( 1 − 8 δ ) 给出了 ϵ = γ α / 8 \epsilon=\gamma\alpha/8 ϵ = γ α /8 和条件
m d ≤ ( ( 1 − 8 δ ) 2 64 ϵ 2 − 1 ) log 4 3 − 1. ( 3.52 ) \frac{m}{d}\le(\frac{(1-8\delta)^2}{64\epsilon^2}-1)\log\frac{4}{3}-1.\qquad\qquad\qquad(3.52) d m ≤ ( 64 ϵ 2 ( 1 − 8 δ ) 2 − 1 ) log 3 4 − 1. ( 3.52 )
让 f ( 1 / ϵ 2 ) f(1/\epsilon^2) f ( 1/ ϵ 2 ) 表示右侧。我们正在寻求形式为 m / d ≤ ω / ϵ 2 m/d\le\omega/\epsilon^2 m / d ≤ ω / ϵ 2 的一个充分条件。从 ϵ ≤ 1 / 64 \epsilon\le1/64 ϵ ≤ 1/64 开始,为了确保 ω / ϵ 2 ≤ f ( 1 / ϵ 2 ) \omega/\epsilon^2\le f(1/\epsilon^2) ω / ϵ 2 ≤ f ( 1/ ϵ 2 ) ,施加 ω ( 1 / 64 ) 2 = f ( 1 ( 1 / 62 ) 2 ) \frac{\omega}{(1/64)^2}=f(\frac{1}{(1/62)^2}) ( 1/64 ) 2 ω = f ( ( 1/62 ) 2 1 ) 就足够了。这个条件给出了
ω = ( 7 / 64 ) 2 log ( 4 / 3 ) − ( 1 / 64 ) 2 ( log ( 4 / 3 ) + 1 ) ≈ . 003127 ≥ 1 / 320 = . 003125. \omega=(7/64)^2\log(4/3)-(1/64)^2(\log(4/3)+1)\approx.003127\ge1/320=.003125. ω = ( 7/64 ) 2 log ( 4/3 ) − ( 1/64 ) 2 ( log ( 4/3 ) + 1 ) ≈ .003127 ≥ 1/320 = .003125.
因此, ϵ 2 ≤ 1 320 ( m / d ) \epsilon^2\le\frac{1}{320(m/d)} ϵ 2 ≤ 320 ( m / d ) 1 足以确保不等式。
该定理表明,对于任何算法 A \mathcal A A ,在不可实现的情况下, X × { 0 , 1 } X\times\{0,1\} X × { 0 , 1 } 上存在一个“坏”分布,使得 A \mathcal A A 返回的假设误差是一个常数乘以 d m \sqrt{\frac{d}{m}} m d ,具有一些常数概率。在这种一般情况下,VCD维度也是学习中的一个关键量。特别是,在VC维度无限的情况下,不可知PAC学习是不可能的。
3.5 章注释
Koltchinskii[2001]、Koltchinskii和Panchenko[2000]以及Bartlett、Boucheron和Lugosi[2002a]首先提倡使用Rademacher复杂性来推导学习中的泛化边界,另见[Koltchinskii和Panchenko,2002年,Bartlett和Mendelson,2002年]。Bartlett、Bousquet和Mendelson[2002b]引入了局部Rademacher复杂度的概念,也就是说,Rademacher复杂度限制在假设集的一个子集上,该假设集受到方差界的限制。这可用于在有关噪声的某些规则性假设下得出更好的保证。
定理3.7应提交给马萨特[2000]。Vapnik和Chervonenkis[1971]引入了VC维度的概念,并对其进行了广泛的研究[Vapnik,2006年,Vapnik和Chervonenkis,1974年,Blumer等人,1989年,Assouad,1983年,Dudley,1999年]。除了在机器学习中发挥关键作用外,VC维度还广泛应用于计算机科学和数学的其他领域(例如,见Shelah[1972],Chazelle[2000])。定理3。17是学习社区中已知的asSauer引理,但其结果首先由Vapnik和Chervonenkis[1971](版本稍有不同)给出,随后由Sauer[1972]和Shelah[1972]独立给出。
&emps; 在可实现的情况下,Vapnik和Chervonenkis[1974]以及Haussler等人[1988]给出了VCD方面预期误差的下界。随后,给出了误差概率的下限,如定理3.20由Blumer等人[1989]给出。定理3.20和它的证明,改进了之前的结果,是由于Ehrenfeucht,Haussler,Kearns和Valiant[1988]。Devroye和Lugosi[1995]用更复杂的表达式对同一问题给出了更严格的界限。定理3.23在不可实现的情况下给出一个下界,给出的证明应归功于Anthony和Bartlett[1999]。关于证明其全部能力的概率方法应用的其他示例,请参阅Alon和Spencer的参考书[1992]。
&emps; 对于机器学习中使用的一系列函数的复杂性,还有其他几种度量方法,包括覆盖数、包装数以及第11章中讨论的一些其他复杂性度量方法。每个复杂性度量自然地将无限假设集简化为有限假设集,从而产生无限假设集的泛化边界。练习3.31说明了使用覆盖数来使用一个非常简单的证明来推导泛化边界。这些复杂度度量之间也有密切的关系:例如,根据达德利定理,经验拉德马赫复杂度可以用 N 2 ( G , ϵ ) \mathcal N_2(\mathcal G,\epsilon) N 2 ( G , ϵ ) 来界定[Dudley,1967,1987],覆盖数和包装数可以用VC维来界定[Haussler,1995]。另请参见[Ledoux和Talagrand,1991年,Alon等人,1997年,Anthony和Bartlett,1999年,Cucker和Smale,2001年,Vidyasagar,1997年],了解覆盖数在其他复杂性度量方面的一些上界。
3.6 练习
1、 R \mathbb R R 中区间的增长函数。设 H \mathcal H H 为 R \mathbb R R 中区间的集合。 H \mathcal H H 的VC维数为2。计算其破碎系数 Π H ( m ) , m ≥ 0 \Pi_\mathcal H(m),m\ge0 Π H ( m ) , m ≥ 0 。将结果与增长函数的一般界限进行比较。
2、 R \mathbb R R 中阈值的生长函数和Rademacher复杂度。设 H \mathcal H H 为实直线上的阈值函数族: H = { x ↦ 1 x ≤ θ : θ ∈ R } ∪ { x ↦ 1 x ≥ θ : θ ∈ R } \mathcal H=\{x\mapsto1_{x\le\theta}:\theta\in\mathbb R\}\cup\{x\mapsto1_{x\ge\theta}:\theta\in\mathbb R\} H = { x ↦ 1 x ≤ θ : θ ∈ R } ∪ { x ↦ 1 x ≥ θ : θ ∈ R } 。给出生长函数 Π m ( H ) \Pi_m(\mathcal H) Π m ( H ) 的上界。用它来推导 ℜ m ( H ) \Re_m(\mathcal H) ℜ m ( H ) 的上界。
3、线性组合的生长函数。 R d \mathbb R^d R d 中向量集合 X \mathcal X X 的线性可分标记是将 X \mathcal X X 分类为两个集合 X + \mathcal X^+ X + 和 X − \mathcal X^- X − 与 X + = { X ∈ X : W ⋅ X > 0 } \mathcal X^+=\{X\in\mathcal X:W\cdot X>0\} X + = { X ∈ X : W ⋅ X > 0 } 和 X − = { X ∈ X : W ⋅ X < 0 } \mathcal X^-=\{X\in\mathcal X:W\cdot X<0\} X − = { X ∈ X : W ⋅ X < 0 } 对于某个 W ∈ R d W\in\mathbb R^d W ∈ R d 。
设 X = { X 1 , . . . , X − m } \mathcal X=\{X_1,...,X-m\} X = { X 1 , ... , X − m } 是 R d \mathbb R^d R d 的子集。
(a)设 { X + , X − } \{\mathcal X^+,\mathcal X^−\} { X + , X − } 是 X \mathcal X X 的二分法,设 X m + 1 ∈ R d X_{m+1}\in\mathbb R^d X m + 1 ∈ R d 。证明 { X + ∪ { X m + 1 } , X − } \{\mathcal X^+\cup\{X_{m+1}\},\mathcal X^−\} { X + ∪ { X m + 1 } , X − } 和 { X + , X − ∪ { X m + 1 } } \{\mathcal X^+,\mathcal X^−\cup\{X_{m+1}\}\} { X + , X − ∪ { X m + 1 }} 是经过原点的超平面可线性分离的,当且仅当 { X + , X − } \{\mathcal X^+,\mathcal X^−\} { X + , X − } 是经过原点和 X m + 1 X_{m+1} X m + 1 的超平面可线性分离的。
(b)设 X = { X 1 , . . . , X m } \mathcal X=\{X_1,...,X_m\} X = { X 1 , ... , X m } 是 R d \mathbb R^d R d 的子集使得 X ≤ d \mathcal X\le d X ≤ d 的任何 k k k 元素子集与 k ≤ d k\le d k ≤ d 是线性无关的。然后,证明了 X \mathcal X X 的线性可分标记数为 C ( m , d ) = 2 ∑ k = 0 d − 1 ( k m − 1 ) C(m,d)=2\sum^{d-1}_{k=0}(^{m-1}_k) C ( m , d ) = 2 ∑ k = 0 d − 1 ( k m − 1 ) 。(提示:通过归纳证明 C ( m + 1 , d ) = C ( m , d ) + C ( m , d − 1 ) C(m+1,d)=C(m,d)+C(m,d-1) C ( m + 1 , d ) = C ( m , d ) + C ( m , d − 1 ) )
(c)设 f 1 , . . . , f p f_1,...,f_p f 1 , ... , f p 是 p p p 个把 R d \mathbb R^d R d 映射到 R \mathbb R R 的函数。定义 F \mathcal F F 为基于这些函数的线性组合的分类器族:
F = { x ↦ s g n ( ∑ k = 1 p a k f k ( x ) ) : a 1 , . . . , a p ∈ R } . \mathcal F=\{x\mapsto sgn(\sum^p_{k=1}a_kf_k(x)):a_1,...,a_p\in\mathbb R\}. F = { x ↦ s g n ( k = 1 ∑ p a k f k ( x )) : a 1 , ... , a p ∈ R } .
通过 Ψ ( x ) = ( f 1 ( x ) , . . . f p ( x ) ) \Psi(x)=(f_1(x),...f_p(x)) Ψ ( x ) = ( f 1 ( x ) , ... f p ( x )) 定义 Ψ \Psi Ψ 。假设存在 x 1 , . . . , x m ∈ R d x_1,...,x_m\in\mathbb R^d x 1 , ... , x m ∈ R d
,使得 { Ψ ( x 1 ) , Ψ ( x m ) } \{\Psi(x_1),\Psi(x_m)\} { Ψ ( x 1 ) , Ψ ( x m )} 的每个 p p p 子集都是线性无关的。然后,得到
Π F ( m ) = 2 ∑ i = 0 p − 1 ( i m − 1 ) . \Pi_\mathcal F(m)=2\sum^{p-1}_{i=0}(^{m-1}_i). Π F ( m ) = 2 i = 0 ∑ p − 1 ( i m − 1 ) .
4、生长函数的下界。证明绍尔引理(定理3.17)是严密的。证明存在vc维 d d d 的假设类 H \mathcal H H ,使 Π H ( m ) = ∑ i = 0 d ( i m ) \Pi_\mathcal H(m)=\sum^d_{i=0}(^m_i) Π H ( m ) = ∑ i = 0 d ( i m ) 。
5、更好的拉德马赫上界。证明可以用ES[Π(G, S)]给出 G \mathcal G G 族Rademacher复杂度的一个更精细的上界,其中Π(G, S)是标记样本S中点的方法的个数。
6、单例假设类。考虑平凡的假设集 H \mathcal H H 。
(a)证明任意 m > 0 m>0 m > 0 有 ℜ m ( H ) = 0 \Re_m(\mathcal H)=0 ℜ m ( H ) = 0 。
(b)用一个类似的结构来证明Massart的引理(定理3.7)是严密的。
7、二函数假设类。设 H \mathcal H H 是一个简化为两个函数的假设集: H = { h − 1 , h + 1 } \mathcal H=\{h_{-1},h_{+1}\} H = { h − 1 , h + 1 } , S = ( x 1 , . . . , x m ) S=(x_1,...,x_m) S = ( x 1 , ... , x m ) 是规模为m的样本。
(a)假设 h − 1 h-1 h − 1 是取值为−1的常函数, h + 1 h+1 h + 1 是取值为+1的常函数。vc维d是多少?经验Rademacher复杂度RS(H)的上界(提示:用Rademacher变量和的绝对值表示RS(H),并应用Jensen不等式),并用 d / m \sqrt{d/m} d / m 比较你的上界。
(b)假设 h − 1 h-1 h − 1 是取值为-1的常函数,而 h + 1 h+1 h + 1 是除x1处取值为+1外其他地方取值为-1的函数。vc维d是多少?计算经验Rademacher复杂度RS(H)。
8、Rademacher身份。修复 m ≥ 1 m≥1 m ≥ 1 。证明函数从 X \mathcal X X 映射到 R \mathbb R R 的任意 α ∈ R \alpha\in\mathbb R α ∈ R 和任意两个假设集 H \mathcal H H 和 H ′ \mathcal H' H ′ 的下列恒等式:
(a) ℜ ^ ( α H ) = ∣ α ∣ ℜ m ( H ) \hat\Re(\alpha\mathcal H)=|\alpha|\Re_m(\mathcal H) ℜ ^ ( α H ) = ∣ α ∣ ℜ m ( H ) 。
(b) ℜ ^ ( H + H ) = ℜ m ( H ) + ℜ m ( H ′ ) \hat\Re(\mathcal H+\mathcal H)=\Re_m(\mathcal H)+\Re_m(\mathcal H') ℜ ^ ( H + H ) = ℜ m ( H ) + ℜ m ( H ′ ) 。
(c) ℜ ^ ( { max ( h , h ′ ) : h ∈ H , h ′ ∈ H ′ } ) ≤ ℜ m ( H ) + ℜ m ( H ′ ) \hat\Re(\{\max(h,h'):h\in\mathcal H,h'\in\mathcal H'\})\le\Re_m(\mathcal H)+\Re_m(\mathcal H') ℜ ^ ({ max ( h , h ′ ) : h ∈ H , h ′ ∈ H ′ }) ≤ ℜ m ( H ) + ℜ m ( H ′ )
9、Rademacher概念交集的复杂性。设 H 1 \mathcal H_1 H 1 和 H 2 \mathcal H_2 H 2 是将 X \mathcal X X 映射到 { 0 , 1 } \{0,1\} { 0 , 1 } 的两组函数,设 H = { h 1 h 2 : h 1 ∈ H 1 , h 2 ∈ H 2 } \mathcal H=\{h_1h_2:h_1\in\mathcal H_1,h_2\in\mathcal H_2\} H = { h 1 h 2 : h 1 ∈ H 1 , h 2 ∈ H 2 } 。证明对于任意大小为 m m m 的样本 S S S , H \mathcal H H 的经验Rademacher复杂度可以有以下界限:
ℜ ^ ( H ) ≤ ℜ ^ S ( H 1 ) + ℜ ^ S ( H 2 ) . \hat\Re(H)\le\hat\Re_S(\mathcal H_1)+\hat\Re_S(\mathcal H_2). ℜ ^ ( H ) ≤ ℜ ^ S ( H 1 ) + ℜ ^ S ( H 2 ) .
提示:使用Lipschitz函数 x ↦ max ( 0 , x − 1 ) x\mapsto\max(0,x-1) x ↦ max ( 0 , x − 1 ) 和Talagrand的收缩引理。
用这个来限定 c 1 c_1 c 1 和 c 2 c_2 c 2 与 c 1 ∈ ϱ 1 c_1\in\varrho_1 c 1 ∈ ϱ 1 和 c 2 ∈ ϱ 2 c_2\in\varrho_2 c 2 ∈ ϱ 2 的交点 U \mathcal U U 族的Rademacher复杂度 ℜ m ( U ) \Re_m(\mathcal U) ℜ m ( U ) ,根据 c 1 c_1 c 1 和 c 2 c_2 c 2 的Rademacher复杂度。
10、Rademacher复杂度预测向量。设 S = ( x 1 , . . . , x m ) S=(x_1,...,x_m) S = ( x 1 , ... , x m ) 是大小为 m m m 的样本,固定为 h → R h\to\mathbb R h → R 。
(a)用 u u u 表示 h h h 对 S : u = [ h ( x 1 ) … h ( x m ) ] S:u=[\begin{array}{cc}&h(x_1)\\&\dots\\&h(x_m)\end{array}] S : u = [ h ( x 1 ) … h ( x m ) ] 的预测向量。给出 H \mathcal H H 的经验Rademacher复杂度 ℜ ^ S ( H ) \hat\Re_S(\mathcal H) ℜ ^ S ( H ) 的上界,用 ∣ ∣ u ∣ ∣ 2 ||u||_2 ∣∣ u ∣ ∣ 2 表示(提示:用绝对值的期望表示 ℜ ^ S ( H ) \hat\Re_S(\mathcal H) ℜ ^ S ( H ) ,并应用Jensen不等式)。假设 h ( x i ) ∈ { 0 , − 1 , + 1 } h(x_i)\in\{0,-1,+1\} h ( x i ) ∈ { 0 , − 1 , + 1 } 对于所有 i ∈ [ m ] i\in[m] i ∈ [ m ] 。用稀疏测度 n = ∣ { i ∣ h ( x i ) ≠ 0 } ∣ n=|\{i|h(x_i)\neq0\}| n = ∣ { i ∣ h ( x i ) = 0 } ∣ 表示Rademacher复杂度的界。稀疏性度量的极值上限是多少?
(b)设 F \mathcal F F 是将 X \mathcal X X 映射到 R \mathbb R R 的函数族。用 ℜ ^ S ( F ) \hat\Re_S(\mathcal F) ℜ ^ S ( F ) 和 ∣ ∣ u ∣ ∣ 2 ||u||_2 ∣∣ u ∣ ∣ 2 给出 F + h = { f + h : f ∈ F } \mathcal F+h=\{f+h:f\in\mathcal F\} F + h = { f + h : f ∈ F } 和 F ± h = ( F + h ) ∪ ( F − h ) \mathcal F\pm h=(\mathcal F+h)\cup(\mathcal F-h) F ± h = ( F + h ) ∪ ( F − h ) 的经验Rademacher复杂度的上界。
11、正则化神经网络的Rademacher复杂度。设输入空间为 X = R n 1 \mathcal X=\mathbb R^{n_1} X = R n 1 。在这个问题中,我们考虑由映射 X \mathcal X X 到 R \mathbb R R 的函数集定义的正则化神经网络族:
H = { X ↦ ∑ j = 1 n 2 ω j σ ( u j ⋅ X ) : ∣ ∣ W ∣ ∣ 1 ≤ Λ ′ , ∣ ∣ u j ∣ ∣ 2 ≤ Λ , ∀ j ∈ [ n 2 ] } , \mathcal H=\{X\mapsto\sum^{n_2}_{j=1}\omega_j\sigma(u_j\cdot X):||W||_1\le\Lambda',||u_j||_2\le\Lambda,\forall_j\in[n_2]\}, H = { X ↦ j = 1 ∑ n 2 ω j σ ( u j ⋅ X ) : ∣∣ W ∣ ∣ 1 ≤ Λ ′ , ∣∣ u j ∣ ∣ 2 ≤ Λ , ∀ j ∈ [ n 2 ]} ,
其中 σ σ σ 为L-Lipschitz函数。例如, σ σ σ 可以是s型函数,即1-Lipschitz。
(a)证明 ℜ ^ S ( H ) = Λ ′ m E σ [ sup ∣ ∣ u ∣ ∣ 2 ≤ Λ ∣ ∑ i = 1 m σ i σ ( u ⋅ X i ) ∣ ] \hat\Re_S(\mathcal H)=\frac{\Lambda'}{m}\mathbb E_\sigma[\sup_{||u||_2\le\Lambda}|\sum^m_{i=1}\sigma_i\sigma(u\cdot X_i)|] ℜ ^ S ( H ) = m Λ ′ E σ [ sup ∣∣ u ∣ ∣ 2 ≤ Λ ∣ ∑ i = 1 m σ i σ ( u ⋅ X i ) ∣ ] 。
(b)使用Talagrand的引理对所有假设集 H \mathcal H H 和l - lipschitz函数 Φ \Phi Φ 有效:
1 m σ E [ sup h ∈ H ∣ ∑ i = 1 m σ i ( Φ ∘ h ) ( x i ) ∣ ] ≤ L m σ E [ sup h ∈ H ∣ ∑ i = 1 m σ i h ( x i ) ∣ ] , \frac{1}{m}\underset{\mathbb E}{\sigma}[\sup_{h\in\mathcal H}|\sum^m_{i=1}\sigma_i(\Phi\circ h)(x_i)|]\le\frac{L}{m}\underset{\mathbb E}{\sigma}[\sup_{h\in\mathcal H}|\sum^m_{i=1}\sigma_i h(x_i)|], m 1 E σ [ h ∈ H sup ∣ i = 1 ∑ m σ i ( Φ ∘ h ) ( x i ) ∣ ] ≤ m L E σ [ h ∈ H sup ∣ i = 1 ∑ m σ i h ( x i ) ∣ ] ,
到上界 ℜ ^ S ( H ) \hat \Re_S(\mathcal H) ℜ ^ S ( H ) ,根据H'的经验Rademacher复杂度,其中H'定义为
H ′ = { X ↦ s ( u ⋅ X ) : ∣ ∣ u ∣ ∣ 2 ≤ Λ , s ∈ { − 1 , + 1 } } . \mathcal H'=\{X\mapsto s(u\cdot X):||u||_2\le\Lambda,s\in\{-1,+1\}\}. H ′ = { X ↦ s ( u ⋅ X ) : ∣∣ u ∣ ∣ 2 ≤ Λ , s ∈ { − 1 , + 1 }} .
ℜ ^ S ( H ′ ) = Λ m E σ [ ∣ ∣ ∑ i = 1 m σ i X i ∣ ∣ 2 ] . \hat\Re_S(\mathcal H')=\frac{\Lambda}{m}\mathbb E_\sigma[||\sum^m_{i=1}\sigma_i X_i||_2]. ℜ ^ S ( H ′ ) = m Λ E σ [ ∣∣ i = 1 ∑ m σ i X i ∣ ∣ 2 ] .
(d)利用不等式 E V [ ∣ ∣ V ∣ ∣ 2 ] ≤ E V [ ∣ ∣ V ∣ ∣ 2 2 ] \mathbb E_V[||V||_2]\le\sqrt{\mathbb E_V[||V||^2_2]} E V [ ∣∣ V ∣ ∣ 2 ] ≤ E V [ ∣∣ V ∣ ∣ 2 2 ] ,它由Jensen不等式保持到上界 ℜ ^ S ( H ′ ) \hat\Re_S(\mathcal H') ℜ ^ S ( H ′ ) 。
*(e)假设对于所有的 X ∈ S X\in S X ∈ S , ∣ ∣ X ∣ ∣ 2 ≤ r ||X||_2\le r ∣∣ X ∣ ∣ 2 ≤ r 对于某个 r > 0 r>0 r > 0 。利用前面的问题,用 r r r 来推导 H \mathcal H H 的Rademacher复杂度的上界。
12、随处的复杂性。Jesetoo教授声称,根据其vc维 V C dim ( H ) VC\dim(\mathcal H) V C dim ( H ) ,已经发现了任何假设setHof函数在 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } 取值时Rademacher复杂度的一个更好的界。他的界是 ℜ m ( H ) ≤ O ( V C dim ( H ) m ) \Re_m(\mathcal H)\le O(\frac{VC\dim(\mathcal H)}{m}) ℜ m ( H ) ≤ O ( m V C d i m ( H ) ) 的形式。你能证明杰斯图教授的说法不正确吗?(提示:考虑一个假设sethreed只是两个简单的函数。)
13、k区间并集的vc维。由k个区间的并集组成的实线子集的vc维是多少?
14、有限假设集的vc维。证明有限假设的vc维最大值为 log 2 ∣ H ∣ \log_2|\mathcal H| log 2 ∣ H ∣ 。
15、vc维的子集。由单个参数 α : I α = [ α , α + 1 ] ∪ [ α + 2 , + ∞ ) \alpha:I_\alpha=[\alpha,\alpha+1]\cup[\alpha+2,+\infty) α : I α = [ α , α + 1 ] ∪ [ α + 2 , + ∞ ) 参数化的实线的子集 I α I_α I α 的vc维是什么
16、对轴正方形和三角形的vc维。
(a)平面中轴向正方形的vc维是多少?
(b)考虑平面上的直角三角形,它们的边与直角平行于坐标轴,并且直角位于左下角。这个家族的风险维度是多少?
17、 R n \mathbb R^n R n 中闭球的vc维数。证明 R n \mathbb R^n R n 中所有闭球集合的vc维,
18、椭圆体的vc维。 R n \mathbb R^n R n 中所有椭球集合的vc维是多少?
19、实函数向量空间的vc维数。是 R n \mathbb R^n R n 上实函数的有限维向量空间, dim ( F ) = r < ∞ \dim(F)=r<\infty dim ( F ) = r < ∞ 。设 H \mathcal H H 为假设集:
H = { { x : f ( x ) ≥ 0 } : f ∈ F } . \mathcal H=\{\{x:f(x)\ge0\}:f\in F\}. H = {{ x : f ( x ) ≥ 0 } : f ∈ F } .
20、正弦函数的vc维数。考虑正弦函数的假设族(例3.16): { x → sin ( ω x ) : ω ∈ R } \{x\to\sin(\omega x):\omega\in\mathbb R\} { x → sin ( ω x ) : ω ∈ R }
(a)证明对于任意 x ∈ R x\in\mathbb R x ∈ R 点 x , 2 x , 3 x , 4 x x,2x,3x,4x x , 2 x , 3 x , 4 x 不能被正弦函数族分解。
(b)证明正弦函数族的vc维是无限的。(提示:证明{2−i:i≤m}可以被任意m>0粉碎)
21、半空间并集的vc维数。给出由 k k k 个半空间并集所描述的一类假设的vc维的上界。
22、半空间交点的vc维数。考虑 k k k 半空间的凸交的 ϱ k \varrho_k ϱ k 类。给出了 V C d i m ( ϱ k ) VCdim(\varrho_k) V C d im ( ϱ k ) 的上下界估计。
23、交点概念的vc维。
(a)设 ϱ 1 \varrho_1 ϱ 1 和 ϱ 2 \varrho_2 ϱ 2 是两个概念类。对于任何概念类 ϱ = { c 1 ∩ c 2 : c 1 ∈ ϱ 1 , c 2 ∈ ϱ } \varrho=\{c_1\cap c_2:c_1\in\varrho_1,c_2\in\varrho\} ϱ = { c 1 ∩ c 2 : c 1 ∈ ϱ 1 , c 2 ∈ ϱ } ,
Π ϱ ( m ) ≤ Π ϱ 1 ( m ) Π ϱ 2 ( m ) . ( 3.53 ) \Pi_\varrho(m)\le\Pi_{\varrho_1}(m)\Pi_{\varrho_2}(m).\qquad\qquad\qquad(3.53) Π ϱ ( m ) ≤ Π ϱ 1 ( m ) Π ϱ 2 ( m ) . ( 3.53 )
(b)设 ϱ \varrho ϱ 为vc维d的概念类,设 ϱ \varrho ϱ 为s的所有概念从 ϱ \varrho ϱ ,s≥1的交点构成的概念类。证明了 ϱ s \varrho_s ϱ s 的vc维为 2 d s log 2 ( 3 s ) 2ds\log_2(3s) 2 d s log 2 ( 3 s ) 。(提示:对于任意x ≥ 2 , log 2 ( 3 x ) < 9 x / ( 2 e ) x≥2,\log_2(3x)< 9x/(2e) x ≥ 2 , log 2 ( 3 x ) < 9 x / ( 2 e ) )
24、vc维的概念并集。设A和B是两个从X映射到{0,1}的函数集,并假设A和B的VCdimension都是有限的,VCdim(A) =dA, VCdim(B) =dB。设C=A∪B是A与B的并集。
(a)证明对于所有的m, Π ϱ ( m ) ≤ Π A ( m ) + Π B ( m ) \Pi_\varrho(m)\le\Pi_\mathcal A(m)+\Pi_\mathcal B(m) Π ϱ ( m ) ≤ Π A ( m ) + Π B ( m ) 。
(b)利用Sauer引理证明了当 m ≥ d A + d B + 2 m\ge d_\mathcal A+d_\mathcal B+2 m ≥ d A + d B + 2 时, Π ϱ ( m ) < 2 m \Pi_\varrho(m)<2^m Π ϱ ( m ) < 2 m ,并给出了 ϱ \varrho ϱ 的vc维的一个界。
25、概念对称差分的vc维数。对于两个集合 A \mathcal A A 和 B \mathcal B B ,设 A Δ B \mathcal A\Delta\mathcal B A Δ B 表示 A \mathcal A A 和 B \mathcal B B 的对称差,也就是, A Δ B = ( A ∪ B ) − ( A ∩ B ) \mathcal A\Delta\mathcal B=(\mathcal A\cup\mathcal B)-(\mathcal A\cap\mathcal B) A Δ B = ( A ∪ B ) − ( A ∩ B ) 。设 H \mathcal H H 是具有有限vc维的 X \mathcal X X 子集的非空族。设 A \mathcal A A 是 H \mathcal H H 的一个元素,定义 H Δ A = { X Δ A : X ∈ H } \mathcal H\Delta\mathcal A=\{X\Delta\mathcal A:X\in\mathcal H\} H Δ A = { X Δ A : X ∈ H } 。表明,
V C dim ( H Δ A ) = V C dim ( H ) . VC\dim(\mathcal H\Delta\mathcal A)=VC\dim(\mathcal H). V C dim ( H Δ A ) = V C dim ( H ) .
26、对称的功能。函数: { 0 , 1 } n → { 0 , 1 } \{0,1\}^n\to\{0,1\} { 0 , 1 } n → { 0 , 1 } 是对称的,如果它的值是由输入中的1的数量唯一决定的。设 ϱ \varrho ϱ 表示所有对称函数的集合。
(a)确定 ϱ \varrho ϱ 的vc维数。
(b)给出了 ϱ \varrho ϱ 的任意一致PAC学习算法的样本复杂度的上下限。
(c)注意,任何假设 h ∈ ϱ h\in\varrho h ∈ ϱ 都可以用向量 ( y 0 , y 1 , . . . , y n ) ∈ { 0 , 1 } n + 1 (y_0,y_1,...,y_n)\in\{0,1\}^{n+1} ( y 0 , y 1 , ... , y n ) ∈ { 0 , 1 } n + 1 表示,其中 y i y_i y i 是具有 i 1 i 1 i 1 的例子中的 h h h 值。在此基础上设计 ϱ \varrho ϱ 的一致学习算法。
27、神经网络的vc维。
设 ϱ \varrho ϱ 是 R r \mathbb R^r R r 上vc维的概念类。带有一个中间层的 ϱ \varrho ϱ 神经网络是一个定义在 R n \mathbb R^n R n 上的概念,可以用一个有向无环图来表示,如图3.7所示,输入节点为底部的节点,每个节点之间用一个概念 c ∈ ϱ c\in\varrho c ∈ ϱ 来标记。
给定输入向量 ( x 1 , . . . , x n ) (x_1,...,x_n) ( x 1 , ... , x n ) 的表达式如下。首先,每个 n n n 个输入节点都被标记为 x i ∈ R x_i\in\mathbb R x i ∈ R 。接下来,对允许以 u u u 结尾的边的输入节点的值应用 c c c ,得到上层节点 u u u 处标记为 c c c 的值。
图 3.7 有一个中间层的神经网络。
注意,由于 c c c 的值在 { 0 , 1 } \{0,1\} { 0 , 1 } 中,所以 u u u 的值在 { 0 , 1 } \{0,1\} { 0 , 1 } 中。顶部节点或输出节点的值同样通过将对应的概念应用于向输出节点承认一条边的节点的值得到。
(a)设 H \mathcal H H 表示上述定义的 k ≥ 2 k\ge2 k ≥ 2 个内部节点的所有神经网络的集合。证明生长函数 Π H ( m ) \Pi_\mathcal H(m) Π H ( m ) 可以由定义在每个中间层的假设集的生长函数乘积的形式上界。
(b)用它来上界 ϱ \varrho ϱ 神经网络的vc维(提示:你可以使用 m = 2 x log 2 ( x y ) ⟹ m > x log 2 ( y m ) m=2x\log_2(xy)\Longrightarrow m>x\log_2(ym) m = 2 x log 2 ( x y ) ⟹ m > x log 2 ( y m ) 对 m ≥ 1 m≥1 m ≥ 1 有效, x , y > 0 x, y>0 x , y > 0 和 x y > 4 xy>4 x y > 4 有效)。
(c)设 ϱ \varrho ϱ 是由阈值函数 ϱ = { s g n ( ∑ j = 1 r w i x j ) : W ∈ R r } \varrho=\{sgn(\sum^r_{j=1}w_ix_j):W\in\mathbb R^r\} ϱ = { s g n ( ∑ j = 1 r w i x j ) : W ∈ R r } 定义的概念类族。给出用 k k k 和 r r r 表示的 H \mathcal H H 的vc维的上界。
28、凸组合的vc维数。设 H \mathcal H H 为从输入空间 X \mathcal X X 映射到 { − 1 , + 1 } \{−1,+1\} { − 1 , + 1 } 的函数族,设 T T T 为正整数。给出定义的函数族 F T \mathcal F_T F T 的vc维的上界
F = { s g n ( ∑ t = 1 T α t h t ) : h t ∈ H , α t ≥ 0 , ∑ t = 1 T α t ≤ 1 } . \mathcal F=\{sgn(\sum^T_{t=1}\alpha_th_t):h_t\in\mathcal H,\alpha_t\ge0,\sum^T_{t=1}\alpha_t\le1\}. F = { s g n ( t = 1 ∑ T α t h t ) : h t ∈ H , α t ≥ 0 , t = 1 ∑ T α t ≤ 1 } .
(提示:您可以使用练习3.27及其解决方案)。
29、无限的vc维。
(a)证明如果一个概念类 ϱ \varrho ϱ 有无限vc维,那么它不是pac可学习的。
(b)在标准PAC-learning场景中,学习算法首先接收所有的例子,然后计算它的假设。在这种情况下,如前所述,无法进行无限vc维的概念类PAClearning。 现在想象一个不同的场景,学习算法可以在绘制更多的例子和计算之间切换。这个问题的目的是证明PAC-learning对于一些具有无限vc维的概念类是可能的。 例如,考虑所有自然数子集的概念类 ϱ \varrho ϱ 的特殊情况。Vitres教授对学习算法的第一阶段有一个想法。在第一阶段,L画出足够多的点,使得在观测到的最大值M之外画出点的概率很小,且具有很高的可信度。你能通过描述算法的第二阶段来完成Vitres教授的想法吗?还应该证明L可以通过pac学习 ϱ \varrho ϱ 。
30、vc维泛化有界可实现的情况。在这个练习中,我们证明了在可实现的设置下,推论3.19中给出的界可以改进为 O ( d log ( m / d ) m ) O(\frac{d\log(m/d)}{m}) O ( m d l o g ( m / d ) ) 。假设我们在可实现的场景中,也就是。目标概念包含在我们的假设类 H \mathcal H H 中。我们将证明,如果一个假设与样本 S ∼ D m S\sim\mathcal D^m S ∼ D m 一致,那么对于任意 ϵ > 0 \epsilon>0 ϵ > 0 , m ϵ ≥ 8 m\epsilon\ge8 m ϵ ≥ 8
P [ R ( h ) > ϵ ] ≤ 2 [ 2 e m d ] d 2 − m ϵ / 2 . ( 3.54 ) \mathbb P[R(h)>\epsilon]\le2[\frac{2em}{d}]^d2^{-m\epsilon/2}.\qquad\qquad\qquad(3.54) P [ R ( h ) > ϵ ] ≤ 2 [ d 2 e m ] d 2 − m ϵ /2 . ( 3.54 )
(a)设 H S ⊆ H \mathcal H_S\subseteq\mathcal H H S ⊆ H 是与样本 S S S 一致的假设子集,设 R ^ S ( h ) \hat R_S(h) R ^ S ( h ) 表示相对于样本 S S S 的经验误差,并将 S ′ S' S ′ 定义为另一个从 D m \mathcal D^m D m 中抽取的独立样本。证明下列不等式对任意 h 0 ∈ H S h_0\in\mathcal H_S h 0 ∈ H S 成立:
P [ sup h ∈ H S ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > ϵ 2 ] ≥ P [ B ( m , ϵ ) > m ϵ 2 ] P [ R ( h 0 ) > ϵ ] , \mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}]\ge\mathbb P[B(m,\epsilon)>\frac{m\epsilon}{2}]\mathbb P[R(h_0)>\epsilon], P [ h ∈ H S sup ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > 2 ϵ ] ≥ P [ B ( m , ϵ ) > 2 m ϵ ] P [ R ( h 0 ) > ϵ ] ,
(b)证明 P [ B ( m , ϵ ) > m ϵ 2 ] ≥ 1 2 \mathbb P[B(m,\epsilon)>\frac{m\epsilon}{2}]\ge\frac{1}{2} P [ B ( m , ϵ ) > 2 m ϵ ] ≥ 2 1 。用这个不等式和(a)的结果来证明对于任意 h 0 ∈ H S h_0\in\mathcal H_S h 0 ∈ H S
P [ R ( h 0 ) > ϵ ] ≤ 2 P [ sup h ∈ H S ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > ϵ 2 ] . \mathbb P[R(h_0)>\epsilon]\le2\mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}]. P [ R ( h 0 ) > ϵ ] ≤ 2 P [ h ∈ H S sup ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > 2 ϵ ] .
(c)我们可以不画两个样本,而是画一个大小为2m的样本T,然后均匀随机地将其分割为S和S'。(b)部分的右手边可以重写为:
P [ sup h ∈ H S ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > ϵ 2 ] = P T ∼ D 2 m : T → [ S , S ′ ] [ ∃ h ∈ H : R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > ϵ 2 ] . \mathbb P[\sup_{h\in\mathcal H_S}|\hat R_S(h)-\hat R_{S'}(h)|>\frac{\epsilon}{2}]=\underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\exists h\in\mathcal H:\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}]. P [ h ∈ H S sup ∣ R ^ S ( h ) − R ^ S ′ ( h ) ∣ > 2 ϵ ] = T → [ S , S ′ ] T ∼ D 2 m : P [ ∃ h ∈ H : R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > 2 ϵ ] .
设 h 0 h_0 h 0 是 R ^ T ( h 0 ) > ϵ 2 \hat R_T(h_0)>\frac{\epsilon}{2} R ^ T ( h 0 ) > 2 ϵ 的假设, l > m ϵ 2 l>\frac{m\epsilon}{2} l > 2 m ϵ 是 h 0 h_0 h 0 对T的错误总数,表明所有错误落入 S ′ S' S ′ 的概率上界为 2 − l 2^{-l} 2 − l 。
(d)部分(b)表明,对于任意 h ∈ H h\in\mathcal H h ∈ H
P T ∼ D 2 m : T → [ S , S ′ ] [ R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > ϵ 2 ∣ R ^ T ( h 0 ) ] ≤ 2 − l . \underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}|\hat R_T(h_0)]\le2^{-l}. T → [ S , S ′ ] T ∼ D 2 m : P [ R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > 2 ϵ ∣ R ^ T ( h 0 )] ≤ 2 − l .
用这个界来证明任意 h ∈ H h\in\mathcal H h ∈ H
P T ∼ D 2 m : T → [ S , S ′ ] [ R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > ϵ 2 ] ≤ 2 − ϵ m 2 . \underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}]\le2^{-\frac{\epsilon m}{2}}. T → [ S , S ′ ] T ∼ D 2 m : P [ R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > 2 ϵ ] ≤ 2 − 2 ϵ m .
(e)利用并界到上界 P T ∼ D 2 m : T → [ S , S ′ ] [ ∃ h ∈ H : R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > ϵ 2 ] \underset{\underset{T\to[S,S']}{T\sim\mathcal D^{2m}:}}{\mathbb P}[\exists h\in\mathcal H:\hat R_S(h)=0\wedge\hat R_{S'}(h)>\frac{\epsilon}{2}] T → [ S , S ′ ] T ∼ D 2 m : P [ ∃ h ∈ H : R ^ S ( h ) = 0 ∧ R ^ S ′ ( h ) > 2 ϵ ] 完成不等式(3.54)的证明,证明我们可以得到一个 O ( d log ( m / d ) m ) O(\frac{d\log(m/d)}{m}) O ( m d l o g ( m / d ) ) 阶的高概率泛化界。
31、基于覆盖数的泛化界。设 H \mathcal H H 是将 X \mathcal X X 映射到实数 y ⊆ R \mathcal y\subseteq\mathbb R y ⊆ R 的子集的函数族。对于任意 ϵ > 0 \epsilon>0 ϵ > 0 , L ∞ L_\infty L ∞ 范数 H \mathcal H H 的覆盖数 N ( H , ϵ ) \mathcal N(\mathcal H,\epsilon) N ( H , ϵ ) 为极小 k ∈ N k\in\mathbb N k ∈ N ,使得 h ∈ H h\in\mathcal H h ∈ H 可以被半径为 ϵ \epsilon ϵ 的 k k k 个球覆盖,即存在 { h 1 , . . . , h k } ⊆ H \{h_1,...,h_k\}\subseteq\mathcal H { h 1 , ... , h k } ⊆ H ,使得对于所有 h ∈ H h\in\mathcal H h ∈ H ,存在 i ≤ k i≤k i ≤ k 与 ∣ ∣ h − h i ∣ ∣ ∞ = max x ∈ X ∣ h ( x ) − h i ( x ) ∣ ≤ ϵ ||h-h_i||_\infty=\max_{x\in\mathcal X}|h(x)-h_i(x)|\le\epsilon ∣∣ h − h i ∣ ∣ ∞ = max x ∈ X ∣ h ( x ) − h i ( x ) ∣ ≤ ϵ 。特别地,当 H \mathcal H H 是紧集时,可以从半径为 ϵ \epsilon ϵ 的球的 H \mathcal H H 覆盖中提取有限覆盖,因此 N \mathcal N N 是有限的。
覆盖数字提供了一种衡量一类函数复杂性的方法:覆盖数越大,函数族越丰富。这个问题的目的是通过证明平方损失情况下的学习界限来说明这一点。让 D \mathcal D D 表示 X × Y \mathcal X\times\mathcal Y X × Y 上的一个分布,根据这个分布可以绘制有标记的例子。然后, h ∈ H h\in\mathcal H h ∈ H 对于平方损失的概化误差由 R ( h ) = R ( x , y ) ∼ D [ ( h ( x ) − y ) 2 ] R(h)=\mathbb R_{(x,y)\sim\mathcal D}[(h(x)-y)^2] R ( h ) = R ( x , y ) ∼ D [( h ( x ) − y ) 2 ] 定义,其对于标记样本 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) S=((x_1,y_1),...,(x_m,y_m)) S = (( x 1 , y 1 ) , ... , ( x m , y m )) 的经验误差由 R ^ S ( h ) − 1 m ∑ i = 1 m ( h ( x i ) − y i ) 2 \hat R_S(h)-\frac{1}{m}\sum^m_{i=1}(h(x_i)-y_i)^2 R ^ S ( h ) − m 1 ∑ i = 1 m ( h ( x i ) − y i ) 2 定义。我们假设这个有界,即存在 M > 0 M>0 M > 0 使得 ∣ h ( x ) − y ∣ ≤ M |h(x)−y|\le M ∣ h ( x ) − y ∣ ≤ M 对于所有 ( x , y ) ∈ X × Y (x,y)\in\mathcal X\times\mathcal Y ( x , y ) ∈ X × Y 。该问题证明的概化界如下:
P S ∼ D m [ sup h ∈ H ∣ R ( h ) − R ^ S ( h ) ∣ ≥ ϵ ] ≤ N ( H , ϵ 8 M ) 2 exp ( − m ϵ 2 2 M 4 ) . ( 3.55 ) \underset{S\sim\mathcal D^m}{\mathbb P}[\sup_{h\in\mathcal H}|R(h)-\hat R_S(h)|\ge\epsilon]\le\mathcal N(\mathcal H,\frac{\epsilon}{8M})2\exp(\frac{-m\epsilon^2}{2M^4}).\qquad\qquad\qquad(3.55) S ∼ D m P [ h ∈ H sup ∣ R ( h ) − R ^ S ( h ) ∣ ≥ ϵ ] ≤ N ( H , 8 M ϵ ) 2 exp ( 2 M 4 − m ϵ 2 ) . ( 3.55 )
证明是基于以下步骤。
(a)设 L S = R ( h ) − R ^ S ( h ) L_S=R(h)−\hat R_S(h) L S = R ( h ) − R ^ S ( h ) ,则对于所有的 h 1 , h 2 ∈ H h_1,h_2\in\mathcal H h 1 , h 2 ∈ H 以及任意标记的样本,有如下不等式:
∣ L S ( h 1 ) − L S ( h 2 ) ∣ ≤ 4 M ∣ ∣ h 1 − h 2 ∣ ∣ ∞ . |L_S(h_1)-L_S(h_2)|\le4M||h_1-h_2||_\infty. ∣ L S ( h 1 ) − L S ( h 2 ) ∣ ≤ 4 M ∣∣ h 1 − h 2 ∣ ∣ ∞ .
(b)假设 H \mathcal H H 可以被 k k k 个子集 B 1 , . . . , B k \mathcal B_1,...,\mathcal B_k B 1 , ... , B k 覆盖,也就是 H = B 1 ∪ . . . ∪ B k \mathcal H=\mathcal B_1\cup...\cup\mathcal B_k H = B 1 ∪ ... ∪ B k 。然后,证明对于任意 ϵ \epsilon ϵ ,下列上界成立:
P S ∼ D m [ sup h ∈ B i ∣ R ( h ) − R ^ S ( h ) ∣ ≥ ϵ ] ≤ ∑ i = 1 k P S ∼ D m [ ∑ h ∈ B i ∣ L S ( h ) ≥ ϵ ∣ ] . \underset{S\sim\mathcal D^m}{\mathbb P}[\sup_{h\in\mathcal B_i}|R(h)-\hat R_S(h)|\ge\epsilon]\le\sum^k_{i=1}\underset{S\sim\mathcal D^m}{\mathbb P}[\sum_{h\in\mathcal B_i}|L_S(h)\ge\epsilon|]. S ∼ D m P [ h ∈ B i sup ∣ R ( h ) − R ^ S ( h ) ∣ ≥ ϵ ] ≤ i = 1 ∑ k S ∼ D m P [ h ∈ B i ∑ ∣ L S ( h ) ≥ ϵ ∣ ] .
(c)最后,设 k = N ( H , ϵ 8 M ) k=\mathcal N(\mathcal H,\frac{\epsilon}{8M}) k = N ( H , 8 M ϵ ) 为半径为 ϵ / ( 8 M ) \epsilon/(8M) ϵ / ( 8 M ) ,以 H \mathcal H H 为中心,覆盖 h 1 , . . . , h k h_1,...,h_k h 1 , ... , h k 的球,用部分(a)表示对于所有 i ∈ [ k ] i\in[k] i ∈ [ k ] ,
P S ∼ D m [ ∣ R ( h ) − R ^ S ( h ) ∣ ≥ ϵ 2 ] ≤ P S ∼ D m [ ∣ L S ( h i ) ∣ ≥ ϵ 2 ] \underset{S\sim\mathcal D^m}{\mathbb P}[|R(h)-\hat R_S(h)|\ge\frac{\epsilon}{2}]\le\underset{S\sim\mathcal D^m}{\mathbb P}[|L_S(h_i)|\ge\frac{\epsilon}{2}] S ∼ D m P [ ∣ R ( h ) − R ^ S ( h ) ∣ ≥ 2 ϵ ] ≤ S ∼ D m P [ ∣ L S ( h i ) ∣ ≥ 2 ϵ ]
并应用Hoeffding不等式(定理D.2)证明(3.55)。