机器学习基础
3 Rademacher复杂性和VC维度
机器学习中通常使用的假设集是无限的。但在处理无限假设集时,前一章的样本复杂度界限是不具信息性的。人们可能会问,当假设集H为无穷大时,从有限样本进行有效学习是否可能。我们对轴对齐矩形族(示例2.1)的分析表明,至少在某些情况下,这确实是可能的,因为我们证明了无限概念类是PAC可学习的。我们在这一章的目标将是推广这一结果,并导出无限假设集的一般学习保证。这样做的总体思路是将无限情况简化为对有限组假设的分析,然后按照上一章的步骤进行。这种简化有不同的方法,每种方法都依赖于一系列假设的不同复杂性概念。我们将使用的第一个复杂性概念是Rademacher复杂性。这将有助于我们使用基于McDiarmid不等式的相对简单的证明来获得学习保证,同时获得高质量的边界,包括数据相关的边界,我们将在以后的章节中经常使用这些边界。然而,对于某些假设集,经验Rademacher复杂性的计算是NP困难的。因此,我们随后介绍了另外两个纯组合的概念,增长函数和VC维。我们首先将Rademacher复杂性与增长函数联系起来,然后用VC维来定义增长函数。VC维度通常更容易绑定或估计。我们将回顾一系列的例子,说明如何计算或约束它,然后联系增长函数和VC维。这导致基于VC维的泛化边界。最后,在可实现和不可实现的情况下,我们给出了基于VC维的下界,这将证明这个概念在学习中的关键作用。
3.1 Rademacher复杂性
我们将继续使用H来表示前面章节中的假设集,而H是H的一个元素。本节的许多结果是一般的,适用于任意损失函数L:Y×Y→ R每个h:X→ Y、 我们可以关联一个映射(x,Y)的函数g∈ X×Y到L(h(X),Y),没有明确描述所用的比损耗L。在下文中,G通常被解释为与H有关的损失函数族。Rademacher复杂性通过测量假设集对随机噪声的拟合程度来捕捉函数族的丰富性。以下陈述了经验和平均Rademacher复杂性的正式定义。
定义3.1经验Rademacher复杂性
设G是从Z到[a,b]的函数族,S=(z1,…,zm)是一个大小为m的固定样本,元素在Z中。然后,G相对于样本S的经验Rademacher复杂度定义为:
\widehat\mathfrak R_S(G)=\mathop{E}\limits_σ\bigg[\mathop{sup}\limits_{g∈G}\frac{1}{m}\sum_{i=1}^mσ_ig(z_i)\bigg],(3.1)
式中σ = ( σ 1 , … , σ m ) T σ=(σ_1,…,σ_m)^T σ = ( σ 1 , … , σ m ) T ,σ i s σ_is σ i s 是取{−1,+1}.1 ^1 1 随机变量σi称为Rademacher变量。设g s \mathbf g_s g s 表示函数g在样本S 上取的值向量:g S = ( g ( z 1 ), … , g ( z m ) ) T \mathbf g_S=(g(z_1),…,g(z_m))^T g S = ( g ( z 1 ), … , g ( z m ) ) T 。正如马歇尔所说,经验的复杂性可以被改写:
\widehat\mathfrak R_S(G)=\mathop{E}\limits_σ\bigg[\mathop{sup}\limits_{g∈G}\frac{σ\cdot \mathbf g_s}{m}\bigg],
内积σ ⋅ g S σ\cdot \mathbf g_S σ ⋅ g S 测量g S g_S g S 与随机噪声向量σ的相关性。上确界s u p g ∈ G σ ⋅ g s m sup_{g∈G}\frac{σ\cdot \mathbf g_s}{m} s u p g ∈ G m σ ⋅ g s 是衡量函数类G与样本S上σ相关性的一个指标。因此,经验Rademacher复杂度平均衡量函数类G与S上随机噪声的相关性。这描述了G族的丰富性:更丰富或更复杂的G族可以生成更多的矢量g s \mathbf g_s g s ,从而平均更好地与随机噪声相关。
我们隐式地假设,在本定义中,族G上的上确界是可测量的,并且通常在本书中对一类函数上的其他上确界采用相同的假设。这种假设不适用于任意函数类,但适用于机器学习实践中通常考虑的假设集,以及本书中讨论的实例。
定义3.2 Rademacher复杂性
设D表示抽取样本所依据的分布。对于任意整数m ≥ 1,G的Rademacher复杂度是根据D绘制的所有尺寸为m的样本的经验Rademacher复杂度的期望值:
\mathfrak R_m(G) =\mathop E\limits_{S∼D^m}[\widehat\mathfrak R_S(G)].(3.2)
现在,我们准备基于Rademacher复杂度给出我们的第一个泛化边界。
定理3.1
设G是从Z映射到[0,1]的函数族。任意 δ>0,概率至少为 1− δ、 以下各项适用于所有g∈ G:
E [ g ( z ) ] ≤ 1 m ∑ i = 1 m g ( z i ) + 2 R m ( G ) + l o g 1 δ 2 m . ( 3.3 ) E[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\mathfrak R_m(G)+\sqrt{\frac{log\frac{1}{δ}}{2m}}.(3.3) E [ g ( z )] ≤ m 1 i = 1 ∑ m g ( z i ) + 2 R m ( G ) + 2 m l o g δ 1 . ( 3.3 )
and\qquad E[g(z)]\le\frac{1}{m}\sum_{i=1}^mg(z_i)+2\widehat\mathfrak R_m(G)+3\sqrt{\frac{log\frac{2}{δ}}{2m}}.(3.4)
证明
对于任何样品S = ( z 1 , … , z m ) S=(z_1,…,z_m) S = ( z 1 , … , z m ) 和任何g ∈ G g∈ G g ∈ G 、 在S上的经验平均值为:E ^ S [ g ] = 1 m ∑ i = 1 m g ( z i ) \widehat E_S[g]=\frac{1}{m}\sum_{i=1}^mg(z_i) E S [ g ] = m 1 ∑ i = 1 m g ( z i ) 。证明包括将McDiarmid不等式应用于函数Φ,该函数由
Φ ( S ) = s u p g ∈ G E [ g ] − E ^ S [ g ] . ( 3.5 ) Φ(S) =\mathop {sup}\limits _{g∈G}E[g] −\widehat E_S[g].(3.5) Φ ( S ) = g ∈ G s u p E [ g ] − E S [ g ] . ( 3.5 )
假设S和S是两个样本,相差一个点,比如zmin S和z?我在S?。那么,由于上确界的差不超过差的上确界,我们有
Φ ( S ′ ) − Φ ( S ) ≤ s u p g ∈ G E ^ S [ g ] − E ^ S ′ [ g ] = s u p g ∈ G g ( z m ) − g ( z m ′ ) m ≤ 1 m . ( 3.6 ) Φ(S') − Φ(S)\le \mathop {sup}\limits _{g∈G}\widehat E_S[g] −\widehat E_{S'}[g]=\mathop {sup}\limits _{g∈G}\frac{g(z_m) − g(z'_m)}{m}\le \frac{1}{m}. (3.6) Φ ( S ′ ) − Φ ( S ) ≤ g ∈ G s u p E S [ g ] − E S ′ [ g ] = g ∈ G s u p m g ( z m ) − g ( z m ′ ) ≤ m 1 . ( 3.6 )
类似地 , 我们可以得到 Φ ( S ) − Φ ( S ′ ) ≤ 1 / m , 因此 ∣ Φ ( S ) − Φ ( S ′ ) ∣ ≤ 1 / m . 然后根据麦克迪米德不等式,对于任何 δ > 0 ,概率至少为 1 − δ / 2 ,以下公式成立: 类似地,我们可以得到 Φ (S) − Φ(S')\le 1/m,因此\vert Φ(S) − Φ(S')|\le 1/m.然后根据麦克迪米德不等式,对于任何δ>0,概率至少为1− δ/2,以下公式成立: 类似地 , 我们可以得到 Φ ( S ) − Φ ( S ′ ) ≤ 1/ m , 因此 ∣Φ ( S ) − Φ ( S ′ ) ∣ ≤ 1/ m . 然后根据麦克迪米德不等式,对于任何 δ > 0 ,概率至少为 1 − δ /2 ,以下公式成立:
Φ ( S ) ≤ E S [ Φ ( S ) ] + l o g 2 δ 2 m . ( 3.7 ) Φ(S)\le \mathop {E}\limits _S[Φ(S)] +\sqrt {\frac{log\frac{2}{δ}}{2m}}. (3.7) Φ ( S ) ≤ S E [ Φ ( S )] + 2 m l o g δ 2 . ( 3.7 )
接下来,我们将右侧的期望值限定为:
E S [ Φ ( S ) ] = E S [ s u p g ∈ H E ( g ) − E ^ S ( g ) ] \qquad\qquad\mathop {E}\limits _S[Φ(S)]=\mathop {E}\limits _S\bigg[\mathop {sup}\limits _{g∈H}E(g) −\widehat E_S(g)\bigg] S E [ Φ ( S )] = S E [ g ∈ H s u p E ( g ) − E S ( g ) ]
= E S [ s u p g ∈ H E S ′ [ E ^ S ′ ( g ) − E ^ S ( g ) ] ] \qquad\qquad\qquad\qquad=\mathop {E}\limits _S\bigg[\mathop {sup}\limits _{g∈H}\mathop E\limits _{S'}[\widehat E_{S'}(g) −\widehat E_S(g)]\bigg] = S E [ g ∈ H s u p S ′ E [ E S ′ ( g ) − E S ( g )] ]
≤ E S , S ′ [ s u p g ∈ H E ^ S ′ ( g ) − E ^ S ( g ) ] \qquad\qquad\qquad\qquad\le \mathop {E}\limits _{S,S'}\bigg[\mathop {sup}\limits _{g∈H}\widehat E_{S'}(g) −\widehat E_S(g)\bigg] ≤ S , S ′ E [ g ∈ H s u p E S ′ ( g ) − E S ( g ) ]
= E S , S ′ [ s u p g ∈ H 1 m ∑ i = 1 m ( g ( z i ′ ) − g ( z i ) ) ] \qquad\qquad\qquad\qquad=\mathop {E}\limits_{S,S'}\bigg[\mathop {sup}\limits_{g∈H} \frac{1}{m}\sum\limits _{i=1}^m(g(z'_i)-g(z_i))\bigg] = S , S ′ E [ g ∈ H s u p m 1 i = 1 ∑ m ( g ( z i ′ ) − g ( z i )) ]
= E σ , S , S ′ [ s u p g ∈ H 1 m ∑ i = 1 m σ i ( g ( z i ′ ) − g ( z i ) ) ] \qquad\qquad\qquad\qquad=\mathop {E}\limits _{σ,S,S'}\bigg[\mathop {sup}\limits _{g∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_i(g(z'_i)-g(z_i))\bigg] = σ , S , S ′ E [ g ∈ H s u p m 1 i = 1 ∑ m σ i ( g ( z i ′ ) − g ( z i )) ]
≤ E σ , S ′ [ s u p g ∈ H 1 m ∑ i = 1 m σ i g ( z i ′ ) ] + E σ , S [ s u p g ∈ H 1 m ∑ i = 1 m − σ i g ( z i ) ] \qquad\qquad\qquad\qquad\le \mathop {E}\limits _{σ,S'}\bigg[\mathop {sup}\limits _{g∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_ig(z'_i)\bigg]+\mathop {E}\limits _{σ,S}\bigg[\mathop {sup}\limits _{g∈H}\frac{1}{m}\sum\limits _{i=1}^m-σ_ig(z_i)\bigg] ≤ σ , S ′ E [ g ∈ H s u p m 1 i = 1 ∑ m σ i g ( z i ′ ) ] + σ , S E [ g ∈ H s u p m 1 i = 1 ∑ m − σ i g ( z i ) ]
= 2 E σ , S [ s u p g ∈ H 1 m ∑ i = 1 m σ i g ( z i ) ] = 2 R m ( G ) . \qquad\qquad\qquad\qquad=2\mathop {E}\limits _{σ,S}\bigg[\mathop {sup}\limits _{g∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_ig(z_i)\bigg]=2\mathfrak R_m(G). = 2 σ , S E [ g ∈ H s u p m 1 i = 1 ∑ m σ i g ( z i ) ] = 2 R m ( G ) .
等式3.8使用了一个事实,即S'中的点以i.i.d.方式取样,因此E [ g ] = E S ′ [ E ^ S ′ ( g ) ] E[g]=E_S'[\widehat E_{S'}(g)] E [ g ] = E S ′ [ E S ′ ( g )] ,如(2.3)所示。不等式3.9由Jensen不等式和supremum函数的凸性成立。在方程3.11中,我们引入了Rademacher变量σ i s σ_is σ i s ,即均匀分布的独立随机变量,取值于{−1,+1},如定义3.2所示。这不会改变(3.10)中出现的期望值:当σ i = 1 σ_i=1 σ i = 1 时,相关的被加数保持不变;当σ i = − 1 σ_i=-1 σ i = − 1 ,相关的被加数翻转符号,这相当于在S和S'之间交换z i 和 z i ′ z_i和z'_i z i 和 z i ′ 。由于我们对所有可能的S和S'取期望,因此该互换不会影响总体期望。我们只是在期望中改变被加数的顺序。(3.12)由上确界函数的子可加性成立,即恒等式sup(U+V)≤ sup(U)+sup(V)。最后,(3.13)源于Rademacher复杂性的定义以及变量σ i 和 − σ i σ_i和−σ_i σ i 和 − σ i 以相同的方式分布的事实。将等式3.13中的R m ( G ) \mathfrak R_m(G) R m ( G ) 简化产生了等式3.3中的界限,,使用δ而不是δ/2。为了导出关于\widehat\mathfrak R_S(G) 的界,我们观察到,根据定义3.2,改变S中的一个点会使\widehat\mathfrak R_S(G) 最多改变1/m。然后,再次使用麦克迪米德不等式,概率为1− δ/2,以下成立:
\mathfrak R_S(G)\le \widehat\mathfrak R_S(G)+\sqrt \frac{log\frac{2}{σ}}{2m} .(3.14)
最后,我们使用UnionBound组合不等式3.7和3.14,这两个不等式的概率至少为1− δ:
Φ(S)\le 2\widehat\mathfrak R_S(G)+3\sqrt \frac{log\frac{2}{σ}}{2m},(3.15)
匹配(3.4).
下面的结果将两个方面联系起来: 一个假设集 h 的经验 rademacher 复杂性,以及在双核损失(0-1损失)的情况下与 h 相关的损失函数 g 的族。
引理3.1
设 h 是{-1,+ 1}中取值的函数族,G 是与 H 相关的损失函数族,G = { ( x , y ) ↦ 1 h ( x ) = y : h ∈ H } G = \{(x,y)\mapsto1_{h (x) = y}: h ∈ H\} G = {( x , y ) ↦ 1 h ( x ) = y : h ∈ H } .对于 X × { − 1 , + 1 } X\times \{-1,+ 1\} X × { − 1 , + 1 } 中元素的任意样本 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) S = ((x_1,y_1) ,... ,(x_m,y_m)) S = (( x 1 , y 1 ) , ... , ( x m , y m )) ,令S x S_x S x 表示其在 X : S x = ( x 1 , . . . , x m ) X: S_x = (x_1,... ,x_m) X : S x = ( x 1 , ... , x m ) 上的投影。然后,在G和H的经验 rademacher 复杂度之间存在以下的关系:
\widehat\mathfrak R_S(G)=\frac{1}{2}\widehat\mathfrak R_{S_x}(H). (3.16)
证明
对于 X {-1,+ 1}中元素的任意样本 S = ( ( x 1 , y 1 ) , . . . , ( x m , y m ) ) S=((x_1,y_1),...,(x_m,y_m)) S = (( x 1 , y 1 ) , ... , ( x m , y m )) ,根据定义,G 的经验 rademacher 复杂度可以写成:
\widehat\mathfrak R_S(G)=\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_i1_{h (x_i)\neq y_i}\bigg]
= E σ [ s u p h ∈ H 1 m ∑ i = 1 m σ i 1 − y i h ( x i ) 2 ] \qquad\qquad\qquad=\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_i\frac{1-y_ih(x_i)}{2}\bigg] = σ E [ h ∈ H s u p m 1 i = 1 ∑ m σ i 2 1 − y i h ( x i ) ]
= 1 2 E σ [ s u p h ∈ H 1 m ∑ i = 1 m − σ i y i h ( x i ) ] \qquad\qquad\qquad=\frac{1}{2}\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^m-σ_iy_ih(x_i)\bigg] = 2 1 σ E [ h ∈ H s u p m 1 i = 1 ∑ m − σ i y i h ( x i ) ]
= 1 2 E σ [ s u p h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) ] = 1 2 R S x ( H ) , \qquad\qquad\qquad\qquad\qquad=\frac{1}{2}\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_ih(x_i)\bigg]=\frac{1}{2}\mathfrak R_{S_x}(H), = 2 1 σ E [ h ∈ H s u p m 1 i = 1 ∑ m σ i h ( x i ) ] = 2 1 R S x ( H ) ,
我们用1 h ( x i ) ≠ y i = ( 1 − y i h ( x i ) ) / 2 1_{h (xi)\neq y_i}=(1-y_ih(x_i))/2 1 h ( x i ) = y i = ( 1 − y i h ( x i )) /2 和y i ∈ { − 1 , + 1 } 作为固定因子 , σ i 、 − y i σ i y_i∈\{−1,+1\}作为固定因子, σ_i、−y_iσ_i y i ∈ { − 1 , + 1 } 作为固定因子 , σ i 、 − y i σ i 以相同的方式分布。
注意引理暗示,通过取期望值,对于任意 m ≥ 1 , R m ( G ) = 1 2 R m ( H ) m ≥1,\mathfrak R_m (G) =\frac{1}{2}R_m(H) m ≥ 1 , R m ( G ) = 2 1 R m ( H ) 。利用经验概率和平均概率概率之间的联系,可以推导出假设集 h 的概率复杂度 h 的二分类概率界限。
定理3.2 Rademacher复杂度界限-二进制分类
设H是一个取值函数族{−1,+1},设D为输入空间X上的分布。然后,对于任何δ>0,对于根据D绘制的尺寸为m的样本S,概率至少为1-δ,对于任何h∈H下面每个都成立:
R ( h ) ≤ R ^ ( h ) + R m ( H ) + l o g 1 σ 2 m \qquad\qquad R(h)\le \widehat R(h)+\mathfrak R_m(H)+\sqrt \frac{log\frac{1}{σ}}{2m} R ( h ) ≤ R ( h ) + R m ( H ) + 2 m l o g σ 1
and\qquad R(h)\le \widehat R(h)+\widehat\mathfrak R_m(H)+3\sqrt \frac{log\frac{2}{σ}}{2m}
证明
结果紧接着是定理3.1和引理3.1。
该定理为基于Rademacher复杂度的二元分类提供了两个推广界。注意第二个界限(3.18)是数据依赖的:经验Rademacher复杂度 R ^ S ( H ) \widehat R_S(H) R S ( H ) 是绘制的特定样本的函数。因此,如果我们能够计算R ^ S ( H ) \widehat R_S(H) R S ( H ) ,这个界限可能是特别有用的。但是,我们如何计算经验Rademacher复杂性?再次使用σ i 和 − σ i σ_i和−σ_i σ i 和 − σ i 以同样的方式分布,我们可以写出:
\widehat\mathfrak R_S(H)=\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^m-σ_ih(x_i)\bigg]=-\mathop {E}\limits _σ\bigg[\mathop {inf}\limits _{h∈H}\frac{1}{m}\sum\limits _{i=1}^mσ_ih(x_i)\bigg].
现在,对于σ的固定值,计算 i n f h ∈ H 1 m ∑ i = 1 m σ i h ( x i ) inf_{h∈H}\frac {1}{m}\sum_{i=1}^mσ_ih(x_i) in f h ∈ H m 1 ∑ i = 1 m σ i h ( x i ) 等价于经验风险最小化问题,这对于某些假设集来说是很难计算的。因此,在某些情况下,计算 R ^ S ( H ) \widehat R_S(H) R S ( H ) 在计算上是困难的。在下一节中,我们将把Rademacher复杂性与更容易计算的组合度量联系起来。
3.2 增长函数
在这里,我们将展示Rademacher复杂度如何根据增长函数来限定。
定义3.3增长函数
增长函数 ∏ H : N → N \prod_H:\N→\N ∏ H : N → N 的假设集H定义如下:
∀ m ⊆ N , Π H ( m ) = m a x { x 1 , . . . , x m } ⊆ X ∣ { ( h ( x 1 ) , . . . , h ( x m ) ) : h ∈ H } ∣ . ( 3.19 ) \forall m\subseteq \N,Π_H(m)=\mathop {max}\limits _{\{x_1,...,x_m\}\subseteq X}|\{(h(x_1),...,h(x_m)): h ∈ H\}|. (3.19) ∀ m ⊆ N , Π H ( m ) = { x 1 , ... , x m } ⊆ X ma x ∣ {( h ( x 1 ) , ... , h ( x m )) : h ∈ H } ∣. ( 3.19 )
因此,∏ H ( m ) ∏_H(m) ∏ H ( m ) 是使用H中的假设对m个点进行分类的不同方式的最大数量。这为假设集 h 的丰富性提供了另一个度量,但是,与 rademacher 复杂性不同,这个度量不依赖于分布,它纯粹是组合。
为了将Rademacher复杂性与增长函数联系起来,我们将使用Massart引理。
定理3.3马萨特引理
令A ⊆ Rm为一个有限集,有r = m a x x ∈ A ∥ x ∥ 2 r = max_{x∈A}\Vert x\Vert_2 r = ma x x ∈ A ∥ x ∥ 2 ,则以下公式成立:
E σ [ 1 m s u p x ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 l o g ∣ A ∣ m , ( 3.20 ) \mathop {E}\limits _σ\bigg[\frac{1}{m}\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\bigg]\le \frac{r\sqrt 2log\vert A\vert}{m},(3.20) σ E [ m 1 x ∈ A s u p i = 1 ∑ m σ i x i ] ≤ m r 2 l o g ∣ A ∣ , ( 3.20 )
式中,σ i s σ_is σ i s 为独立均匀随机变量,取值为{−1,+1} , x 1 , … , x m x_1,…,x_m x 1 , … , x m 是向量x的分量。
证明
对于任何t>0,使用Jensen不等式,重新排列项,并用和限定上确界,我们得到:
e x p ( t E σ [ 1 m s u p x ∈ A ∑ i = 1 m σ i x i ] ) ≤ E σ ( e x p [ t s u p x ∈ A ∑ i = 1 m σ i x i ] ) exp\bigg(t\mathop {E}\limits _σ\big[\frac{1}{m}\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\big]\bigg)\le \mathop {E}\limits _σ\bigg(exp\bigg[t\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\bigg]\bigg) e x p ( t σ E [ m 1 x ∈ A s u p i = 1 ∑ m σ i x i ] ) ≤ σ E ( e x p [ t x ∈ A s u p i = 1 ∑ m σ i x i ] )
= E σ ( s u p x ∈ A e x p [ t ∑ i = 1 m σ i x i ] ) ≤ ∑ x ∈ A E σ ( e x p [ t ∑ i = 1 m σ i x i ] ) =\mathop {E}\limits _σ\bigg(\mathop {sup}\limits _{x∈A}exp\bigg[t\sum\limits _{i=1}^mσ_ix_i\bigg]\bigg)\le \sum_{x∈A}\mathop {E}\limits _σ\bigg(exp\bigg[t\sum\limits _{i=1}^mσ_ix_i\bigg]\bigg) = σ E ( x ∈ A s u p e x p [ t i = 1 ∑ m σ i x i ] ) ≤ x ∈ A ∑ σ E ( e x p [ t i = 1 ∑ m σ i x i ] )
我们接下来使用σ i s σ_is σ i s 的独立性,然后应用Hoeffding引理(引理D.1),并使用r的定义来写:
e x p ( t E σ [ 1 m s u p x ∈ A ∑ i = 1 m σ i x i ] ) ≤ ∑ x ∈ A ∏ i = 1 m E σ i ( e x p [ t σ i x i ] ) exp\bigg(t\mathop {E}\limits _σ\big[\frac{1}{m}\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\big]\bigg)\le \sum\limits_{x∈A}\prod_{i=1}^m\mathop E\limits _{σ_i}(exp[tσ_ix_i]) e x p ( t σ E [ m 1 x ∈ A s u p i = 1 ∑ m σ i x i ] ) ≤ x ∈ A ∑ i = 1 ∏ m σ i E ( e x p [ t σ i x i ])
≤ ∑ x ∈ A ∏ i = 1 m e x p [ t 2 ( 2 x i ) 2 8 ] \le \sum\limits_{x∈A}\prod_{i=1}^mexp \bigg[\frac{t^2(2x_i)^2}{8}\bigg] ≤ x ∈ A ∑ i = 1 ∏ m e x p [ 8 t 2 ( 2 x i ) 2 ]
= ∑ x ∈ A e x p [ t 2 2 ∑ i ∈ 1 m X i 2 ] ≤ ∑ x ∈ A e x p [ t 2 r 2 2 ] = ∣ A ∣ e t 2 R 2 2 . =\sum\limits_{x∈A}exp \bigg[\frac{t^2}{2}\sum\limits_{i∈1}^mX^2_i\bigg]\le \sum\limits_{x∈A}exp \bigg[\frac{t^2r^2}{2}\bigg]=\vert A\vert e^{\frac{t^2R^2}{2}}. = x ∈ A ∑ e x p [ 2 t 2 i ∈ 1 ∑ m X i 2 ] ≤ x ∈ A ∑ e x p [ 2 t 2 r 2 ] = ∣ A ∣ e 2 t 2 R 2 .
取两边的对数,除以t得到:
E σ [ s u p x ∈ A ∑ i = 1 m σ i x i ] ≤ l o g ∣ A ∣ t + t r 2 2 . \mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\bigg]\le\frac{log\vert A\vert}{t}+\frac{tr^2}{2}. σ E [ x ∈ A s u p i = 1 ∑ m σ i x i ] ≤ t l o g ∣ A ∣ + 2 t r 2 .
如果我们选择t = 2 l o g ∣ A ∣ r t=\frac{\sqrt {2log\vert A\vert}}{r} t = r 2 l o g ∣ A ∣ ,最小化这个上界,我们得到:
E σ [ s u p x ∈ A ∑ i = 1 m σ i x i ] ≤ r 2 l o g ∣ A ∣ . \mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{x∈A}\sum\limits _{i=1}^mσ_ix_i\bigg]\le r\sqrt {2log\vert A\vert}. σ E [ x ∈ A s u p i = 1 ∑ m σ i x i ] ≤ r 2 l o g ∣ A ∣ .
两边都除以m,就得到引理的陈述。
利用这个结果,我们现在可以用增长函数来限制Rademacher的复杂性。
推论3.1
令G是取值在{-1,+1}中的函数族。那么以下成立:
R m ( G ) ≤ 2 l o g ∏ G ( m ) m . ( 3.23 ) \mathfrak R_m(G)\le \sqrt \frac{2log\prod_G(m)}{m}.(3.23) R m ( G ) ≤ m 2 l o g ∏ G ( m ) . ( 3.23 )
证明
对于固定样本S = ( x 1 , … , x m ) S=(x_1,…,x_m) S = ( x 1 , … , x m ) ,我们用G ∣ S G_{\vert S} G ∣ S 表示函数值( g ( x 1 ) , … , g ( x m ) ) T (g(x_1),…,g(x_m))^T ( g ( x 1 ) , … , g ( x m ) ) T 的向量集,其中g在G中。由于g ∈ G取{-1,+1}中的值,这些向量的范数以m \sqrt m m 为界。然后我们可以应用Massart引理如下:
R m ( G ) = E S [ E σ [ s u p u ∈ G ∣ S 1 m ∑ i = 1 m σ i u i ] ] ≤ E S [ m 2 l o g ∣ G ∣ S ∣ m ] . \mathfrak R_m(G)=\mathop {E}\limits _S\bigg[\mathop {E}\limits _σ\bigg[\mathop {sup}\limits _{u∈G_{\vert S}}\frac{1}{m}\sum\limits _{i=1}^mσ_iu_i\bigg]\bigg]\le \mathop {E}\limits _S\bigg[\frac{\sqrt m\sqrt {2log\vert G_{\vert S} \vert }}{m}\bigg]. R m ( G ) = S E [ σ E [ u ∈ G ∣ S s u p m 1 i = 1 ∑ m σ i u i ] ] ≤ S E [ m m 2 l o g ∣ G ∣ S ∣ ] .
根据定义,∣ G ∣ S ∣ \vert G_{\vert S}\vert ∣ G ∣ S ∣ 受增长函数的约束,因此,
R m ( G ) ≤ E S [ m 2 l o g Π G ( m ) m ] = 2 l o g ∏ G ( m ) m \mathfrak R_m(G)\le \mathop {E}\limits _S\bigg[\frac{\sqrt m\sqrt {2logΠ_G(m)}}{m}\bigg]=\sqrt\frac{2log\prod_G(m)}{m} R m ( G ) ≤ S E [ m m 2 l o g Π G ( m ) ] = m 2 l o g ∏ G ( m )
证明到此为止。
将定理3.2的推广界(3.17)与推论3.1相结合,就增长函数而言,立即产生以下推广界。
推论3.2增长函数推广界
设H是取值在{−1,+1}中的函数族。然后,对于任何δ > 0,概率至少为1-δ,对于任何h ∈ H,
R ( h ) ≤ R ^ ( h ) + 2 l o g ∏ H ( m ) m + l o g 1 σ 2 m . ( 3.24 ) R(h)\le \widehat R(h)+\sqrt\frac{2log\prod_H(m)}{m}+\sqrt\frac{log\frac{1}{σ}}{2m}.(3.24) R ( h ) ≤ R ( h ) + m 2 l o g ∏ H ( m ) + 2 m l o g σ 1 . ( 3.24 )
也可以直接导出增长函数边界(无需首先使用Rademacher复杂度边界)。由此产生的界限如下所示:
P r [ ∣ R ( h ) − R ^ ( h ) ∣ > ϵ ] ≤ 4 Π H ( 2 m ) e x p ( − m ϵ 2 8 ) Pr\bigg[\bigg\vert R(h)-\widehat R(h)\bigg\vert> \epsilon\bigg]\le 4Π _H(2m)exp(-\frac{m\epsilon^2}{8}) P r [ ∣ ∣ R ( h ) − R ( h ) ∣ ∣ > ϵ ] ≤ 4 Π H ( 2 m ) e x p ( − 8 m ϵ 2 )
它与(3.24)仅在常数方面有所不同。
生长函数的计算可能并不总是方便的,因为根据定义,它需要计算所有m ≥ 1 m\geq1 m ≥ 1 的∏ H ( m ) ∏_H(m) ∏ H ( m ) .下一节介绍了假设集H复杂性的另一种度量方法,该假设集H基于单个标量,事实证明,它与增长函数的行为密切相关。
图3.1 实线上区间的VC维数. (a) 任何两点都可能被打破. (b) 三个点中的任何一个样本都不能作为(+,−,+) 无法实现标记。
3.3 VC维
这里,我们介绍了VC维(Vapnik-Chervonenkis dimension)的概念。VC维也是一个纯粹的组合概念,但它通常比增长函数(或Rademacher复杂性)更容易计算。正如我们将看到的,VC维数是学习中的一个关键数量,与增长函数直接相关。
为了定义假设集H的VC维,我们首先引入了二分法和破碎的概念。给定一个假设集H,集S的二分法是使用H中的假设标记S点的可能方法之一。当H实现S所有可能的二分法时,即当Π H ( m ) = 2 m Π_H(m)=2^m Π H ( m ) = 2 m 时,可以说m ≥ 1 m\geq1 m ≥ 1 个点的集合S被假设集合H打破
定义3.4 VC维
假设集H的VC维是可被H完全粉碎的最大集的大小:
V C d i m ( H ) = m a x { m : Π H ( m ) = 2 m } . ( 3.26 ) VCdim(H)=max\{m:Π_H(m)=2^m\}.(3.26) V C d im ( H ) = ma x { m : Π H ( m ) = 2 m } . ( 3.26 )
注意,根据定义,如果VCdim(H)=d,则存在可以完全粉碎的大小为d的集合。但是,这并不意味着所有大小为d或更小的集合都被完全粉碎,事实上,通常情况并非如此。
为了进一步说明这一概念,我们将检查一系列假设集的示例,并确定每种情况下的VC维。为了计算VC维,我们通常会显示其值的下限,然后是匹配的上限。为了给VCdim(H)给出一个下界d,只要证明基数为d的集合S可以被H粉碎。为了给出一个上界,我们需要证明没有基数为d+1的集合S可以被H击碎,这通常更难。
示例3.1实线上的间隔
我们的第一个例子涉及实线上区间的假设类。很明显,VC维度至少有两个,因为所有四个二分法
图片3.2 使用R 2 \R^2 R 2 中的超平面对四个点进行不可实现的二分法。(a)所有四个点都位于凸面外壳上 (b)三个点位于凸面外壳上,而其余点位于内部。
(+,+),(−,−),(+,−),(−,+) 可以实现,如图3.1(a)所示。相比之下,根据区间的定义,由于无法实现(+,−,+)标记 。因此没有三个点的集合可以被粉碎,因此,VCdim(R \R R 中的间隔)=2。
示例3.2超平面
考虑R 2 \R^2 R 2 中的超平面集合。我们首先观察到R 2 \R^2 R 2 中的任何三个非共线点都可以被粉碎。为了得到前三个二分法,我们选择一个超平面,它的一侧有两个点,另一侧有第三个点。为了得到第四个二分法,我们将所有三个点都放在超平面的同一侧。剩下的四个二分法是通过简单地转换符号来实现的。接下来,我们通过考虑两种情况来证明四个点不能破碎:(i)四个点位于由四个点定义的凸壳上,以及(ii)四个点中的三个位于凸壳上,其余点是内部的。在第一种情况下,无法实现一个对角线对的正标记和另一个对角线对的负标记,如图3.2(a)所示。在第二种情况下,无法实现凸壳上点为正、内点为负的标记,如图3.2(b)所示。因此,VCdim(R 2 \R^2 R 2 中的超平面)=3
更一般地,在R d \R^d R d 中,我们从R d \R^d R d 中的一组D + 1个点开始,将X_0设置为原点并定义x_i,因为i∈ {1,…,d},作为第i个坐标为1且所有其他坐标均为0的点。设y 0 , y 1 , … , y d y_0,y_1,…,y_d y 0 , y 1 , … , y d ∈ { −1,+1}是x 0 , x 1 , … , x d x_0,x_1,…,x_d x 0 , x 1 , … , x d 的任意标签集。设w为其第i个坐标为yi的向量。然后由方程w ⋅ x + y 0 2 = 0 w·x+\frac{y_0}{2}=0 w ⋅ x + 2 y 0 = 0 的超平面定义的分类器对任何i∈ [0,d]粉碎x 0 , x 1 , … , x d x_0,x_1,…,x_d x 0 , x 1 , … , x d ,
s g n ( w ⋅ x i + y 0 2 ) = s g n ( y i + y 0 2 ) = y i . ( 3.27 ) sgn\big(w\cdot x_i+\frac{y_0}{2} \big)=sgn\big(y_i+\frac{y_0}{2} \big)=y_i.(3.27) s g n ( w ⋅ x i + 2 y 0 ) = s g n ( y i + 2 y 0 ) = y i . ( 3.27 )
为了得到一个上界,只要证明没有d+2点的集合可以被半空间打破。为了证明这一点,我们将使用以下一般定理。
图片3.3 轴对齐矩形的VC维 (a)菱形图案中四个点的可实现二分法示例(b) 如果内部点和其余点具有相反的标签,则无法实现五个点的样本。
定理3.4拉东定理
R d \R^d R d 中d+2个点的任何集合X都可以划分为两个子集x1和x2,使得x1和x2的凸包相交。
证明
设X = x 1 , … , x d + 2 ⊂ R d X={x_1,…,x_{d+2}} ⊂ R^d X = x 1 , … , x d + 2 ⊂ R d .以下是α 1 , … , α d + 2 α_1,…,α_{d+2} α 1 , … , α d + 2 中的d+1个线性方程组:
∑ i = 1 d + 2 α i x i = 0 a n d ∑ i = 1 d + 2 α i = 0 , ( 3.28 ) \sum_{i=1}^{d+2}α_ix_i=0\qquad and\qquad\sum_{i=1}^{d+2}α_i=0,(3.28) i = 1 ∑ d + 2 α i x i = 0 an d i = 1 ∑ d + 2 α i = 0 , ( 3.28 )
因为第一个等式导致d方程每个分量一个。未知数的数量d+2大于方程的数量d+1,因此系统允许非零解β 1 β_1 β 1 ,…,β d + 2 β_{d+2} β d + 2 。由于∑ i = 1 d + 2 β i = 0 \sum^{d+2}_{i=1}β_i=0 ∑ i = 1 d + 2 β i = 0 ,I 1 = { i ∈ [ 1 , d + 2 ] : β i > 0 } I_1=\{i\in[1,d+2]:β_i>0\} I 1 = { i ∈ [ 1 , d + 2 ] : β i > 0 } 和I 2 = { i ∈ [ 1 , d + 2 ] : β i < 0 } I_2=\{i\in[1,d+2]:β_i<0\} I 2 = { i ∈ [ 1 , d + 2 ] : β i < 0 } 都是非空集并且X 1 = { x i : i ∈ I 1 } X_1= \{x_i: i ∈ I_1\} X 1 = { x i : i ∈ I 1 } 和X 2 = { x i : i ∈ I 2 } X_2= \{x_i: i ∈ I_2\} X 2 = { x i : i ∈ I 2 } 形成X的一个分区。由(3.28)的最后一个方程,∑ i ∈ I 1 β i = − ∑ i ∈ I 2 β i \sum_{i\in I_{1}}β_i=-\sum_{i\in I_{2}}β_i ∑ i ∈ I 1 β i = − ∑ i ∈ I 2 β i ,设β = ∑ i ∈ I 1 β i β=\sum_{i\in I_{1}}β_i β = ∑ i ∈ I 1 β i 那么,(3.28)的第一部分意味着
∑ i ∈ I 1 β i β X i = ∑ i ∈ I 2 − β i β X i , \sum_{i\in I_{1}}\frac{β_i}{β}X_i=\sum_{i\in I_{2}}\frac{-β_i}{β}X_i, i ∈ I 1 ∑ β β i X i = i ∈ I 2 ∑ β − β i X i ,
伴随着∑ i ∈ I 1 β i β = ∑ i ∈ I 2 − β i β = 1 \sum_{i\in I_{1}}\frac{β_i}{β}=\sum_{i\in I_{2}}\frac{-β_i}{β}=1 ∑ i ∈ I 1 β β i = ∑ i ∈ I 2 β − β i = 1 ,对于 i ∈ I 1 i\in I_1 i ∈ I 1 有 β i β ≥ 0 \frac{β_i}{β}\geq0 β β i ≥ 0 ,对于i ∈ I 2 i ∈ I_2 i ∈ I 2 有− β i β ≥ 0 \frac{-β_i}{β}\geq0 β − β i ≥ 0 ,凸面外壳的定义(B.4),这意味着∑ i ∈ I 1 β i β X i \sum_{i\in I_{1}}\frac{β_i}{β}X_i ∑ i ∈ I 1 β β i X i 均为
图片3.4 平面中的凸d-gons可以破碎2d+1个点 ( a )当有更多的负标签时的d-gon构造 ( b )有更多正面标签时的d-gon构造。
现在,让X是一组d+2个点。根据Radon定理,可以将其划分为两个集合x1和x2,使它们的凸包相交。观察到两组点x1和x2由超平面分隔时,它们的凸包也应由该超平面分隔。因此,x1和x2不能被超平面分开,并且X没有被粉碎。结合我们的上限和下界,我们证明了VCdim(R d \R^d R d 中的超平面)=d+1
示例3.3轴对齐矩形
通过考虑菱形图案中的四个点,我们首先证明了VC维数至少为四。然后,很明显,所有16种二分法都可以实现,其中一些在图3.2(a)中进行了说明。相反,对于任何一组五个不同的点,如果我们构造包含这些点的最小轴对齐矩形,五个点中的一个位于该矩形的内部。想象一下,我们为该内部点指定一个负标签,为其余四个点中的每个点指定一个正标签,如图3.2(b)所示。没有轴对齐的矩形可以实现此标记。因此,没有五个不同点的集合可以被粉碎,并且VCdim(轴对齐矩形)=4。
示例3.4凸多边形
我们主要研究平面上的凸d-角类。为了得到一个下限,我们证明了任何一组2d+1点都可以被完全粉碎。为此,我们选择位于圆上的2d+1点,对于特定标签,如果负标签多于正标签,则带有正标签的点将用作多边形的顶点,如图3.4(a)所示。否则,负点的切线将用作多边形的边,如(3.4)(b)所示。推导出一个上限
图片3.5 用于分类边界的正弦函数(ω=50)示例。可以证明,选择圆上的点可以最大化可能的二分法的数量,因此VCdim(凸d-gons)=2d+1。还要注意VCdim(凸多边形)=+ ∞ +∞ + ∞ .
示例3.5正弦函数
前面的例子可能表明H的VC维数与定义H的自由参数的数量一致。例如,定义超平面的参数数量与其VC维度相匹配。然而,这在一般情况下并不成立。本章中的几个练习说明了这一事实。下面从这个角度提供了一个引人注目的例子。考虑下面的正弦函数族:{ t ↦ s i n ( ω t ): ω ∈ R } \{t\mapsto sin(ωt):ω∈ \R\} { t ↦ s in ( ω t ): ω ∈ R } 。该函数类的一个实例如图3.5所示。这些正弦函数可用于对实线上的点进行分类:如果点位于曲线上方,则标记为正,否则标记为负。虽然该正弦函数族是通过单个参数ω定义的,但可以证明VCdim(正弦函数)=+ ∞ +∞ + ∞ (练习3.12)。
许多其他假设集的VC维可以通过类似的方式确定或设定上界(参见本章练习)。特别是,任何维数r < ∞ r<∞ r < ∞ 的空间向量的VC维最多可显示为r(练习3.11)。下一个被称为Sauer引理的结果阐明了增长函数和VC维概念之间的联系。
定理3.5 Sauer引理
设H为V C d i m ( H ) = d VCdim(H)=d V C d im ( H ) = d 的假设集。对于所有的m ∈ N m∈ \N m ∈ N ,以下不等式成立:
Π H ( m ) ≤ ∑ i = 0 d ( m i ) . ( 3.29 ) Π_H(m)\le \sum_{i=0}^d\binom{m}{i}.(3.29) Π H ( m ) ≤ i = 0 ∑ d ( i m ) . ( 3.29 )
图片3.6 在Sauer引理的证明中G1和G2是如何构造的图解。
证明
证明是通过m+d的归纳法。该语句显然适用于m=1和d=0或d=1。现在,假设它适用于(m− 1,d− 1) 及(m)− 1,d)。用Π H ( m ) Π_H(m) Π H ( m ) 二分法固定一个集合S = x 1 , . . . , x m S={x_1,...,x_m} S = x 1 , ... , x m 并令G = H ∣ S G=H\vert S G = H ∣ S 是H通过对S的限制而引入的概念集合。
现在考虑族S ′ = { x 1 , . . . , x m − 1 } S'=\{x_1,...,x_{m-1}\} S ′ = { x 1 , ... , x m − 1 } ,我们将G 1 = G ∣ S ′ G_1=G\vert S' G 1 = G ∣ S ′ 定义为H H H 受限于S ′ S' S ′ 所包含的概念集。接下来,通过将每个概念识别为非零点(S ′ 或 S S'或S S ′ 或 S )的集合,我们可以将G2定义为
G 2 = { g ′ ⊆ S ′ : ( g ′ ∈ G ) ∧ ( g ′ ∪ { x m } ∈ G ) } G_2=\{g'\subseteq S':(g'\in G)\land(g'\cup \{x_m\}\in G)\} G 2 = { g ′ ⊆ S ′ : ( g ′ ∈ G ) ∧ ( g ′ ∪ { x m } ∈ G )}
g ′ ⊆ S ′ , g ′ ∈ G g'⊆ S', g'∈ G g ′ ⊆ S ′ , g ′ ∈ G 意味着在不添加X m X_m X m 的情况下,这是G的一个概念。此外,约束g ′ ∪ { x m } ∈ G g'\cup \{x_m\}\in G g ′ ∪ { x m } ∈ G 意味着,将X m X_m X m 添加到g'中也使其成为G的一个概念。G1和G2的结构如图3.6所示。根据我们对G1和G2的定义,观察∣ G 1 ∣ + ∣ G 2 ∣ = ∣ G ∣ | G1 |+| G2 |=| G | ∣ G 1∣ + ∣ G 2∣ = ∣ G ∣ 。
自V C d i m ( G 1 ) ≤ V C d i m ( G ) ≤ d VCdim(G1)≤ VCdim(G)≤ d V C d im ( G 1 ) ≤ V C d im ( G ) ≤ d 、 然后通过定义增长函数并使用归纳假设,
∣ G 1 ∣ ≤ Π G 1 ( m − 1 ) ≤ ∑ i = 0 d ( m − 1 i ) . |G_1|\le Π_{G_1}(m-1)\le \sum_{i=0}^d\binom{m-1}{i}. ∣ G 1 ∣ ≤ Π G 1 ( m − 1 ) ≤ i = 0 ∑ d ( i m − 1 ) .
此外,根据G2的定义,如果一个集合Z ⊆ S ′ Z\subseteq S' Z ⊆ S ′ 被G2打碎,然后是集合Z ∪ { x m } Z∪\{x_m\} Z ∪ { x m } 被G粉碎。因此,
V C d i m ( G 2 ) ≤ V C d i m ( G ) − 1 = d − 1 , VCdim(G_2)\le VCdim(G)-1=d-1, V C d im ( G 2 ) ≤ V C d im ( G ) − 1 = d − 1 ,