第27章
在本章中,我们将描述度量集合复杂性的另一种方法,称为覆盖数。
27.1覆盖层
(覆盖)设A⊂ Rm是向量的集合。我们说它是由集合A′覆盖的,关于欧几里得度规,如果对于所有的a∈A存在一个a′ ∈A′和∥a−a′ ∥ ≤r。我们用N(r,A)定义最小的A′的基数覆盖A。
例27.1(子空间)假设A⊂ Rm,允许c= maxa∈A∥a∥,并且假设A在Rm的d维子空间中。当然,N(r, A)≤(2cd/r)d。为了看到这个,让V1 ⋯,Vd是子空间的标准正交基。么,任意a∈A可以写成a= ∑ i=1d α i vi和∥ αα ∥ ∞ ≤ ∥ αα ∥ 2 = ∥ a ∥ 2 ≤c。设ϵ ∈ R并考虑这个集合
A′ = { i=1∑d α i vi:∀ i,α i ∈ { −c,−c +c,−c+2,⋯,c} }
给定a∈A s.t. a= ∑i=1d α i vi且∥ αα ∥ ∞ ≤ c,存在a′ ∈A′
使∥a−a′ ∥ 2 ≤ = ∥
i∑(α ′ i − α i)vi ∥ 2 ≤ ϵ 2 i∑ ∥ vi ∥ 2 ≤ ϵ 2d
选择ϵ =r/d;然后∥a−a′ ∥,因此A′是A的r形封面。
N(r, A)≤|A′|= (ϵ2c)d =(r2cd)d
27.1.1 特性
以下引理是从定义中立即的。
引理27.2任何A⊂Rm,标量子c>0,和矢量a0 ∈bmatrix Rm,我们有
∀ r >0,N(r,{ca+a0:a∈A})≤N(cr, A)
了解机器学习, C 2014由Shai Shalev-Shwartz和Shai Ben-David 2014年发布于2014年剑桥大学出版社。 个人使用。不用于分发。不要发帖。 请链接到www.cs.huji.ac.il/~shais/unde… machinelearning
27.2通过链接覆盖去灭火器复杂性
接下来,我们派生了收缩原则.
引理27.3对每个i∈ [m],让ϕ i:R → R上一个ρ-李普希茨功能; 即,对所有α,β ∈ R我们|ϕ i(α) − ϕ i(β)|≤ρ|α − β|.对于a∈ R米让利 ϕϕ(a)中表示的向量(ϕ 1(a1),⋯,ϕ m(am))中.让ϕϕ◦A = {ϕϕ(\textbf a):用a∈A}。然后,
N(ρr,ϕϕ◦A)≤N(r, A)
证明定义B= ϕϕ◦A。让A′是A的覆盖,并定义B′ = ϕϕ ◦A′ 。 然后,对于所有a∈A存在a′∈A′与∥a−a′ ∥ ≤r。所以
∥ ϕϕ(a)− ϕϕ(a′)∥ = i∑(ϕ i(ai) − ϕ i(ai ′))2 ≤ρ2 i∑(ai)−ai ′)2 ≤(ρr)2
因此,B'是一个(ρr)的封面B。
27.2通过链接覆盖去灭火器复杂性
以下引理基于的Remma界定了A的RadeMacher复杂性 覆盖数字N(r,A)。这种技术称为链接并归因于去达德利。
Lemma 27.4让c= mina maxa∈A ∥a− a ∥,然后,对于任意整数M>0.
R(A)≤ mc2−M + m6c k=1∑M2−k log(N(c2−k,A).
证明让a答案是定义中给出的目标函数的最小化器 c。在雷姆玛26.6的基础上,我们可以分析Rademacher复杂性 假设a = 0
考虑集B0 = {0}并注意它是A的C封面。让B1,⋯,BM. 被设置成使得每个BK对应于最小 c2−k复制A.让一种a∗ = argmaxa∈A ⟨ σσ,a⟩(如果有多个最大化器,则选择一个 以任意方式,如果最大化器不存在,请选择一个a∗这样⟨ σσ,a⟩,a∗ 我足够接近至高无上。注意a∗ 是σσ的函数。为了每K,让bk是最近的邻居 a∗ 在bk(因此bk也是一个函数σσ。使用三角形不等式,
∥ b(k) − b(k−1) ∥ ≤ ∥ b(k) − a∗ ∥ + ∥ a∗ b(k−1) ∥ ≤c(2−k + 2−(k−1))=3c2−k
对于每个k定义集合
B^K ={(a−a′):a∈ Bk,a′ ∈ Bk−1,∥ a−a′ ∥ ≤3c2−k
覆盖数字
我们现在可以写
R(A)= m1 E ⟨ σσ,a∗ ⟩
= m1 E [⟨σσ,a∗−b(M)⟩+K=1∑M⟨σσ,b(k)−b(k−1)⟩]
≤ m1 E [∥σ∥∥a∗−b(M)∥] + K=1∑M m1 E [supa∈B^K⟨σσ,a⟩]
因为∥σσ∥ = m与∥a∗−b(M)∥ ≤c2−M,第一次召开最多mc 2−M.此外,由大规模的引理,
m1 E supa∈B^K⟨σσ,a⟩ ≤3c2−k m2.log(N(c2−k,A)2 =6c2−k mlog(N(c2−k,A)
作为必论是我们获得以下内容:
R(A)≤ mC2−M + K=1∑M2−k log(N(c2−k,A)
引理27.5假设有α,β > 0,使得任何K≥ 1
然后,
R(A)≤ m6c(α +2β)
通过拍摄M→ ∞并注意到,依赖于引理27.4的界限。∑k=1∞ 2−k =1和∑k=1∞ k2−k =1
示例27.2考虑一个设置在r的D维子空间中的集合A。Rm并且这样C= maxa∈A ∥a∥。我们已经表明N(r,A)≤(r2cd)d。因此,对于任何K。
log(N(c2−k,A) ≤ dlog(2k+1d)
≤ dlog(2k+1d) + kd
≤ dlog(2k+1d) + dk
因此,雷姆玛27.5产量
R(A)≤ m6c(dlog2d) + 2d)= O(mcdlog(d))
27.3书目言论
27.3书目言论
链接技术是由于达德利(1987)。对于对覆盖号码的广泛研究以及可用于绑定的其他复杂性措施 统一收敛速率我们将读者推荐给(Anthony&Bartlet 1999)。