Rademacher【(德)拉德马赫】复杂性
在第四章中,我们证明了一致收敛是易学性的一个充分条件。在这一章中,我们研究随机复杂度,它衡量一致收敛的速度。第四章证明了一致收敛是易学性的一个充分条件。在这一章中,我们研究拉德马赫复杂度,它衡量一致收敛的速度。我们将在此度量的基础上提供泛化边界。
26.1 拉德马赫复杂性
还记得an的定义吗?-第4章中具有代表性的样本,为了方便起见,这里重复一遍。
定义:26.1(?-代表性样本)一个训练集被称为?代表(w.r.t.domainZ,假设类别h,损失函数’和分布),如果支持∈H | LD(H)−LS(h)|≤? sup
我们已经证明,如果是?/2代表性样本,那么ERM规则是?-一致的,即LD(ERMH(S))≤明∈HLD(h)?。
为了简化我们的符号,让我们表示
Fdef=◦ Hdef={z7→‘(h,z):h∈ H} ,
和givenf∈ F、 我们定义
LD(F)=Ez∼D[f(z)],LS(f)=1mmxi=1f(zi)。
我们将函数的真实误差与其经验误差之间的最大差距定义为表示形式,即
RepD(F,S)def=sup F∈F?LD(F)−LS(f)?。(26.1)
现在,假设我们想估算仅使用样本的代表性。一个简单的想法是将其拆分为两个不相交的集合,S=S1∪S2;参见第1章为验证集,第2章为培训集。然后,我们可以估算出
BY sup f的代表性∈F?LS1(F)−LS2(f)?。(26.2)
Shai Shalev Shwartz和Shai Ben David的《理解机器学习》,c?2014年,剑桥大学出版社出版。仅供个人使用。不是为了分发。不要张贴。
请链接tohttp://www. 反恐精英。胡吉。ac.il/~shais/了解机器学习
376拉德马赫复杂性
通过定义σ=(σ1,…,σm)可以更简洁地描述这一点∈ {±1}mt是一个向量,使得s1={zi:σi=1}和s2={zi:σi=1}=−1}. 然后,如果我们进一步假设| S1 |=| S2 |,那么方程(26.2)可以重写为
2mSf∈F mX i=1σif(zi)。(26.3)
拉德马赫复杂性度量通过考虑上述关于σ的随机选择的期望来捕捉这一想法。从形式上讲,letF◦S是函数F中所有可能的求值的集合∈ F可在样本S上实现,即
F◦S={(f(z1),…,f(zm)):f∈ F} 。
设σ中的变量分布为i。我D根据toP[σi=1]=P[σi=−1] = 1 2. 然后,关于toSis的Rademacher复杂度定义如下:
R(F◦S) def=1 mEσ∼{±1}m“sup f∈F mX i=1σif(zi)#(26.4)
更一般地说,给定一组向量,a⊂Rm,我们定义
R(A)def=1 mEσ“sup A∈A mX i=1σiai#。(26.5)
以下引理将Sby代表性的预期值限定为预期Rademacher复杂度的两倍。
外稃26。2
ES∼Dm[报告(F,S)]≤2ES∼DmR(F◦S) 。
ProofLetS0={z01,…,z0m}是另一个i。我D样品显然,为了所有人∈ F、 LD(F)=ES0[LS0(F)]。因此,对于每个人来说∈ 我们有
LD(f)−LS(f)=ES0[LS0(f)]−LS(f)=ES0[LS0(f)−LS(f)]。
取上确界∈ 对于两边,利用期望的上确界小于上确界的期望这一事实,我们得到了sup f∈F?LD(F)−LS(f)?=辅助
f∈FES0[LS0(f)−LS(f)]≤ES0“sup f∈F?LS0(F)−LS(f)?#。
将双方的期望值相加,我们得到
ES“sup f”∈F?LD(F)−LS(f)?#≤ES,S0“sup f∈F?LS0(F)−LS(f)?#=1 mES,S0“辅助f∈F mX i=1(F(z0i)−f(zi)#。(26. 6)
26. 1 拉德马赫的复杂性 377
接下来,我们注意到,对于eachj,zjandz0jare i。我D变量。因此,我们可以在不影响预期的情况下替换它们:
ES,S0 副手∈F (f(z0j)−f(zj))X i6=j(f(z0i)−f(zi)) = ES,S0 副手∈F (f(zj)−f(z0j))X i6=j(f(z0i)−f(zi)) . (26. 7)