zc

148 阅读3分钟

第27章

 在本章中,我们将描述度量集合复杂性的另一种方法,称为覆盖数。

 27.1覆盖层

 (覆盖)设A\subset R\mathbb{R}m是向量的集合。我们说它是由集合A^{\prime}覆盖的,关于欧几里得度规,如果对于所有的a\inA存在一个a^{\prime} \inA^{\prime}\lVerta-a^{\prime} \rVert \leqr。我们用N(r,A)定义最小的A^{\prime}的基数覆盖A

 例27.1(子空间)假设A\subset R\mathbb{R}m,允许c== maxa\max_a\inA\lVerta\lVert,并且假设AR\mathbb{R}m的d维子空间中。当然,N(r, A)\leq(2cd\sqrt{d}/r)d^{d}。为了看到这个,让V1V_1 \cdots,VdV_d是子空间的标准正交基。么,任意a\inA可以写成a== \sum i=1d^{d}_{i=1} α\alpha i_{i} vi_{i}\lVert α\pmb\alpha \lVert _{∞} \leq \lVert α\pmb\alpha \lVert 2_2 == \lVert a \lVert 2_2 \leqc。设ϵ\epsilon \in R\mathbb{R}并考虑这个集合  \qquad \qquad A^{\prime} == {\lbrace i=1d\sum\limits_{i=1}^d α\alpha i_{i} vi_{i}\forall i_{i}α\alpha i_{i} \in {\lbrace -c,-c ++c,-c+2+2,\cdots,c}\rbrace }\rbrace

给定a\inA s.t. a== i=1d\sum_{i=1}^d α\alpha i_{i} vi_{i}\lVert α\pmb\alpha \lVert _{∞} \leq c,存在a^{\prime} \inA^{\prime}

使\lVerta-a^{\prime} \rVert 2^{2} \leq == \lVert i\sum\limits_{i}α\alpha ^{\prime} i_{i} - α\alpha i_{i})vi_{i} \lVert 2^{2} \leq ϵ\epsilon 2^{2} i\sum\limits_{i} \lVert vi_{i} \lVert 2^{2} \leq ϵ\epsilon 2^{2}d

选择ϵ\epsilon ==r/d\sqrt{d};然后\lVerta-a^{\prime} \lVert,因此A^{\prime}A的r形封面。

\qquad \qquad \qquad N(r, A)\leq|A^{\prime}|==2cϵ\frac{2c}{\epsilon}d^{d} ==2cdr\frac{2c\sqrt{d}}{r}d^{d}

27.1.1 \qquad 特性

 以下引理是从定义中立即的。  引理27.2任何A⊂R\mathbb{R}m,标量子c>\gt0,和矢量a0_{0} \inbmatrix R\mathbb{R}m,我们有

\qquad \qquad \qquad \forall  ⁣\! r_{r} >\gt0,N(r,{\lbraceca+a0_{0}:a\inA}\rbrace)\leqN(cr, A)

了解机器学习, C 2014由Shai Shalev-Shwartz和Shai Ben-David 2014年发布于2014年剑桥大学出版社。 个人使用。不用于分发。不要发帖。 请链接到www.cs.huji.ac.il/~shais/unde… machinelearning

27.2通过链接覆盖去灭火器复杂性


接下来,我们派生了收缩原则.

 引理27.3对每个i\in [m]\begin{bmatrix}m\end{bmatrix},让ϕ\phi i_{i}:R\mathbb{R} \rightarrow R\mathbb{R}上一个ρ-李普希茨功能; 即,对所有α\alphaβ\beta \in R\mathbb{R}我们|ϕ\phi i_{i}(α\alpha) - ϕ\phi i_{i}(β\beta)|\leqρ|α\alpha - β\beta|.对于a\in R\mathbb{R}米让利 ϕ\pmb\phi(a)中表示的向量(ϕ\phi 1_{1}(a1_{1}),\cdots,ϕ\phi m_{m}(am_{m}))中.让ϕ\pmb\phi◦A == {ϕ\pmb\phi(\textbf a):用a\inA}。然后,

\qquad \qquad \qquad N(ρr,ϕ\pmb\phi◦A)\leqN(r, A)

证明定义B== ϕ\pmb\phiA。让A^{\prime}是A的覆盖,并定义B^{\prime} == ϕ\pmb\phiA^{\prime} 。 然后,对于所有a\inA存在a^{\prime}∈A^{\prime}\lVerta-a^{\prime} \rVert \leqr。所以

\qquad \qquad \lVert ϕ\pmb\phi(a)- ϕ\pmb\phi(a^{\prime})\lVert == i\sum\limits_{i}(ϕ\phi i_{i}(ai_{i}) - ϕ\phi i_{i}(ai_{i} ^{\prime}))2^2 \leqρ2^2 i\sum\limits_{i}(ai_{i})-ai_{i} ^{\prime})2^2 \leq(ρr)2^2

因此,B'是一个(ρr)的封面B。

27.2通过链接覆盖去灭火器复杂性

以下引理基于的Remma界定了A的RadeMacher复杂性 覆盖数字NrA)。这种技术称为链接并归因于去达德利。

Lemma 27.4让c== mina\min_{\overline{a}} maxaA\max_{a∈A} \lVerta- a\overline{\textbf a} \rVert,然后,对于任意整数M>>0.

\qquad \qquad R(A)\leq c2Mm\frac{c2^{−M}}{\sqrt {m}} ++ 6cm\frac{6c}{m} k=1M2k\sum\limits_{k=1}^M2^{-k} log(N(c2k,A)\sqrt {\log(N(c2^{-k},A)}.

证明让a\overline{\textbf a}答案是定义中给出的目标函数的最小化器 c。在雷姆玛26.6的基础上,我们可以分析Rademacher复杂性 假设a\overline{\textbf a} == 0

考虑集B0B_0 == {0}并注意它是A的C封面。让B1B_1,\cdotsBMB_M. 被设置成使得每个BKB_K对应于最小 c2kc2^{-k}复制A.让一种a\textbf a^* == argmaxaAargmax_{a∈A} \langle σ\pmb\sigma,a\rangle(如果有多个最大化器,则选择一个 以任意方式,如果最大化器不存在,请选择一个a\textbf a^*这样\langle σ\pmb\sigma,a\ranglea\textbf a^* 我足够接近至高无上。注意a\textbf a^*σ\pmb\sigma的函数。为了每K,让bk\textbf b^k是最近的邻居 a\textbf a^*bk\textbf b^k(因此bk\textbf b^k也是一个函数σ\pmb\sigma。使用三角形不等式,

\qquad \lVert b(k)\textbf b^{(k)} - b(k1)\textbf b^{(k-1)} \lVert \leq \lVert b(k)\textbf b^{(k)} - a\textbf a^* \lVert ++ \lVert a\textbf a^* b(k1)\textbf b^{(k-1)} \lVert \leqc(2k2^{-k} ++ 2(k1)2^{-(k-1)})==3c2k2^{-k}

对于每个k定义集合

\qquad \qquad B^K\hat{B}_K =={(a-a^{\prime}):a\in BkB_k,a^{\prime} \in Bk1B_{k-1},\lVert a-a^{\prime} \lVert \leq3c2k2^{-k}

覆盖数字

我们现在可以写

\qquad \qquadR(A)== 1m\frac{1}{m} E\mathbb{E} \langle σ\pmb\sigma,a\textbf a^* \rangle

\qquad \qquad \quad == 1m\frac{1}{m} E\mathbb{E} [σ,ab(M)+K=1Mσ,b(k)b(k1)]\begin{bmatrix} \langle \pmb\sigma,\textbf a^*-\textbf b^{(M)}\rangle+\sum\limits_{K=1}^M\langle \pmb\sigma,\textbf b^{(k)}-\textbf b^{(k-1)}\rangle\end{bmatrix}

\qquad \qquad \quad \leq 1m\frac{1}{m} E\mathbb{E} [σab(M)]\begin{bmatrix}\lVert\sigma\lVert\lVert \textbf a^*-\textbf b^{(M)}\lVert\end{bmatrix} ++ K=1M\sum\limits_{K=1}^M 1m\frac{1}{m} E\mathbb{E} [supaB^Kσ,a]\begin{bmatrix}sup_{a\in\hat{B}_K}\langle \pmb\sigma,\textbf a\rangle\end{bmatrix}

因为σ\lVert\pmb\sigma\lVert == m\sqrt {m}ab(M)\lVert \textbf a^*-\textbf b^{(M)}\lVert \leqc2M2^{-M},第一次召开最多cm{c\over \sqrt m} 2M2^{-M}.此外,由大规模的引理,

\quad 1m\frac{1}{m} E\mathbb{E} supaB^Kσ,asup_{\textbf a\in\hat{B}_K}\langle \pmb\sigma,\textbf a\rangle \leq3c2k2^{-k} 2.log(N(c2k,A)2m\sqrt{2.\log(N(c2^{-k},A)^2}\over {m} ==6c2k2^{-k} log(N(c2k,A)m\sqrt{\log(N(c2^{-k},A)}\over {m}

\quad作为必论是我们获得以下内容:

\qquad \qquadR(A)\le C2Mm\frac{C2^{-M}}{\sqrt{m}} ++ K=1M2k\sum\limits_{K=1}^M2^{-k} log(N(c2k,A)\sqrt{\log(N(c2^{-k},A)}

引理27.5假设有α\alphaβ\beta >\gt 0,使得任何K\ge 1

然后, \qquad \qquad \qquad R(A)\le 6cm\frac{6c}{m}(α\alpha ++2β\beta)

通过拍摄M\rightarrow {∞}并注意到,依赖于引理27.4的界限。k=1\sum_{k=1}^{∞} 2k2^{-k} ==1和k=1\sum_{k=1}^{∞} k2kk2^{-k} ==1

示例27.2考虑一个设置在r的D维子空间中的集合A。R\mathbb{R}m并且这样C== maxaA\max_{a∈A} \lVerta\lVert。我们已经表明N(r,A\le2cdr\frac{2c\sqrt{d}}{r}d^{d}。因此,对于任何K。

\qquad \qquad log(N(c2k,A)\sqrt{\log(N(c2^{-k},A)} \le dlog(2k+1d\sqrt{d\log(2^{k+1}\sqrt{d}})

\qquad \qquad \qquad \qquad \qquad \quad \le dlog(2k+1d\sqrt{d\log(2^{k+1}\sqrt{d}}) ++ kd\sqrt{kd}

\qquad \qquad \qquad \qquad \qquad \quad \le dlog(2k+1d\sqrt{d\log(2^{k+1}\sqrt{d}}) ++ dk\sqrt{dk}

因此,雷姆玛27.5产量

\qquad \qquadR(A)\le 6cm\frac{6c}{m}dlog2d\sqrt{d\log 2\sqrt{d}}) ++ 2d2\sqrt{d})== O(cdlog(d)m{c}\sqrt{d\log(d)}\over {m})

\qquad \qquad \qquad \qquad \qquad \qquad \qquad \qquad27.3书目言论

27.3书目言论

链接技术是由于达德利(1987)。对于对覆盖号码的广泛研究以及可用于绑定的其他复杂性措施 统一收敛速率我们将读者推荐给(Anthony&Bartlet 1999)。