泛化界 ——《机器学习理论导引》第四章学习笔记(中)

294 阅读6分钟

《机器学习理论导引》笔记目录

0 补充感言

  我是真的没有想到这章的内容竟然这么多,之前 (上) 的部分其实在本地我分了两个 markdown 文件,因为单一 markdown 文件太大甚至已经影响到预览的响应速度了。

4.2 泛化误差下界

泛化误差下界的意义

  • 指出学习算法能力的极限
  • 对于任何学习算法存在一个数据分布,样本数量有限时,学习算法不能以较大概率输出目标概念的近似。

一般证明方法

  • 通常采用构造法证明
  • 证明的要点 : 如何构造这样的数据分布

4.2.1 可分情形

Fubini 定理

  若函数 f(x,y)f(x,y) 的期望 Ex,y[f(x,y)]<\mathbb{E}_{x,y}[|f(x, y)|] < \infty,则 Ex[Ey[f(x,y)]]=Ey[Ex[f(x,y)]]\mathbb{E}_x[\mathbb{E}_y[f(x, y)]]=\mathbb{E}_y[\mathbb{E}_x[f(x, y)]]


定理 4.6

  若假设空间 H\mathcal{H} 的 VC 维 d>1d>1,则对任意 m>1m>1 和学习算法 L\mathcal{L},存在分布 D\mathcal{D} 和目标概念 cHc\in\mathcal{H} 使得

P(E(hD,c)>d132m)1100P\left(E(h_D,c)>\frac{d-1}{32m}\right)\geqslant\frac{1}{100}

  其中 hDh_D 为学习算法 L\mathcal{L} 基于大小为 mm 的训练集 DD 输出的假设。

证明

  对于给定的 DAD\in A,考虑来自均匀分布 U\mathcal{U} 的目标概念 c:S{1,+1}c : \mathcal{S}\mapsto\{−1, +1\},我们可以得到以下结论 :

EU[E(hD,c)]=cxSI(hD(x)c(x))PxD(x)PcU(c)cxSDˉ{x0}I(hD(x)c(x))PxD(x)PcU(c)=xSDˉ{x0}(cI(hD(x)c(x))PcU(c))PxD(x)=12xSDˉ{x0}PxD(x)12d128ϵd1=2ϵ\begin{aligned} \mathbb{E}_U\left[E\left(h_D, c\right)\right] & =\sum_c \sum_{x \in S} \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{x \sim \mathcal{D}}(x) P_{c \sim \mathcal{U}}(c) \\ & \geqslant \sum_c \sum_{x \in S-\bar{D}-\left\{x_0\right\}} \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{x \sim \mathcal{D}}(x) P_{c \sim \mathcal{U}}(c) \\ & =\sum_{x \in S-\bar{D}-\left\{x_0\right\}}\left(\sum_c \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{c \sim \mathcal{U}}(c)\right) P_{x \sim D}(x) \\ & =\frac{1}{2} \sum_{x \in S-\bar{D}-\left\{x_0\right\}} P_{x \sim D}(x) \\ & \geqslant \frac{1}{2} \frac{d-1}{2} \frac{8 \epsilon}{d-1}=2 \epsilon \end{aligned}

  上式对于任意 DAD\in A 均成立,因此关于 AA 的期望也成立,有 EDA[EU[E(hD,c)]]2ϵ\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c)]]\geqslant2\epsilon

  可知交换期望计算顺序不等式依然成立, 即有 EDA[EU[E(hD,c)]]2ϵ\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c)]]\geqslant2\epsilon 期望的下界为 2ϵ2\epsilon,必定存在一个目标概念 cHc^∗\in\mathcal{H} 满足 EDA[EU[E(hD,c)]]2ϵ\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c^*)]]\geqslant2\epsilon

EDA[E(hD,c)]=D:E(hD,c)>ϵE(hD,c)P(D)+D:E(hD,c)ϵE(hD,c)P(D)PxD(x(S{x0}))PDA(E(hD,c)>ϵ)+ϵ(1PDA(E(hD,c)>ϵ))=8ϵPDA(E(hD,c)>ϵ)+ϵ(1PDA(E(hD,c)>ϵ))=7ϵPDA(E(hD,c)>ϵ)+ϵ\begin{aligned} & \mathbb{E}_{D \in A}\left[E\left(h_D, c^*\right)\right] \\ = & \sum_{D: E\left(h_D, c^*\right)>\epsilon} E\left(h_D, c^*\right) P(D)+\sum_{D: E\left(h_D, c^*\right) \leqslant \epsilon} E\left(h_D, c^*\right) P(D) \\ \leqslant & P_{x \sim \mathcal{D}}\left(x \in\left(S-\left\{x_0\right\}\right)\right) P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right) \\ & +\epsilon\left(1-P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)\right) \\ = & 8 \epsilon P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)+\epsilon\left(1-P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)\right) \\ = & 7 \epsilon P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)+\epsilon \end{aligned}

  通过上面两个式子,我们有

PDA(E(hD,c)>ϵ)17ϵ(2ϵϵ)=17P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right) \geqslant \frac{1}{7\epsilon}(2\epsilon-\epsilon)=\frac{1}{7}

  借助于这个不等式,有

PDDm(E(hD,c)>ϵ)PDA(E(hD,c)>ϵ)PDDm(DA)17PDDm(DA)P_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right)\\ \geqslant P_{D\in A}\left(E(h_D,c^*)>\epsilon\right)P_{D\sim\mathcal{D}^m}(D\in A)\\ \geqslant\frac{1}{7}P_{D\sim\mathcal{D}^m}(D\in A)\\

  接下来,只要找到 PDDm(DA)P_{D\sim\mathcal{D}^m}(D\in A) 的下界即可证明定理。令 lml_m 表示 Dˉ\bar{D} 的数目,根据 Chernoff 不等式可知,对于 γ>1\gamma>1,有

PDDm(lm8ϵm(1+γ))exp(8ϵmγ23)P_{D\sim\mathcal{D}^m}(l_m\geqslant8\epsilon m(1+\gamma))\leqslant\exp\left(-\frac{8\epsilon m\gamma^2}{3}\right)

  令 ϵ=(d1)/(32m),γ=1\epsilon = (d − 1)/(32m),\gamma = 1,可得

1PDDm(DA)=PDDm(lmd12)exp(d112)exp(112)1-P_{D\sim\mathcal{D}^m}(D\in A)\\ =P_{D\sim\mathcal{D}^m}(l_m\geqslant\frac{d-1}{2})\leqslant\exp\left(-\frac{d-1}{12}\right)\leqslant\exp\left(-\frac{1}{12}\right)

  令 exp(112)17δ\exp\left(-\frac{1}{12}\right)\leqslant1-7\delta,可得 PDDm(DA)7δP_{D\sim\mathcal{D}^m}(D\in A)\geqslant7\delta,再根据

PDDm(E(hD,c)>ϵ)17PDDm(DA)P_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right) \geqslant\frac{1}{7}P_{D\sim\mathcal{D}^m}(D\in A)

  可知

PDDm(E(hD,c)>ϵ)δP_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right)\geqslant\delta

  取 δ=1100\delta=\frac{1}{100},从而定理得证。

4.2.2 不可分情形

  对于不可分假设空间的泛化误差下界,主要比较学习算法 L\mathcal{L} 的泛化误差与贝叶斯最优分类器泛化误差之间的关系。

引理 4.2

  令 σ\sigma 为服从 {1,+1}\{-1,+1\} 上均匀分布的随机变量,对于 0<α<10<\alpha<1 构造随机变量 ασ=12+ασ2\alpha_{\sigma}=\frac{1}{2}+\frac{\alpha\sigma}{2}, 基于 σ\sigma 构造 XDσX\sim\mathcal{D}_{\sigma},其中 Dσ\mathcal{D}_{\sigma} 为伯努利分布 Bernoulli(ασ)\text{Bernoulli} (\alpha_\sigma),即 P(X=1)=ασP(X=1)=\alpha_\sigma。令 S={X1,,Xm}\mathcal{S}=\{X_1,\ldots,X_m\} 表示从分布 Dσm\mathcal{D}_{\sigma}^m 独立同分布采样得到的大小为 mm 的集合, 即 SDσm\mathcal{S}\sim \mathcal{D}_{\sigma}^m,则对于函数 f:Xm{1,+1}f : X^m\mapsto \{-1,+1\}

Eσ[PSDgm(f(S)σ)]Φ(2m2,α)\mathbb{E}_{\sigma}\left[P_{\mathcal{S}\sim D_g^m}(f(\mathcal{S})\ne\sigma)\right]\geqslant\Phi(2\lceil\frac{m}{2}\rceil,\alpha)

  其中 Φ(m,α)=14(11exp(mα21α2))\Phi(m,\alpha)=\frac{1}{4}\left(1-\sqrt{1-\exp\left(-\frac{m\alpha^2}{1-\alpha^2}\right)}\right)


  引理 4.2 可以从投硬币的角度理解 :

  • 我们可以将每个样本的标记视为投硬币的结果
  • 红硬币投到正面概率为 1+α2\frac{1+\alpha}{2},对应于 σ=+1\sigma =+1
  • 蓝硬币投到正面概率为 1α2\frac{1-\alpha}{2},对应于 σ=1\sigma =-1
  • 算法需要通过硬币的投掷结果来判断,样本是由红硬币产生的还是蓝硬币产生的,对应于 ff

  引理 4.2 告诉我们 : 为了区分样本对应哪个硬币,需要其在训练集中出现足够多的次数 (Ω(1/α2)\Omega(1/\alpha^2) 次)


引理 4.3

  令 ZZ 为取值范围为 [0,1][0,1] 的随机变量,对于 γ[0,1)\gamma\in[0,1)

P(Z>γ)E[Z]γ1γE[Z]γP(Z>\gamma)\geqslant\frac{\mathbb{E}[Z]-\gamma}{1-\gamma}\geqslant\mathbb{E}[Z]-\gamma

证明

E[Z]=zγP(Z=z)z+z>γP(Z=z)zzγP(Z=z)γ+z>γP(Z=z)=γP(Zγ)+P(Z>γ)=γ(1P(Z>γ))+P(Z>γ)=(1γ)P(Z>γ)+γ\begin{aligned} \mathbb{E}[Z] & =\sum_{z\leqslant\gamma}P(Z=z)z+\sum_{z>\gamma}P(Z=z)z\\ & \leqslant\sum_{z\leqslant\gamma}P(Z=z)\gamma+\sum_{z>\gamma}P(Z=z)\\ &=\gamma P(Z\leqslant\gamma)+P(Z>\gamma)\\ &=\gamma\left(1-P(Z>\gamma)\right)+P(Z>\gamma)\\ &=(1-\gamma)P(Z>\gamma)+\gamma \end{aligned}

定理 4.7

  若假设空间 H\mathcal{H} 的 VC 维 d>1d>1,则对任意 m>1m>1 和学习算法 L\mathfrak{L},存在分布 D\mathcal{D} 使得

证明

  S^={x1,,xd}X\hat{S}=\{x_1,\ldots,x_d\}\subset X 表示能被 H\mathcal{H} 打散的集合。对于 α[0,1]\alpha\in[0, 1] 和向量 σ=(σ1;;σd){1,+1}d\sigma=(\sigma_1;\ldots;\sigma_d)\in\{−1,+1\}^d,在 S×Y\mathcal{S}\times\mathcal{Y} 上构造如下分布 Dσ\mathcal{D}_{\sigma}

PDσ(z=(xi,+1))=1d(12+σiα2)(i[d])PDσ(z=(xi,1))=1d(12σiα2)(i[d])P_{\mathcal{D}_{\sigma}}(z=(x_i,+1))=\frac{1}{d}\left(\frac{1}{2}+\frac{\sigma_i\alpha}{2}\right)\quad (i\in[d])\\ P_{\mathcal{D}_{\sigma}}(z=(x_i,-1))=\frac{1}{d}\left(\frac{1}{2}-\frac{\sigma_i\alpha}{2}\right)\quad (i\in[d])

  因为 S\mathcal{S} 能被 H\mathcal{H} 打散,所以我们可以构造该数据下的贝叶斯最优分类器 hDσ(xi)=arg maxy{1,+1}P(yxi)=sign(I(σi>0)1/2),i[d]h^∗_{\mathcal{D}_{\sigma}}(x_i) = \argmax_{y\in\{−1,+1\}}P(y|x_i)=\text{sign}(\mathbb{I}(\sigma_i>0) −1/2),i\in[d],可知 hDσHh^∗_{\mathcal{D}_{\sigma}}\in\mathcal{H},对于 hDσh^∗_{\mathcal{D}_{\sigma}} 计算可得

E(hDσ)=xiS(PDσ(z=(xi,+1))I(hDσ(xi)=1)+PDσ(z=(xi,1))I(hDσ(xi)=+1))=xiS(PDσ(z=(xi,+1))I(σi<0)+PDσ(z=(xi,1))I(σi>0))=xiS1d(12α2)=12α2\begin{aligned} E\left(h_{\mathcal{D}_\sigma}^*\right)= & \sum_{\boldsymbol{x}_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,+1\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(\boldsymbol{x}_i\right)=-1\right)\right. \\ & \left.+P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,-1\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(\boldsymbol{x}_i\right)=+1\right)\right) \\ = & \sum_{\boldsymbol{x}_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,+1\right)\right) \mathbb{I}\left(\sigma_i<0\right)+P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,-1\right)\right) \mathbb{I}\left(\sigma_i>0\right)\right) \\ = & \sum_{\boldsymbol{x}_i \in S} \frac{1}{d}\left(\frac{1}{2}-\frac{\alpha}{2}\right)=\frac{1}{2}-\frac{\alpha}{2} \end{aligned}

  对于任意 hHh\in\mathcal{H} 计算可得

E(h)=xiS(PDσ(z=(xi,+1))I(h(xi)hDσ(xi))I(hDσ(xi)=+1)+PDσ(z=(xi,+1))I(h(xi)=hDσ(xi))I(hDσ(xi)=1)+PDσ(z=(xi,1))I(h(xi)hDσ(xi))I(hDσ(xi)=1)+PDσ(z=(xi,1))I(h(xi)=hDσ(xi))I(hDσ(xi)=+1)=xiS(1+α2dI(h(xi)hDσ(xi))+1α2dI(h(xi)=hDσ(xi)))=αdxiSI(h(xi)hDσ(xi))+12α2\begin{aligned} E(h)= & \sum_{x_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(x_i,+1\right)\right) \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=+1\right)\right. \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,+1\right)\right) \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=-1\right) \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,-1\right)\right) \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=-1\right) \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,-1\right)\right) \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=+1\right) \\ = & \sum_{x_i \in S}\left(\frac{1+\alpha}{2 d} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)+\frac{1-\alpha}{2 d} \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)\right) \\ = & \frac{\alpha}{d} \sum_{x_i \in S} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)+\frac{1}{2}-\frac{\alpha}{2} \end{aligned}

  从而可知

E(h)E(hDσ)=αdxiSI(h(xi)hDσ(xi))E(h)-E\left(h_{\mathcal{D}_\sigma}^*\right)=\frac{\alpha}{d} \sum_{x_i \in S} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)

  Zx\lvert Z\rvert_x 表示样本 xxZZ 中出现的次数

Eσu,ZDσm[1α(E(hZ)E(hDσ))]=1dxSEσu,ZDσm[I(hZ(x)hDσ(x))]=1dxSEσu[PZDσm(hZ(x)hDσ(x))]=1dxSn=0mEσu[PZDσm(hZ(x)hDσ(x)Zx=n)P(Zx=n)]1dxSn=0mΦ(2[n/2,α)P(Zx=n)1dxSn=0mΦ(n+1,α)P(Zx=n)1dxSΦ(m/d+1,α)=Φ(m/d+1,α)\begin{aligned} & \mathbb{E}_{\sigma \sim u, Z \sim D_\sigma^m}\left[\frac{1}{\alpha}\left(E\left(h_Z\right)-E\left(h_{D_\sigma}^*\right)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \mathbb{E}_{\sigma \sim u, Z \sim D_\sigma^m}\left[\mathrm{I}\left(h_Z(x) \neq h_{D_\sigma}^*(x)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \mathbb{E}_{\sigma \sim u}\left[P_{Z \sim D_\sigma^m}\left(h_Z(x) \neq h_{D_\sigma}^*(x)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \mathbb{E}_{\sigma \sim u}\left[P_{Z \sim D_\sigma^m}\left(h_Z(x) \neq\left. h_{D_\sigma}^*(x)|| Z\right|_x=n\right) P\left(|Z|_x=n\right)\right] \\ & \geqslant \frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \Phi(2[n / 2\rceil, \alpha) P\left(|Z|_x=n\right) \geqslant \frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \Phi(n+1, \alpha) P\left(|Z|_x=n\right) \\ & \geqslant \frac{1}{d} \sum_{x \in S} \Phi(m / d+1, \alpha)=\Phi(m / d+1, \alpha) \end{aligned}

  由于上述关于 σ\sigma 期望的下界被 Φ(m/d+1,α)\Phi(m/d + 1,\alpha) 限制住,则必定存在 σ{1,+1}d\sigma^*\in\{-1,+1\}^d 使得下式成立

EZDσ[1α(E(hZ)E(hDσ))]Φ(m/d+1,α)\mathbb{E}_{Z\sim\mathcal{D}'_{\sigma}}\left[\frac{1}{\alpha}\left(E\left(h_Z\right)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)\right)\right] \geqslant \Phi(m / d+1, \alpha)

  根据引理 4.3 可知,对于 σ\sigma^* 以及任意 γ[0,1)\gamma\in[0,1)

PZDσm(1α(E(hZ)E(hDσ))>γμ)(1γ)uP_{Z\sim D^m_{\sigma^*}}\left(\frac{1}{\alpha}\left(E(h_Z)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)\right)>\gamma\mu\right)\geqslant(1-\gamma)u

  其中 u=Φ(m/d+1,α)u=\Phi(m/d + 1,\alpha),令 δ\deltaϵ\epsilon 满足条件 δ(1γ)u\delta\geqslant(1-\gamma)u 以及 ϵγαu\epsilon\geqslant\gamma\alpha u,则有

PZDσm(E(hZ)E(hDσ)>ϵ)δP_{Z\sim D^m_{\sigma^*}}\left(E(h_Z)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)>\epsilon\right)\geqslant\delta

  为了找到满足条件的 δ\deltaϵ\epsilon,令 γ=18δ\gamma= 1 − 8\delta,则

δ(1γ)uu1814(11exp((m/d+1)α21α2))18(m/d+1)α21α2ln43md(1α21)ln431\begin{aligned} \delta\leqslant(1-\gamma)u\Leftrightarrow & u\geqslant \frac{1}{8}\\ \Leftrightarrow & \frac{1}{4}\left(1-\sqrt{1-\exp\left(-\frac{(m/d+1)\alpha^2}{1-\alpha^2}\right)}\right)\geqslant\frac{1}{8}\\ \Leftrightarrow & \frac{(m/d+1)\alpha^2}{1-\alpha^2}\leqslant\ln\frac{4}{3}\\ \Leftrightarrow & \frac{m}{d}\leqslant\left(\frac{1}{\alpha^2}-1\right)\ln\frac{4}{3}-1 \end{aligned}

  令 α=8ϵ/(18δ)\alpha= 8\epsilon/(1 − 8\delta),即 ϵ=γα/8\epsilon=\gamma\alpha/8,即

md((18δ)264ϵ21)ln431\frac{m}{d}\leqslant\left(\frac{(1-8\delta)^2}{64\epsilon^2}-1\right)\ln\frac{4}{3}-1

  令 δ1/64\delta\leqslant1/64,可得

((18δ)264ϵ21)ln431(764)21ϵ2ln43ln431\left(\frac{(1-8\delta)^2}{64\epsilon^2}-1\right)\ln\frac{4}{3}-1\geqslant\left(\frac{7}{64}\right)^2\frac{1}{\epsilon^2}\ln\frac{4}{3}-\ln\frac{4}{3}-1

  上式右端为关于 1ϵ2\frac{1}{\epsilon^2} 的函数 f(1ϵ2)f(\frac{1}{\epsilon^2}),可寻找 ww 使得 m/dw/ϵ2m/d\leqslant w/\epsilon^2。令 ϵ1/64\epsilon\leqslant1/64,由 w(1/64)2=f(1(1/64)2)\frac{w}{(1/64)^2} = f\left(\frac{1}{(1/64)^2}\right) 可得

(764)2ln43(164)2(ln43+1)0.0031271320\left(\frac{7}{64}\right)^2\ln\frac{4}{3}-\left(\frac{1}{64}\right)^2\left(\ln\frac{4}{3}+1\right)\approx 0.003127\geqslant\frac{1}{320}

  因此, 当 ϵ21320m/d\epsilon^2\leqslant \frac{1}{320m/d} 时,满足 δ(1γ)u\delta\leqslant(1 − \gamma)u 以及 ϵγαu\epsilon\leqslant \gamma\alpha u。取ϵ=d320m\epsilon = \sqrt{\frac{d}{320m}}δ=1/64\delta = 1/64,定理得证