《机器学习理论导引》笔记目录

第一章 : 预备知识
- 第一章 : 预备知识(上)
- 第一章 : 预备知识(下)
第二章 : 可学性
第三章 : 复杂度
第四章 : 泛化界
第五章 : 稳定性
第六章 : 一致性
- 第六章 : 一致性(上)
- 第六章 : 一致性(下)
第七章 : 收敛率
- 第七章 : 收敛率(上)
- 第七章 : 收敛率(下)
第八章 : 遗憾界
- 第八章 : 遗憾界(上)
- 第八章 : 遗憾界(下)

0 补充感言

我是真的没有想到这章的内容竟然这么多，之前 (上) 的部分其实在本地我分了两个 markdown 文件，因为单一 markdown 文件太大甚至已经影响到预览的响应速度了。

4.2 泛化误差下界

泛化误差下界的意义

指出学习算法能力的极限
对于任何学习算法存在一个数据分布，样本数量有限时，学习算法不能以较大概率输出目标概念的近似。

一般证明方法

通常采用构造法证明
证明的要点 : 如何构造这样的数据分布

4.2.1 可分情形

Fubini 定理

若函数 $f(x,y)$ 的期望 $\mathbb{E}_{x,y}[|f(x, y)|] < \infty$ ，则 $\mathbb{E}_x[\mathbb{E}_y[f(x, y)]]=\mathbb{E}_y[\mathbb{E}_x[f(x, y)]]$

定理 4.6

若假设空间 $\mathcal{H}$ 的 VC 维 $d>1$ ，则对任意 $m>1$ 和学习算法 $\mathcal{L}$ ，存在分布 $\mathcal{D}$ 和目标概念 $c\in\mathcal{H}$ 使得

P\left(E(h_D,c)>\frac{d-1}{32m}\right)\geqslant\frac{1}{100}

其中 $h_D$ 为学习算法 $\mathcal{L}$ 基于大小为 $m$ 的训练集 $D$ 输出的假设。

证明

对于给定的 $D\in A$ ，考虑来自均匀分布 $\mathcal{U}$ 的目标概念 $c : \mathcal{S}\mapsto\{−1, +1\}$ ，我们可以得到以下结论 :

\begin{aligned} \mathbb{E}_U\left[E\left(h_D, c\right)\right] & =\sum_c \sum_{x \in S} \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{x \sim \mathcal{D}}(x) P_{c \sim \mathcal{U}}(c) \\ & \geqslant \sum_c \sum_{x \in S-\bar{D}-\left\{x_0\right\}} \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{x \sim \mathcal{D}}(x) P_{c \sim \mathcal{U}}(c) \\ & =\sum_{x \in S-\bar{D}-\left\{x_0\right\}}\left(\sum_c \mathbb{I}\left(h_D(x) \neq c(x)\right) P_{c \sim \mathcal{U}}(c)\right) P_{x \sim D}(x) \\ & =\frac{1}{2} \sum_{x \in S-\bar{D}-\left\{x_0\right\}} P_{x \sim D}(x) \\ & \geqslant \frac{1}{2} \frac{d-1}{2} \frac{8 \epsilon}{d-1}=2 \epsilon \end{aligned}

上式对于任意 $D\in A$ 均成立，因此关于 $A$ 的期望也成立，有 $\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c)]]\geqslant2\epsilon$ 。

可知交换期望计算顺序不等式依然成立, 即有 $\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c)]]\geqslant2\epsilon$ 期望的下界为 $2\epsilon$ ，必定存在一个目标概念 $c^∗\in\mathcal{H}$ 满足 $\mathbb{E}_{D\in A}[\mathbb{E}_{\mathcal{U}}[E (h_D,c^*)]]\geqslant2\epsilon$

\begin{aligned} & \mathbb{E}_{D \in A}\left[E\left(h_D, c^*\right)\right] \\ = & \sum_{D: E\left(h_D, c^*\right)>\epsilon} E\left(h_D, c^*\right) P(D)+\sum_{D: E\left(h_D, c^*\right) \leqslant \epsilon} E\left(h_D, c^*\right) P(D) \\ \leqslant & P_{x \sim \mathcal{D}}\left(x \in\left(S-\left\{x_0\right\}\right)\right) P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right) \\ & +\epsilon\left(1-P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)\right) \\ = & 8 \epsilon P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)+\epsilon\left(1-P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)\right) \\ = & 7 \epsilon P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right)+\epsilon \end{aligned}

通过上面两个式子，我们有

P_{D \in A}\left(E\left(h_D, c^*\right)>\epsilon\right) \geqslant \frac{1}{7\epsilon}(2\epsilon-\epsilon)=\frac{1}{7}

借助于这个不等式，有

P_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right)\\ \geqslant P_{D\in A}\left(E(h_D,c^*)>\epsilon\right)P_{D\sim\mathcal{D}^m}(D\in A)\\ \geqslant\frac{1}{7}P_{D\sim\mathcal{D}^m}(D\in A)\\

接下来，只要找到 $P_{D\sim\mathcal{D}^m}(D\in A)$ 的下界即可证明定理。令 $l_m$ 表示 $\bar{D}$ 的数目，根据 Chernoff 不等式可知，对于 $\gamma>1$ ，有

P_{D\sim\mathcal{D}^m}(l_m\geqslant8\epsilon m(1+\gamma))\leqslant\exp\left(-\frac{8\epsilon m\gamma^2}{3}\right)

令 $\epsilon = (d − 1)/(32m),\gamma = 1$ ，可得

1-P_{D\sim\mathcal{D}^m}(D\in A)\\ =P_{D\sim\mathcal{D}^m}(l_m\geqslant\frac{d-1}{2})\leqslant\exp\left(-\frac{d-1}{12}\right)\leqslant\exp\left(-\frac{1}{12}\right)

令 $\exp\left(-\frac{1}{12}\right)\leqslant1-7\delta$ ，可得 $P_{D\sim\mathcal{D}^m}(D\in A)\geqslant7\delta$ ，再根据

P_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right) \geqslant\frac{1}{7}P_{D\sim\mathcal{D}^m}(D\in A)

可知

P_{D\sim\mathcal{D}^m}\left(E(h_D,c^*)>\epsilon\right)\geqslant\delta

取 $\delta=\frac{1}{100}$ ，从而定理得证。

4.2.2 不可分情形

对于不可分假设空间的泛化误差下界，主要比较学习算法 $\mathcal{L}$ 的泛化误差与贝叶斯最优分类器泛化误差之间的关系。

引理 4.2

令 $\sigma$ 为服从 $\{-1,+1\}$ 上均匀分布的随机变量，对于 $0<\alpha<1$ 构造随机变量 $\alpha_{\sigma}=\frac{1}{2}+\frac{\alpha\sigma}{2}$ , 基于 $\sigma$ 构造 $X\sim\mathcal{D}_{\sigma}$ ，其中 $\mathcal{D}_{\sigma}$ 为伯努利分布 $\text{Bernoulli} (\alpha_\sigma)$ ，即 $P(X=1)=\alpha_\sigma$ 。令 $\mathcal{S}=\{X_1,\ldots,X_m\}$ 表示从分布 $\mathcal{D}_{\sigma}^m$ 独立同分布采样得到的大小为 $m$ 的集合, 即 $\mathcal{S}\sim \mathcal{D}_{\sigma}^m$ ，则对于函数 $f : X^m\mapsto \{-1,+1\}$ 有

\mathbb{E}_{\sigma}\left[P_{\mathcal{S}\sim D_g^m}(f(\mathcal{S})\ne\sigma)\right]\geqslant\Phi(2\lceil\frac{m}{2}\rceil,\alpha)

其中 $\Phi(m,\alpha)=\frac{1}{4}\left(1-\sqrt{1-\exp\left(-\frac{m\alpha^2}{1-\alpha^2}\right)}\right)$

引理 4.2 可以从投硬币的角度理解 :

我们可以将每个样本的标记视为投硬币的结果
红硬币投到正面概率为 $\frac{1+\alpha}{2}$ ，对应于 $\sigma =+1$
蓝硬币投到正面概率为 $\frac{1-\alpha}{2}$ ，对应于 $\sigma =-1$
算法需要通过硬币的投掷结果来判断，样本是由红硬币产生的还是蓝硬币产生的，对应于 $f$

引理 4.2 告诉我们 : 为了区分样本对应哪个硬币，需要其在训练集中出现足够多的次数 ( $\Omega(1/\alpha^2)$ 次)

引理 4.3

令 $Z$ 为取值范围为 $[0,1]$ 的随机变量，对于 $\gamma\in[0,1)$ 有

P(Z>\gamma)\geqslant\frac{\mathbb{E}[Z]-\gamma}{1-\gamma}\geqslant\mathbb{E}[Z]-\gamma

证明

\begin{aligned} \mathbb{E}[Z] & =\sum_{z\leqslant\gamma}P(Z=z)z+\sum_{z>\gamma}P(Z=z)z\\ & \leqslant\sum_{z\leqslant\gamma}P(Z=z)\gamma+\sum_{z>\gamma}P(Z=z)\\ &=\gamma P(Z\leqslant\gamma)+P(Z>\gamma)\\ &=\gamma\left(1-P(Z>\gamma)\right)+P(Z>\gamma)\\ &=(1-\gamma)P(Z>\gamma)+\gamma \end{aligned}

定理 4.7

若假设空间 $\mathcal{H}$ 的 VC 维 $d>1$ ，则对任意 $m>1$ 和学习算法 $\mathfrak{L}$ ，存在分布 $\mathcal{D}$ 使得

证明

$\hat{S}=\{x_1,\ldots,x_d\}\subset X$ 表示能被 $\mathcal{H}$ 打散的集合。对于 $\alpha\in[0, 1]$ 和向量 $\sigma=(\sigma_1;\ldots;\sigma_d)\in\{−1,+1\}^d$ ，在 $\mathcal{S}\times\mathcal{Y}$ 上构造如下分布 $\mathcal{D}_{\sigma}$

P_{\mathcal{D}_{\sigma}}(z=(x_i,+1))=\frac{1}{d}\left(\frac{1}{2}+\frac{\sigma_i\alpha}{2}\right)\quad (i\in[d])\\ P_{\mathcal{D}_{\sigma}}(z=(x_i,-1))=\frac{1}{d}\left(\frac{1}{2}-\frac{\sigma_i\alpha}{2}\right)\quad (i\in[d])

因为 $\mathcal{S}$ 能被 $\mathcal{H}$ 打散，所以我们可以构造该数据下的贝叶斯最优分类器 $h^∗_{\mathcal{D}_{\sigma}}(x_i) = \argmax_{y\in\{−1,+1\}}P(y|x_i)=\text{sign}(\mathbb{I}(\sigma_i>0) −1/2),i\in[d]$ ，可知 $h^∗_{\mathcal{D}_{\sigma}}\in\mathcal{H}$ ，对于 $h^∗_{\mathcal{D}_{\sigma}}$ 计算可得

\begin{aligned} E\left(h_{\mathcal{D}_\sigma}^*\right)= & \sum_{\boldsymbol{x}_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,+1\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(\boldsymbol{x}_i\right)=-1\right)\right. \\ & \left.+P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,-1\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(\boldsymbol{x}_i\right)=+1\right)\right) \\ = & \sum_{\boldsymbol{x}_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,+1\right)\right) \mathbb{I}\left(\sigma_i<0\right)+P_{\mathcal{D}_\sigma}\left(z=\left(\boldsymbol{x}_i,-1\right)\right) \mathbb{I}\left(\sigma_i>0\right)\right) \\ = & \sum_{\boldsymbol{x}_i \in S} \frac{1}{d}\left(\frac{1}{2}-\frac{\alpha}{2}\right)=\frac{1}{2}-\frac{\alpha}{2} \end{aligned}

对于任意 $h\in\mathcal{H}$ 计算可得

\begin{aligned} E(h)= & \sum_{x_i \in S}\left(P_{\mathcal{D}_\sigma}\left(z=\left(x_i,+1\right)\right) \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=+1\right)\right. \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,+1\right)\right) \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=-1\right) \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,-1\right)\right) \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=-1\right) \\ & +P_{\mathcal{D}_\sigma}\left(z=\left(x_i,-1\right)\right) \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right) \mathbb{I}\left(h_{\mathcal{D}_\sigma}^*\left(x_i\right)=+1\right) \\ = & \sum_{x_i \in S}\left(\frac{1+\alpha}{2 d} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)+\frac{1-\alpha}{2 d} \mathbb{I}\left(h\left(x_i\right)=h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)\right) \\ = & \frac{\alpha}{d} \sum_{x_i \in S} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)+\frac{1}{2}-\frac{\alpha}{2} \end{aligned}

从而可知

E(h)-E\left(h_{\mathcal{D}_\sigma}^*\right)=\frac{\alpha}{d} \sum_{x_i \in S} \mathbb{I}\left(h\left(x_i\right) \neq h_{\mathcal{D}_\sigma}^*\left(x_i\right)\right)

$\lvert Z\rvert_x$ 表示样本 $x$ 在 $Z$ 中出现的次数

\begin{aligned} & \mathbb{E}_{\sigma \sim u, Z \sim D_\sigma^m}\left[\frac{1}{\alpha}\left(E\left(h_Z\right)-E\left(h_{D_\sigma}^*\right)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \mathbb{E}_{\sigma \sim u, Z \sim D_\sigma^m}\left[\mathrm{I}\left(h_Z(x) \neq h_{D_\sigma}^*(x)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \mathbb{E}_{\sigma \sim u}\left[P_{Z \sim D_\sigma^m}\left(h_Z(x) \neq h_{D_\sigma}^*(x)\right)\right] \\ & =\frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \mathbb{E}_{\sigma \sim u}\left[P_{Z \sim D_\sigma^m}\left(h_Z(x) \neq\left. h_{D_\sigma}^*(x)|| Z\right|_x=n\right) P\left(|Z|_x=n\right)\right] \\ & \geqslant \frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \Phi(2[n / 2\rceil, \alpha) P\left(|Z|_x=n\right) \geqslant \frac{1}{d} \sum_{x \in S} \sum_{n=0}^m \Phi(n+1, \alpha) P\left(|Z|_x=n\right) \\ & \geqslant \frac{1}{d} \sum_{x \in S} \Phi(m / d+1, \alpha)=\Phi(m / d+1, \alpha) \end{aligned}

由于上述关于 $\sigma$ 期望的下界被 $\Phi(m/d + 1,\alpha)$ 限制住，则必定存在 $\sigma^*\in\{-1,+1\}^d$ 使得下式成立

\mathbb{E}_{Z\sim\mathcal{D}'_{\sigma}}\left[\frac{1}{\alpha}\left(E\left(h_Z\right)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)\right)\right] \geqslant \Phi(m / d+1, \alpha)

根据引理 4.3 可知，对于 $\sigma^*$ 以及任意 $\gamma\in[0,1)$ 有

P_{Z\sim D^m_{\sigma^*}}\left(\frac{1}{\alpha}\left(E(h_Z)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)\right)>\gamma\mu\right)\geqslant(1-\gamma)u

其中 $u=\Phi(m/d + 1,\alpha)$ ，令 $\delta$ 与 $\epsilon$ 满足条件 $\delta\geqslant(1-\gamma)u$ 以及 $\epsilon\geqslant\gamma\alpha u$ ，则有

P_{Z\sim D^m_{\sigma^*}}\left(E(h_Z)-E\left(h_{\mathcal{D}_\sigma^*}^*\right)>\epsilon\right)\geqslant\delta

为了找到满足条件的 $\delta$ 与 $\epsilon$ ，令 $\gamma= 1 − 8\delta$ ，则

\begin{aligned} \delta\leqslant(1-\gamma)u\Leftrightarrow & u\geqslant \frac{1}{8}\\ \Leftrightarrow & \frac{1}{4}\left(1-\sqrt{1-\exp\left(-\frac{(m/d+1)\alpha^2}{1-\alpha^2}\right)}\right)\geqslant\frac{1}{8}\\ \Leftrightarrow & \frac{(m/d+1)\alpha^2}{1-\alpha^2}\leqslant\ln\frac{4}{3}\\ \Leftrightarrow & \frac{m}{d}\leqslant\left(\frac{1}{\alpha^2}-1\right)\ln\frac{4}{3}-1 \end{aligned}

令 $\alpha= 8\epsilon/(1 − 8\delta)$ ，即 $\epsilon=\gamma\alpha/8$ ，即

\frac{m}{d}\leqslant\left(\frac{(1-8\delta)^2}{64\epsilon^2}-1\right)\ln\frac{4}{3}-1

令 $\delta\leqslant1/64$ ，可得

\left(\frac{(1-8\delta)^2}{64\epsilon^2}-1\right)\ln\frac{4}{3}-1\geqslant\left(\frac{7}{64}\right)^2\frac{1}{\epsilon^2}\ln\frac{4}{3}-\ln\frac{4}{3}-1

上式右端为关于 $\frac{1}{\epsilon^2}$ 的函数 $f(\frac{1}{\epsilon^2})$ ，可寻找 $w$ 使得 $m/d\leqslant w/\epsilon^2$ 。令 $\epsilon\leqslant1/64$ ，由 $\frac{w}{(1/64)^2} = f\left(\frac{1}{(1/64)^2}\right)$ 可得

\left(\frac{7}{64}\right)^2\ln\frac{4}{3}-\left(\frac{1}{64}\right)^2\left(\ln\frac{4}{3}+1\right)\approx 0.003127\geqslant\frac{1}{320}

因此, 当 $\epsilon^2\leqslant \frac{1}{320m/d}$ 时，满足 $\delta\leqslant(1 − \gamma)u$ 以及 $\epsilon\leqslant \gamma\alpha u$ 。取 $\epsilon = \sqrt{\frac{d}{320m}}$ 和 $\delta = 1/64$ ，定理得证

泛化界 ——《机器学习理论导引》第四章学习笔记(中)