机器学习原理及算法001:PAC 学习理论(一)

221 阅读7分钟

机器学习原理及算法001:PAC 学习理论(一)

Author: Rotch
Date: 2025-09-22

1. 学习模型的基本框架

在学习机器学习前,我们引入 PAC 学习理论,该理论阐明了什么样的问题是可以被机器学习的. 而在介绍该理论之前,我们需要先搭建学习模型的基本框架,以建立机器学习与数学间的联系.

1.1 学习模型的输入

以监督学习为例,记样本空间 X\mathcal{X} 是由我们希望为其标注标签的全体点构成的集合;标记空间 Y\mathcal{Y} 是所有可能的标签构成的集合,学习模型的输入是一个多重集合 S={(x1, y1), (x2, y2), , (xm, ym)}X×Y\mathcal{S} = \{ (\boldsymbol{x}_1, \space y_1), \space (\boldsymbol{x}_2, \space y_2), \space \dots, \space (\boldsymbol{x}_m, \space y_m) \} \subset \mathcal{X} \times \mathcal{Y},称为训练集.

Remark:\color{brown}{\textbf{Remark:}} 上述定义表明,训练集 S\mathcal{S} 可包含重复的数据,也可包含若干样本点相同但标签不同的数据.

Example:\color{brown}{\textbf{Example:}} 假设学习的目标是判断一个木瓜是否好吃,我们可以选择木瓜的颜色和软硬程度两个属性描述木瓜. 将木瓜的这两个属性映射到实数集 R\mathbb{R} 上,便可以用一个二维向量 (x1, x2)(x_1, \space x_2) 来描述一个木瓜,称为木瓜的特征向量. 此时样本空间定义为 X=R2\mathcal{X} = \mathbb{R}^2,标记空间可记为 Y={0, 1}\mathcal{Y} = \{0, \space 1\},其中 00 表示不好吃,11 表示好吃. 任意多重集合 SX×Y\mathcal{S} \subset \mathcal{X} \times \mathcal{Y} 是一组训练集. “样本点相同但标签不同的数据”可以解释为当两个木瓜具有相同的属性时,其中一个好吃,另一个不好吃.

1.2 学习模型的输出

学习模型的输出称为假设,一个假设是指一个映射 h:XYh: \mathcal{X} \rightarrow \mathcal{Y},对任意的 xX\boldsymbol{x} \in \mathcal{X}h(x)h(\boldsymbol{x}) 是学习模型对样本 x\boldsymbol{x} 的标签预测.

假设实际上是对概念的近似,一个概念是指一个映射 c:XYc : \mathcal{X} \rightarrow \mathcal{Y},其代表了样本空间与标记空间的真实对应关系(在本文中我们假设这样的 cc 存在,在以后我们将放宽该假设),假设 cc 是我们希望学习到的“规律”. 概念的全体称为概念类,记作 C\mathcal{C}.

1.3 学习模型的评估

对学习模型的评估主要体现为对模型输出的假设的正确性评估,亦即学习模型的正确性是 h(x)=c(x)h(\boldsymbol{x}) = c(\boldsymbol{x}) 的概率(不妨设 C={c}\mathcal{C} = \{c\} 是单点集). 换句话说,学习模型的误差h(x)c(x)h(\boldsymbol{x}) \not= c(\boldsymbol{x}) 的概率. 以二分类问题为例(即:Y={0, 1}\mathcal{Y} = \{ 0, \space 1\}),定义假设 hh泛化误差为:

LD,c(h)=PxD[h(x)c(x)],\begin{equation} L_{\mathcal{D}, c}(h) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= c(\boldsymbol{x}) \right], \end{equation}

其中 D\mathcal{D} 是样本空间 X\mathcal{X} 的分布,下标 (D, c)(\mathcal{D}, \space c) 表示泛化误差与样本空间的分布与概念有关,后续我们将省略该下标.

在实际应用中,我们并不清楚数据的真实分布 D\mathcal{D} 和概念 cc,学习模型并不能直接计算出 LD,c(h)L_{\mathcal{D}, c}(h). 因此我们将目光从 (D, c)(\mathcal{D}, \space c) 转移到 S\mathcal{S} 上:由于 S\mathcal{S} 中的样本是从 D\mathcal{D} 中独立同分布取得的,且 c(xi)=yic(\boldsymbol{x}_i) = y_i,我们可以通过训练集来估计泛化误差. 定义假设 hh经验误差为:

LS(h)=1mi=1mI[h(xi)c(xi)].\begin{equation} L_{\mathcal{S}}(h) = \frac{1}{m}\sum\limits_{i = 1}^{m} \mathbb{I}\left[ h(\boldsymbol{x}_i) \not= c(\boldsymbol{x}_i) \right]. \end{equation}

其中 m=Sm = | \mathcal{S} |,下同. 容易证明成立 E[LS(h)]=LD,c(h)\mathbb{E}\left[ L_{\mathcal{S}}(h) \right] = L_{\mathcal{D}, c}(h),这说明泛化误差是经验误差的期望,经验误差是泛化误差的无偏估计. 通过最小化 LS(h)L_{\mathcal{S}}(h) 获得最优假设 hh 的过程称为经验风险最小化(Empirical Risk Minimization, ERM). 形式上记为:

ERM(S)=argminhLS(h).\begin{equation} \mathrm{ERM}(\mathcal{S}) = \arg\min\limits_{h} L_{\mathcal{S}}(h). \end{equation}

最后,我们补充说明:对于任意两个假设 h1, h2h_1, \space h_2,其之间的差别可用下式衡量:

d(h1, h2)=PxD[h1(x)h2(x)].\begin{equation} d(h_1, \space h_2) = \mathbb{P}_{\boldsymbol{x} \sim \mathcal{D}}\left[ h_1(\boldsymbol{x}) \not= h_2(\boldsymbol{x}) \right]. \end{equation}

1.4 过拟合与归纳偏置

尽管 ERM\mathrm{ERM} 看似合理,但在某些情况下,由 ERM\mathrm{ERM} 得到的假设也会失败.

Example:\color{brown}{\textbf{Example:}} 仍然考虑前文提到的木瓜分类问题,考虑如下预测:

hS(x)={yi, i[m], s.t. x=xi0,otherwise.\begin{equation} h_{\mathcal{S}}(\boldsymbol{x}) = \begin{cases} y_i, & \exist \space i \in [m], \text{ s.t. } \boldsymbol{x} = \boldsymbol{x}_i \\ 0, & \text{otherwise} \end{cases}. \end{equation}

虽然对任意样本 S\mathcal{S},成立 LS(hS)=0L_{\mathcal{S}}(h_{\mathcal{S}}) = 0(这使得 ERM\mathrm{ERM} 很有可能返回 hSh_{\mathcal{S}}),但是 hSh_{\mathcal{S}} 在实际应用中不一定很理想(即 LD,c(hS)L_{\mathcal{D}, c}(h_{\mathcal{S}}) 可能很大),导致学习的效果较差. 这样的情况称为过拟合.

Remark:\color{brown}{\textbf{Remark:}} 上式定义的 hS(x)h_{\mathcal{S}}(\boldsymbol{x}) 带有明显的“人工痕迹”. 事实上,若定义 p(x)=yi=1xxi1p(\boldsymbol{x}) = -\prod\limits_{y_i = 1} \parallel \boldsymbol{x} - \boldsymbol{x}_i \parallel_1,则 hS(x)=1h_{\mathcal{S}}(\boldsymbol{x}) = 1 当且仅当 p(x)0p(\boldsymbol{x}) \geq 0. 这样定义的假设 hS(x)=I[p(x)0]h'_{\mathcal{S}}(\boldsymbol{x}) = \mathbb{I}[p(\boldsymbol{x}) \geq 0] 则十分自然,这也表明若使用全体多项式作为待选假设,ERM\mathrm{ERM} 可能导致过拟合.

尽管 ERM\mathrm{ERM} 可能导致过拟合,但相较于抛弃 ERM\mathrm{ERM},更好的选择是对其进行修正. 我们可以预先为学习模型指定一个可选择的假设集合 H={h}\mathcal{H} = \{h\},称为假设空间. 对于给定的训练集 S\mathcal{S} 和假设空间 H\mathcal{H}ERMH\mathrm{ERM}_{\mathcal{H}} 要求在 H\mathcal{H} 中寻找经验误差最小的假设,形式上记为:

ERMH(S)=argminhHLS(h).\begin{equation} \mathrm{ERM}_{\mathcal{H}}(\mathcal{S}) = \arg\min\limits_{h \in {\mathcal{H}}} L_{\mathcal{S}}(h). \end{equation}

ERMH\mathrm{ERM}_{\mathcal{H}} 称为带归纳偏置的经验风险最小化(ERM with Inductive Bias).

Example:\color{brown}{\textbf{Example:}} 对于木瓜分类问题,我们可以选择 R2\mathbb{R}^2 下的矩形 [a, b]×[c, d][a, \space b] \times [c, \space d] 作为假设空间:将矩形中的样本标记为 11,将其它的样本标记为 00. 这样,我们更倾向于在一个特别的假设集合中选取合理的假设,可以在一定程度上避免过拟合.

显然,ERMH\mathrm{ERM}_{\mathcal{H}} 仍然不足以防止过拟合. 在学习理论中,一个基本的问题是:选择哪种假设空间不会导致过拟合?本系列博客将在后续章节中探讨该问题.

2. PAC 学习理论

2.1 PAC 学习理论基础

设假设空间为 H\mathcal{H}概率近似学习理论(PAC 学习理论,Probably Approximately Correct)关注的核心问题是:一个学习算法 L\mathfrak{L} 好不好?要解决该问题,首先要定义什么是“好”的学习算法,我们依次从以下两个角度考虑:

  1. 算法返回的假设要否近似正确:算法得到的假设 hh 的泛化误差要尽可能小,即:当给定 ε>0\varepsilon > 0 时,要求 LD,c(h)εL_{\mathcal{D}, c}(h) \leq \varepsilon,我们称这样的假设是一个近似正确的假设;
  2. 算法能以一定概率返回近似正确的假设:算法能以一定的概率下返回近似正确假设,即:对给定 δ(0,1)\delta \in (0, 1),成立 P[LD,c(h)ε]1δ\mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 - \delta.

Remark:\color{brown}{\textbf{Remark:}} 我们对第二点作进一步说明:ERM\mathrm{ERM} 规则返回的假设 hh 依赖于训练集 S\mathcal{S},而 S\mathcal{S} 可能对于分布 D\mathcal{D} 不具有代表性(在 ERMH\mathrm{ERM}_{\mathcal{H}} 下,这会导致过拟合),使得算法难以返回近似正确的假设. 一般地,我们记训练集不具有代表性的概率为 δ\delta,称 1δ1 - \delta置信参数.

Example:\color{brown}{\textbf{Example:}} 在木瓜的例子中,若训练集选取的木瓜都是深黄色且软烂的,学习模型便难以预测青色或较硬的木瓜是否好吃,这很容易导致学习模型返回的假设的泛化误差较大.

根据上述讨论,我们给出 PAC 辨识的定义:

Def 1.1 PAC 辨识(PAC Identify): \color{blue}{\textbf{Def 1.1 PAC 辨识(PAC Identify): }} 对给定的 0<ε, δ<10 < \varepsilon, \space \delta < 1,所有 cCc \in \mathcal{C} 和任意给定的分布 D\mathcal{D},若存在学习算法 L\mathfrak{L},其返回的假设 hHh \in \mathcal{H} 满足:

P[LD,c(h)ε]1δ,\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称学习算法 L\mathfrak{L} 能从假设空间 H\mathcal{H}PAC 辨识概念类 C\mathcal{C}.

PAC 辨识保证了学习算法 L\mathfrak{L} 能以较高概率(不小于 1δ1 - \delta)学得概念 cc 的近似假设(误差至多为 ε\varepsilon,称为精度参数).

2.2 PAC 可学习

接下来,我们要明晰概念类 C\mathcal{C} 能否被学习算法 L\mathfrak{L} 习得,我们给出 PAC 可学习的定义:

Def 1.2 PAC 可学习(PAC Learnable): \color{blue}{\textbf{Def 1.2 PAC 可学习(PAC Learnable): }}0<ε, δ<10 < \varepsilon, \space \delta < 1 和任意给定的分布 D\mathcal{D},若存在学习算法 L\mathfrak{L} 和函数 m:(0,1)2Nm: (0, 1)^2 \rightarrow \mathbb{N},使得当从分布 D\mathcal{D} 中独立同分布取得的样本数量 mm(ε, δ)m \geq m\left( \varepsilon, \space \delta \right) 时,L\mathfrak{L} 能从假设空间 H\mathcal{H} 中 PAC 辨识概念类 C\mathcal{C},则称概念类 C\mathcal{C} 对假设空间 H\mathcal{H}PAC 可学习的.

多项式 m:(0,1)2Nm: (0, 1)^2 \rightarrow \mathbb{N} 决定了训练集的采样复杂度,即保证学习模型返回概率近似正确假设所需的样本数量. 以下给出最简单的情况:当概念 cHc \in \mathcal{H}H<\vert \mathcal{H} \vert < \infty 时,概念 ccH\mathcal{H} 是 PAC 可学习的,且采样复杂度满足 m1ε(lnH+ln1δ)m \leq \Bigg\lceil \frac{1}{\varepsilon} \left( \ln \vert \mathcal{H} \vert + \ln \frac{1}{\delta} \right) \Bigg\rceil.

Proof:\color{brown}{\textbf{Proof:}}​既然有 cHc \in \mathcal{H},那么只需在算法中淘汰掉 H\mathcal{H} 中与训练集 S\mathcal{S} 不能完美匹配的假设,直至 H\mathcal{H} 中仅剩一个假设,即得到 cc. 通常情况下,由于训练集规模有限,假设空间中可能不止一个与 S\mathcal{S} 匹配,且上述算法无法区分这些假设的优劣. 于是,我们要讨论的问题转换为:究竟需要多大规模的训练集,才能保证 cc 是可以被以不小于 1δ1 - \delta 的概率筛选出来?只需使:

P[hH:LD,c(h)>εLS(h)=0]<δ.\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : L_{\mathcal{D}, c}(h) > \varepsilon \land L_{\mathcal{S}}(h) = 0 \right] < \delta. \end{equation}

假设 hh 的泛化误差大于 ε\varepsilon,对分布 D\mathcal{D} 上随机采样得到的任何样例 (x,y)(\boldsymbol{x}, y),有:

P[h(x)=y]=1P[h(x)y]=1LD,c(h)<1ε.\begin{align} \mathbb{P}\left[ h(\boldsymbol{x}) = y \right] &= 1 - \mathbb{P}\left[ h(\boldsymbol{x}) \not= y \right] \nonumber \\ &= 1 - L_{\mathcal{D}, c}(h) \nonumber \\ &< 1 - \varepsilon. \end{align}

hhS\mathcal{S} 上表现完美的概率为:

P[LS(h)=0]=P[h(xi)=yi, (xi, yi)S]=(P[h(x)=y])m<(1ε)m.\begin{align} \mathbb{P}\left[ L_{\mathcal{S}}(h) = 0 \right] &= \mathbb{P}\left[ h(\boldsymbol{x}_i) = y_i, \space \forall (\boldsymbol{x}_i, \space y_i) \in \mathcal{S} \right] \nonumber \\ &= (\mathbb{P}\left[ h(\boldsymbol{x}) = y \right])^m \nonumber \\ &< (1 - \varepsilon)^m. \end{align}

因此有:

P[hH:LD,c(h)>εLS(h)=0]<H(1ε)m<Hemε.\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : L_{\mathcal{D}, c}(h) > \varepsilon \land L_{\mathcal{S}}(h) = 0 \right] < \vert \mathcal{H} \vert (1 - \varepsilon)^m < \vert \mathcal{H} \vert \mathrm{e}^{-m \varepsilon}. \end{equation}

令不等式右侧不大于 δ\delta,得:

m1ε(lnH+ln1δ).\begin{equation} m \geq \dfrac{1}{\varepsilon} \left( \ln \vert \mathcal{H} \vert + \ln \dfrac{1}{\delta} \right). \end{equation}

由此可见,概念 cc 是 PAC 可学习的. \square

2.3 不可知 PAC 可学习

在实际生活中,cHc \in \mathcal{H} 一般不成立. 我们需要对该过程进行进一步讨论(这里我们仍然认为 H<\vert \mathcal{H} \vert < \infty). 首先,我们有如下引理:

Lem 1.3 Hoeffding 不等式: \color{blue}{\textbf{Lem 1.3 Hoeffding 不等式: }}​ 设 X1, X2, , XnX_1, \space X_2, \space \dots, \space X_n 是独立同分布的随机变量,其中 Xi[ai,bi], i=1, 2, , nX_i \in [a_i, b_i], \space i = 1, \space 2, \space \dots, \space n. 记这些随机变量的均值为 X=1ni=1nXi\overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} X_i,则对任意 ε>0\varepsilon > 0,成立:

P(XE(X)ε)2exp(2ε2n2i=1n(biai)2).\begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

对于 PAC 学习理论,固定 hh,将 X=LS(h)\overline{X} = L_{\mathcal{S}}(h)E(X)=LD,c(h)\mathbb{E} (\overline{X}) = L_{\mathcal{D}, c}(h)ai=0, bi=1 (i=1,2,,n)a_i = 0, \space b_i = 1 \space (i = 1, 2, \dots, n) 代入,得:

P(LS(h)LD,c(h)ε)2exp(2mε2).\begin{equation} \mathbb{P} \left( \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \varepsilon \right) \leq 2 \exp\left( -2m\varepsilon^2 \right). \end{equation}

类似前文的讨论,考虑:

P[hH:LS(h)LD,c(h)ε]2Hexp(2mε2).\begin{equation} \mathbb{P}\left[ h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \varepsilon \right] \leq 2 \vert \mathcal{H} \vert \exp\left( -2m\varepsilon^2 \right). \end{equation}

令不等式右侧等于 δ\delta,有:

ε=lnH+ln(δ/2)2m,\begin{equation} \varepsilon = \sqrt{\frac{\ln \vert \mathcal{H} \vert + \ln(\delta / 2)}{2m}}, \end{equation}

从而有:

P(LS(h)LD,c(h)lnH+ln(δ/2)2m)1δ.\begin{equation} \mathbb{P} \left( \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \leq \sqrt{\frac{\ln \vert \mathcal{H} \vert + \ln(\delta / 2)}{2m}} \right) \geq 1 - \delta. \end{equation}

在上述推导中,我们并未给出也无法给出 P[LD,c(h)ε]\mathbb{P} \left[ L_{\mathcal{D}, c}(h) \leq \varepsilon \right] 的度量,但是当假设空间 H\mathcal{H} 给定且有限时,其中必存在一个泛化误差最小的假设. 我们只需要找出该假设的近似假设即可,以此为目标的学习称为不可知 PAC 可学习.

Def 1.4 不可知 PAC 可学习(Agnostic PAC Learnable): \color{blue}{\textbf{Def 1.4 不可知 PAC 可学习(Agnostic PAC Learnable): }}0<ε, δ<10 < \varepsilon, \space \delta < 1 和任意给定的分布 D\mathcal{D},若存在学习算法 L\mathfrak{L} 和多项式 m:(0,1)2Nm: (0, 1)^2 \rightarrow \mathbb{N},使得当从分布 D\mathcal{D} 中独立同分布取得的样本数量 mm(ε, δ)m \geq m\left( \varepsilon, \space \delta \right) 时,L\mathfrak{L} 从假设空间 H\mathcal{H} 中输出的假设 hh 满足:

P[LD,c(h)minhHLD,c(h)ε]1δ,\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h) - \min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称概念类 C\mathcal{C} 对假设空间 H\mathcal{H}不可知 PAC 可学习的.

显然,PAC 可学习是不可知 PAC 可学习的特例(前者满足 minhHLD,c(h)=0\min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h') = 0). 下面说明有限假设空间下概念类 C\mathcal{C} 一定是不可知 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}}12ε\frac{1}{2}\varepsilon 代入式 (15)(15),有:

P(hH:LS(h)LD,c(h)12ε)2Hexp(mε22).\begin{equation} \mathbb{P} \left( h \in \mathcal{H} : \vert L_{\mathcal{S}}(h) - L_{\mathcal{D}, c}(h) \vert \geq \dfrac{1}{2}\varepsilon \right) \leq 2 \vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right). \end{equation}

h=argminhHLD,c(h)h^* = \arg\min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}, c}(h'),学习算法返回的假设为 hSh_{\mathcal{S}};记 LS(hS)LD,c(hS)12ε\vert L_{\mathcal{S}}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h_{\mathcal{S}}) \vert \leq \frac{1}{2} \varepsilon 为事件 AALS(h)LD,c(h)12ε\vert L_{\mathcal{S}}(h^*) - L_{\mathcal{D}, c}(h^*) \vert \leq \frac{1}{2} \varepsilon 为事件 BB,则由 ERM\mathrm{ERM} 规则可知,当 AABB 同时成立时:

LD,c(h)LD,c(hS)LS(hS)+12εLS(h)+12εLD,c(h)+ε.\begin{equation} L_{\mathcal{D}, c}(h^*) \leq L_{\mathcal{D}, c}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) + \dfrac{1}{2} \varepsilon \leq L_{\mathcal{S}} (h^*) + \dfrac{1}{2}\varepsilon \leq L_{\mathcal{D}, c}(h^*) + \varepsilon. \\ \end{equation}

P(AB)0\mathbb{P}(\overline{A} \cup \overline{B}) \geq 0P(A), P(B)2Hexp(mε22)\mathbb{P}(\overline{A}), \space \mathbb{P}(\overline{B}) \leq 2 \vert \mathcal{H} \vert \exp\left( -\frac{m\varepsilon^2}{2} \right) 可得:

P[LD,c(hS)LD,c(h)ε]1P(AB)=1+P(AB)P(A)P(B)14Hexp(mε22),\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h^*) \leq \varepsilon \right] \geq 1 - \mathbb{P}(\overline{AB}) = 1 + \mathbb{P}(\overline{A} \cup \overline{B}) - \mathbb{P}(\overline{A}) - \mathbb{P}(\overline{B}) \geq 1 - 4\vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right), \end{equation}

或等价地:

P[LD,c(hS)LD,c(h)ε]4Hexp(mε22),\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}, c}(h_{\mathcal{S}}) - L_{\mathcal{D}, c}(h^*) \geq \varepsilon \right] \leq 4\vert \mathcal{H} \vert \exp\left( -\dfrac{m\varepsilon^2}{2} \right), \end{equation}

令不等式右边小于 δ\delta,有:

m2ε2(ln(4H)+ln1δ). \begin{equation} m \geq \frac{2}{\varepsilon^2} \left( \ln \left( 4\vert \mathcal{H} \vert \right) + \ln \frac{1}{\delta} \right). \space \square \end{equation}

综合上述讨论,我们给出如下结论:

Thm 1.5 有限假设空间是不可知 PAC 可学习的: \color{blue}{\textbf{Thm 1.5 有限假设空间是不可知 PAC 可学习的: }} 假设空间 H\mathcal{H} 是有限维的,当 cHc \in \mathcal{H} 时称假设空间 H\mathcal{H}可分的;否则称假设空间 H\mathcal{H}不可分的. 当 H\mathcal{H} 可分时,概念类 C\mathcal{C} 一定是 PAC 可学习的(当然也是不可知 PAC 可学习的);当 H\mathcal{H} 不可分时,概念类 C\mathcal{C} 一定是(退化为)不可知 PAC 可学习的.

2.4 理论推广

截至目前,我们以二分类问题为例,在概念 cc 存在的基础上给出了 PAC 可学习和不可知 PAC 可学习的定义,并且指出有限假设空间都是不可知 PAC 可学习的. 接下来,我们对该理论进行推广.

首先,我们考虑去除掉对概念 cc 的依赖. 这样的操作是合理的,因为在现实生活中,样本与标签的对应关系往往并非确定性映射,而是概率性的对应关系.

Example:\color{brown}{\textbf{Example:}} 在木瓜的例子中,具有同样属性的木瓜可能好吃也可能不好吃,“规律”实际应该表示在该属性下,木瓜好吃的概率和不好吃的概率,而非确定性的“木瓜要么好吃,要么不好吃”.

我们将样本空间的分布 D\mathcal{D} 记为 Dx\mathcal{D}_{\boldsymbol{x}},将 X×Y\mathcal{X} \times \mathcal{Y} 上的分布重新记为 D\mathcal{D},称为样本空间和标记空间的联合分布. 在此基础上,我们重新定义假设 hh 的泛化误差:

LD(h)=P(x,y)D[h(x)y].\begin{equation} L_{\mathcal{D}}(h) = \mathbb{P}_{(\boldsymbol{x}, y) \sim \mathcal{D}} \left[ h(\boldsymbol{x}) \not= y \right]. \end{equation}

假设 hh 的经验误差定义不变. 我们可将上述定义的 PAC 可辨识、PAC 可学习及不可知 PAC 可学习中的 LD,cL_{\mathcal{D}, c} 替换为 LDL_{\mathcal{D}},且仍然可以证明有限假设空间是不可知 PAC 可学习的.

其次,我们考虑将二分类的限定推广至多分类和回归问题,这需要我们进一步推广误差函数. 对于给定假设空间 H\mathcal{H} 和定义域 Z\mathcal{Z},称 l:H×ZR+\mathscr{l}: \mathcal{H} \times \mathcal{Z} \rightarrow \mathbb{R}_+ 为问题的一个损失函数. 对于多分类问题,Z=X×Y\mathcal{Z} = \mathcal{X} \times \mathcal{Y};对于回归问题,Z=X×R\mathcal{Z} = \mathcal{X} \times \mathbb{R}. 定义假设 hh 的泛化误差与经验误差为:

LD(h)=EzD[l(h,z)],LS(h)=1mi=1ml(h,z).\begin{align} L_{\mathcal{D}}(h) &= \mathbb{E}_{\boldsymbol{z} \sim \mathcal{D}} \left[ \mathscr{l}(h, \boldsymbol{z}) \right], \nonumber \\ L_{\mathcal{S}}(h) &= \frac{1}{m} \sum\limits_{i = 1}^{m} \mathscr{l}(h, \boldsymbol{z}). \end{align}

在分类问题和回归问题中,损失函数通常分别采用以下两种形式:

  1. 010-1 损失Z=X×Y\mathcal{Z} = \mathcal{X} \times \mathcal{Y},损失函数为:l01(h,(x,y))=I(h(x)y)\mathscr{l}_{0-1}\left( h, (\boldsymbol{x}, y) \right) = \mathbb{I}(h(\boldsymbol{x}) \not= y)

  2. 平方损失Z=X×R\mathcal{Z} = \mathcal{X} \times \mathbb{R},损失函数为:lsq(h,(x,y))=(h(x)y)2\mathscr{l}_{\mathrm{sq}}\left( h, (\boldsymbol{x}, y) \right) = \left( h(\boldsymbol{x}) - y \right)^2.

在此基础上,我们可以进一步推广 PAC 可学习及不可知 PAC 可学习的定义:

Def 1.2’ PAC 可学习(PAC Learnable): \color{blue}{\textbf{Def 1.2' PAC 可学习(PAC Learnable): }} Q\mathfrak{Q} 是一个学习问题,若对任意给定的 0<ε, δ<10 < \varepsilon, \space \delta < 1 和联合分布 D\mathcal{D},存在学习算法 L\mathfrak{L} 和函数 m:(0,1)2Nm: (0, 1)^2 \rightarrow \mathbb{N},使得当从分布 Dx\mathcal{D}_{\boldsymbol{x}} 中独立同分布取得的样本数量 mm(ε, δ)m \geq m\left( \varepsilon, \space \delta \right) 时,L\mathfrak{L} 从假设空间 H\mathcal{H} 中输出的假设 hh 满足:

P[LD(h)ε]1δ,\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称问题 Q\mathfrak{Q} 对假设空间 H\mathcal{H}PAC 可学习的.

Def 1.4’ 不可知 PAC 可学习(Agnostic PAC Learnable): \color{blue}{\textbf{Def 1.4' 不可知 PAC 可学习(Agnostic PAC Learnable): }} Q\mathfrak{Q} 是一个学习问题,若对任意给定的 0<ε, δ<10 < \varepsilon, \space \delta < 1 和联合分布 D\mathcal{D},存在学习算法 L\mathfrak{L} 和函数 m:(0,1)2Nm: (0, 1)^2 \rightarrow \mathbb{N},使得当从分布 Dx\mathcal{D}_{\boldsymbol{x}} 中独立同分布取得的样本数量 mm(ε, δ)m \geq m\left( \varepsilon, \space \delta \right) 时,L\mathfrak{L} 从假设空间 H\mathcal{H} 中输出的假设 hh 满足:

P[LD(h)minhHLD(h)ε]1δ,\begin{equation} \mathbb{P} \left[ L_{\mathcal{D}}(h) - \min\limits_{h' \in \mathcal{H}} L_{\mathcal{D}}(h') \leq \varepsilon \right] \geq 1 - \delta, \end{equation}

则称问题 Q\mathfrak{Q} 对假设空间 H\mathcal{H}不可知 PAC 可学习的.

同样地,我们可以证明无论是多分类问题还是回归问题,有限假设空间都是不可知 PAC 可学习的,这只需注意到前文在证明有限假设空间总是不可知 PAC 可学习时,未使用到 LDL_{\mathcal{D}}LSL_{\mathcal{S}} 的真实表达式和概念 cc 的任何信息.

附录

A. Hoeffding 不等式证明

Lem 1.6 Markov 不等式: \color{blue}{\textbf{Lem 1.6 Markov 不等式: }} 对任意非负随机变量 XX 和任意给定实数 ε>0\varepsilon > 0,有:

P(X>ε)1εE(X).\begin{equation} \mathbb{P}(X > \varepsilon) \leq \dfrac{1}{\varepsilon} \mathbb{E}(X). \end{equation}

Proof:\color{brown}{\textbf{Proof:}}XX 的概率密度函数为 f(x)f(x),则:

E(X)=0+xf(x)dxε+xf(x)dxεε+f(x)dx=εP(Xε).\begin{align} \mathbb{E}(X) = \int_{0}^{+\infty} x f(x) \mathrm{d}x &\geq \int_{\varepsilon}^{+\infty} x f(x) \mathrm{d}x \nonumber \\ &\geq \varepsilon \int_{\varepsilon}^{+\infty} f(x) \mathrm{d}x \nonumber \\ &= \varepsilon \mathbb{P}(X \geq \varepsilon). \end{align}

两边同时除以 ε\varepsilon 即证. \square

Lem 1.7 Hoeffding 引理: \color{blue}{\textbf{Lem 1.7 Hoeffding 引理: }} 对任意随机变量 XX,若 X[a, b]X \in [a, \space b]E(X)=0\mathbb{E}(X) = 0,则对任意实数 ss 成立:

E(esX)e18λ2(ba)2.\begin{equation} \mathbb{E}(\mathrm{e}^{sX}) \leq \mathrm{e}^{\frac{1}{8}\lambda^2(b - a)^2}. \end{equation}

Proof:\color{brown}{\textbf{Proof:}}f(X)=eλXf(X) = \mathrm{e}^{\lambda X},则 f(X)=λ2eλX>0f''(X) = \lambda^2\mathrm{e}^{\lambda X} > 0,因此 f(x)f(x) 是凸函数. 由凸函数性质,令 θ=bXba(0, 1)\theta = \frac{b - X}{b - a} \in (0, \space 1)

eλX=f(X)=f(θa+(1θ)b)θf(a)+(1θ)f(b)=bXbaeλa+Xabaeλb,\begin{align} \mathrm{e}^{\lambda X} = f(X) &= f(\theta a + (1 - \theta) b) \geq \theta f(a) + (1 - \theta) f(b) \nonumber \\ &= \dfrac{b - X}{b - a}\mathrm{e}^{\lambda a} + \dfrac{X - a}{b - a}\mathrm{e}^{\lambda b}, \end{align}

对不等式两边同时取期望,得:

E[eλX]=bE[X]baeλa+E[X]abaeλb=beλaaeλbba.\begin{align} \mathbb{E}\left[\mathrm{e}^{\lambda X}\right] = \dfrac{b - \mathbb{E}[X]}{b - a}\mathrm{e}^{\lambda a} + \dfrac{\mathbb{E}[X] - a}{b - a}\mathrm{e}^{\lambda b} = \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a}. \end{align}

只需证明:

beλaaeλbbae18λ2(ba)2ln(beλaaeλbba)18λ2(ba)2.\begin{equation} \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \leq \mathrm{e}^{\frac{1}{8}\lambda^2(b - a)^2} \Leftrightarrow \ln \left( \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \right) \leq \frac{1}{8}\lambda^2(b - a)^2. \end{equation}

t=bat = b - a,则 b=t+ab = t + a,有:

ln(beλaaeλbba)=ln((t+a)eλaaeλ(t+a)t)=λa+ln(t+aaeλt)lnt.\begin{align} \ln \left( \dfrac{b\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda b}}{b - a} \right) &= \ln \left( \dfrac{(t + a)\mathrm{e}^{\lambda a} - a\mathrm{e}^{\lambda(t + a)}}{t} \right) \nonumber \\ &= \lambda a + \ln \left( t + a - a\mathrm{e}^{\lambda t} \right) - \ln t. \end{align}

φ(u)=λa+ln(t+aaeu)lnt\varphi(u) = \lambda a + \ln \left( t + a - a\mathrm{e}^u \right) - \ln t,则对目标不等式的证明等价于证明:

φ(λt)18(λt)2.\begin{equation} \varphi(\lambda t) \leq \dfrac{1}{8} (\lambda t)^2. \end{equation}

易知 φC\varphi \in C^{\infty},对 φ(u)\varphi(u) 进行二阶 Taylor 展开,得:

φ(u)=φ(0)+φ(0)u+12φ(α)u2,\begin{equation} \varphi(u) = \varphi(0) + \varphi'(0)u + \dfrac{1}{2}\varphi''(\alpha) u^2, \end{equation}

其中 α(0, u)\alpha \in (0, \space u),容易计算:

φ(0)=λa+ln(t+aa)lnt=λa,φ(0)=aeut+aaeuu=0=at,φ(α)=aeu(t+α)(t+aaeu)2u=α=aeu(t+aaeu)2(1aeu(t+aaeu)2)u=α14.\begin{align} \varphi(0) &= \lambda a + \ln \left( t + a - a \right) - \ln t = \lambda a, \nonumber \\ \varphi'(0) &= \dfrac{-a\mathrm{e}^{u}}{t + a -a\mathrm{e}^{u}} \Bigg|_{u = 0} = -\dfrac{a}{t}, \nonumber \\ \varphi''(\alpha) &= \dfrac{-a\mathrm{e}^{u}(t + \alpha)}{(t + a -a\mathrm{e}^{u})^2} \Bigg|_{u = \alpha} = \dfrac{-a\mathrm{e}^{u}}{(t + a -a\mathrm{e}^{u})^2} \cdot \left( 1 - \dfrac{-a\mathrm{e}^{u}}{(t + a -a\mathrm{e}^{u})^2} \right)\Bigg|_{u = \alpha} \leq \dfrac{1}{4}. \end{align}

将式 (37)(37) 代入式 (36)(36),得:

φ(λt)λa+(atλt)+1214(λt)2=18(λt)2.\begin{equation} \varphi(\lambda t) \leq \lambda a + \left(-\dfrac{a}{t} \cdot \lambda t \right) + \dfrac{1}{2} \cdot \dfrac{1}{4} (\lambda t)^2 = \dfrac{1}{8} (\lambda t)^2. \end{equation}

综上所述,不等式 (30)(30) 得证. \square

Lem 1.3 Hoeffding 不等式: \color{blue}{\textbf{Lem 1.3 Hoeffding 不等式: }}​ 设 X1, X2, , XnX_1, \space X_2, \space \dots, \space X_n 是独立同分布的随机变量,其中 Xi[ai,bi], i=1, 2, , nX_i \in [a_i, b_i], \space i = 1, \space 2, \space \dots, \space n. 记这些随机变量的均值为 X=1ni=1nXi\overline{X} = \frac{1}{n}\sum\limits_{i = 1}^{n} X_i,则对任意 ε>0\varepsilon > 0,成立:

P(XE(X)ε)2exp(2ε2n2i=1n(biai)2).\begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

Proof:\color{brown}{\textbf{Proof:}} 由 Markov 不等式,得:

P(XE(X)ε)=P[exp(λ[XE(X)])exp(λε)]exp(λε)E[exp(λ[XE(X)])],\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) = \mathbb{P}\left[ \exp\left(\lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \geq \exp\left(\lambda\varepsilon\right) \right] \leq \exp \left(-\lambda\varepsilon \right) \cdot \mathbb{E}\left[ \exp\left( \lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \right], \end{equation}

其中:

E[exp(λ[XE(X)])]=i=1nE[exp(λXiE(Xi)n)].\begin{equation} \mathbb{E}\left[ \exp\left( \lambda[\overline{X} - \mathbb{E}(\overline{X})] \right) \right] = \prod_{i = 1}^{n} \mathbb{E}\left[ \exp\left( \lambda \cdot \dfrac{X_i - \mathbb{E}(X_i)}{n} \right) \right]. \end{equation}

又因为 E[XiE(Xi)n]=0\mathbb{E}\left[ \frac{X_i - \mathbb{E}(X_i)}{n} \right] = 0,由 Hoeffding 引理可知:

E[exp(λXiE(Xi)n)]exp(λ2(biai)28n2).\begin{equation} \mathbb{E}\left[ \exp\left( \lambda \cdot \dfrac{X_i - \mathbb{E}(X_i)}{n} \right) \right] \leq \exp\left( \lambda^2 \cdot \dfrac{(b_i - a_i)^2}{8n^2} \right). \end{equation}

于是有:

P(XE(X)ε)exp(λε+λ2i=1n(biai)28n2).\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) \leq \exp\left( -\lambda\varepsilon + \lambda^2 \cdot \dfrac{\sum\limits_{i = 1}^{n}(b_i - a_i)^2}{8n^2} \right). \end{equation}

由于式 (43)(43) 对任意实数 λ\lambda 成立,取 λ0\lambda_0 使不等式右侧指数项最小,得:

P(XE(X)ε)exp(2ε2n2i=1n(biai)2).\begin{equation} \mathbb{P}\left( \overline{X} - \mathbb{E}(\overline{X}) \geq \varepsilon \right) \leq \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \end{equation}

于是得到:

P(XE(X)ε)2exp(2ε2n2i=1n(biai)2). \begin{equation} \mathbb{P} \left( \vert \overline{X} - \mathbb{E}(\overline{X}) \vert \geq \varepsilon \right) \leq 2 \exp\left( -\frac{2\varepsilon^2 n^2}{\sum\limits_{i = 1}^{n}(b_i - a_i)^2} \right). \space \square \end{equation}

B. Bayes 最优假设

Thm 1.6 Bayes 最优假设: \color{blue}{\textbf{Thm 1.6 Bayes 最优假设: }} 给定 X×{0, 1}\mathcal{X} \times \{0, \space 1\} 上的任意分布 D\mathcal{D},将 X\mathcal{X} 映射到 {0, 1}\{0, \space 1\} 上的最好的假设为:

BayesD(x)={1,P(x,y)D(y=1x)120,otherwise.\begin{equation} \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) = \begin{cases} 1, & \mathbb{P}_{(\boldsymbol{x}, y) \sim \mathcal{D}} \left( y = 1 \mid \boldsymbol{x} \right) \geq \dfrac{1}{2} \\ 0, & \text{otherwise} \end{cases}. \end{equation}

Proof:\color{brown}{\textbf{Proof:}}hh 是任意 X\mathcal{X}{0, 1}\{0, \space 1\} 上的假设,则:

LD(h)LD(BayesD)=E(x,y)D[I(h(x)y)]E(x,y)D[I(BayesD(x)y)]=ExDx(Eyx[I(h(x)y)I(BayesD(x)y)]).\begin{align} L_{\mathcal{D}}(h) - L_{\mathcal{D}}(\mathrm{Bayes}_{\mathcal{D}}) &= \mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}} [\mathbb{I}(h(\boldsymbol{x}) \not= y)] - \mathbb{E}_{(\boldsymbol{x}, y) \sim \mathcal{D}} [\mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y)] \nonumber \\ &= \mathbb{E}_{\boldsymbol{x} \sim\mathcal{D}_{\boldsymbol{x}}} \left( \mathbb{E}_{y \mid \boldsymbol{x}}\left[ \mathbb{I}(h(\boldsymbol{x}) \not= y) - \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y) \right] \right). \end{align}

对于任意 xDx\boldsymbol{x} \in \mathcal{D}_{\boldsymbol{x}},定义:

Δ(x)=I(h(x)y)I(BayesD(x)y).\begin{equation} \Delta(\boldsymbol{x}) = \mathbb{I}(h(\boldsymbol{x}) \not= y) - \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y). \end{equation}

h(x)=BayesD(x)h(\boldsymbol{x}) = \mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}),则 Δ(x)=0\Delta(\boldsymbol{x}) = 0;否则记 η(x)=P(y=1x)\eta(\boldsymbol{x}) = \mathbb{P}(y = 1 \mid \boldsymbol{x}),当 η(x)12\eta(\boldsymbol{x}) \geq \frac{1}{2} 时,BayesD(x)=1\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) = 1,故 h(x)=0h(\boldsymbol{x}) = 0,有:

I(h(x)y)=I(y=1), I(BayesD(x)y)=I(y=0)    Δ(x)=I(y=1)I(y=0)=η(x)[1η(x)]=2η(x)10.\begin{align} &\mathbb{I}(h(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 1), \space \mathbb{I}(\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}) \not= y) = \mathbb{I}(y = 0) \nonumber \\ \implies \Delta(\boldsymbol{x}) &= \mathbb{I}(y = 1) - \mathbb{I}(y = 0) = \eta(\boldsymbol{x}) - [1 - \eta(\boldsymbol{x})] = 2\eta(\boldsymbol{x}) - 1 \geq 0. \end{align}

同理,当 η(x)<12\eta(\boldsymbol{x}) < \frac{1}{2} 时,Δ(x)=12η(x)0\Delta(\boldsymbol{x}) = 1 - 2\eta(\boldsymbol{x}) \geq 0,故:

Eyx[Δ(x)]0, xX,\begin{equation} \mathbb{E}_{y \mid \boldsymbol{x}} \left[ \Delta(\boldsymbol{x}) \right] \geq 0, \space \forall \boldsymbol{x} \in \mathcal{X}, \end{equation}

即:

LD(h)LD(BayesD)0.\begin{equation} L_{\mathcal{D}}(h) - L_{\mathcal{D}}(\mathrm{Bayes}_{\mathcal{D}}) \geq 0. \end{equation}

这说明 BayesD(x)\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x})X\mathcal{X}{0, 1}\{0, \space 1\} 上的最优假设. \square

Remark:\color{brown}{\textbf{Remark:}} 在实际应用中,由于不清楚真实分布 D\mathcal{D},我们不能直接使用 BayesD(x)\mathrm{Bayes}_{\mathcal{D}}(\boldsymbol{x}).

C. 无限假设空间也可能是 PAC 可学习的

无限假设空间也可能是 PAC 可学习的,我们分别给出可列假设空间和连续假设空间上的例子:

Example 可列假设空间:\color{brown}{\textbf{Example 可列假设空间:}} 考虑 X\mathcal{X} 可列,Y={0, 1}\mathcal{Y} = \{0, \space 1\},令 H={hz:zX, hz(x)=I(x=z)}{h0}\mathcal{H} = \{ h_{\boldsymbol{z}} : \boldsymbol{z} \in \mathcal{X}, \space h_{\boldsymbol{z}}(\boldsymbol{x}) = \mathbb{I}(\boldsymbol{x} = \boldsymbol{z}) \} \cup \{ h^- \equiv 0\},则当 H\mathcal{H} 可分时,问题是 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}} 根据 ERM\mathrm{ERM} 法则,构建如下算法:若训练集中全部样本点的标记为 00,则返回 hh^-,否则若存在样本点 z\boldsymbol{z}^* 标记为 11,则返回 hzh_{\boldsymbol{z}^*}. 若最优假设为 hh^-,算法显然会返回 hh^-LD(h)=0L_{\mathcal{D}}(h^-) = 0,问题是 PAC 可学习的;若最有假设为 hzh_{\boldsymbol{z}^*},设取样到 z\boldsymbol{z}^* 的概率为 pp,则训练集中不包含 pp 的概率为 (1p)mepm(1 - p)^m \leq \mathrm{e}^{-pm},令 epmδ\mathrm{e}^{-pm} \leq \delta,得 m1pln1δm \geq \frac{1}{p} \ln \frac{1}{\delta},因而其也是 PAC 可学习的. \square

Example 连续假设空间:\color{brown}{\textbf{Example 连续假设空间:}} 考虑 X=R2\mathcal{X} = \mathbb{R}^2Y={0, 1}\mathcal{Y} = \{0, \space 1\},令 H={hr:rR+, hr(x)=I(xr)}\mathcal{H} = \{ h_r : r \in \mathbb{R}_+, \space h_r(\boldsymbol{x}) = \mathbb{I}(\| \boldsymbol{x} \| \leq r)\},则当 H\mathcal{H} 可分时,问题是 PAC 可学习的.

Proof:\color{brown}{\textbf{Proof:}} 根据 ERM\mathrm{ERM} 法则,构建算法返回的假设 hr^h_{\hat{r}} 满足 r^\hat{r} 等于标记为 11 的样本的范数最大值. 设 X\mathcal{X} 的密度函数为 f(x)f(\boldsymbol{x}),记 F(r)=xrf(x)dxF(r) = \int_{\| \boldsymbol{x} \| \leq r} f(\boldsymbol{x}) \mathrm{d}\boldsymbol{x},最优假设为 hrh_{r^*},则 r^r\hat{r} \leq r^*,则:

LD(hr^)=Pxf[hr^(x)hr(x)]=F(r)F(r^).\begin{equation} L_{\mathcal{D}}(h_{\hat{r}}) = \mathbb{P}_{\boldsymbol{x} \sim f} \left[ h_{\hat{r}}(\boldsymbol{x}) \not= h_{r^*}(\boldsymbol{x}) \right] = F(r^*) - F(\hat{r}). \end{equation}

对于任意给定 ε(0, 1)\varepsilon \in (0, \space 1),只需让 F(r)F(r^)εF(r^*) - F(\hat{r}) \leq \varepsilon. 若 F(r)εF(r^*) \leq \varepsilon,不等式直接成立,不妨设 F(r)>εF(r^*) > \varepsilon,记 rεr_{\varepsilon} 满足 F(rε)=F(r)εF(r_{\varepsilon}) = F(r^*) - \varepsilon,样本中标记为 11 的样本数为 m+m^+,则 m+Binomial(m, F(r))m^+ \sim \mathrm{Binomial}(m, \space F(r^*)),且有:

P(r^<rεm+)=[F(rε)F(r)]m+=[1εF(r)]m+.\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon} \mid m^+) = \left[ \dfrac{F(r_{\varepsilon})}{F(r^*)} \right]^{m^+} = \left[ 1 - \dfrac{\varepsilon}{F(r^*)} \right]^{m^+}. \end{equation}

对等式两边取期望,得:

P(r^<rε)=E[(1εF(r))m+]E[exp(εm+F(r))].\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon}) = \mathbb{E} \left[ \left(1 - \dfrac{\varepsilon}{F(r^*)} \right) ^{m^+}\right] \leq \mathbb{E} \left[ \exp\left( -\dfrac{\varepsilon m^+}{F(r^*)} \right)\right]. \end{equation}

根据二项分布的矩母函数,有:

E[exp(εm+F(r))]=[1p(1eq)]m,\begin{equation} \mathbb{E} \left[ \exp\left( -\dfrac{\varepsilon m^+}{F(r^*)} \right)\right] = \left[ 1 - p (1 - \mathrm{e}^{-q}) \right]^m, \end{equation}

其中 p=F(r)p = F(r^*)q=εF(r)q = \frac{\varepsilon}{F(r^*)}. 容易证明 eq1q+12q2\mathrm{e}^{-q} \leq 1 - q + \frac{1}{2} q^2,故 1eqq12q212q1 - \mathrm{e}^{-q} \geq q - \frac{1}{2}q^2 \geq \frac{1}{2}q0q10 \leq q \leq 1),因此:

[1p(1eq)]m[1p(q2)]m(112ε)2exp(εm2).\begin{equation} \left[ 1 - p (1 - \mathrm{e}^{-q}) \right]^m \leq \left[1 - p\left(\dfrac{q}{2}\right)\right]^m \leq \left(1 - \dfrac{1}{2}\varepsilon \right)^2 \leq \exp(-\dfrac{\varepsilon m}{2}). \end{equation}

故:

P(r^<rε)exp(εm2).\begin{equation} \mathbb{P}(\hat{r} < r_{\varepsilon}) \leq \exp(-\dfrac{\varepsilon m}{2}). \end{equation}

令不等式右侧小于 δ\delta,得:

m2εln1δ.\begin{equation} m \geq \dfrac{2}{\varepsilon} \ln \dfrac{1}{\delta}. \end{equation}

综上所述,该问题是 PAC 可学习的,且采样复杂度 m2εln1δm \leq \Big\lceil \frac{2}{\varepsilon} \ln \frac{1}{\delta} \Big\rceil. \square