机器学习原理及算法002:PAC 学习理论(二)

59 阅读4分钟

机器学习原理及算法002:PAC 学习理论(二)

Author: Rotch
Date: 2025-09-26

1. 不可知 PAC 可学习的进一步探究

1.1 不可知 PAC 可学习的充分条件

我们回顾 ERM\mathrm{ERM} 法则的工作方式:算法接受一个训练集 S\mathcal{S} 并评估任意 hHh \in \mathcal{H} 的经验误差,最终输出经验误差最小的 hSh_{\mathcal{S}}. 我们希望 hSh_{\mathcal{S}} 的泛化误差也是 H\mathcal{H} 中最小的(或充分接近最小的泛化误差),一个合理的想法是保证对任意 hHh \in \mathcal{H},其经验误差与泛化误差之间的差值是“一致接近”的,我们给出 ε\varepsilon-代表性样本的定义:

Def 2.1 ε-代表性样本:\color{blue}{\textbf{Def 2.1 }\mathbf{\varepsilon}\textbf{-代表性样本:}} 对于给定的样本空间 X\mathcal{X},标记空间 Y\mathcal{Y},假设空间 H\mathcal{H},损失函数 l\mathscr{l} 和联合分布 D\mathcal{D},若训练集 S\mathcal{S} 满足下述不等式:

LS(h)LD(h)ε, hH,\begin{equation} | L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \varepsilon, \space \forall h \in \mathcal{H}, \end{equation}

则称训练集 S\mathcal{S} 是(关于样本空间 X\mathcal{X},标记空间 Y\mathcal{Y},假设空间 H\mathcal{H},损失函数 l\mathscr{l} 和联合分布 D\mathcal{D} 的)ε\varepsilon-代表性样本.

下面,我们说明只要训练集 S\mathcal{S}12ε\frac{1}{2}\varepsilon-代表性的,就可以保证 ERM\mathrm{ERM} 法则返回一个近似正确的假设.

Thm 2.2:\color{blue}{\textbf{Thm 2.2:}} 设训练集 S\mathcal{S} 是(关于样本空间 X\mathcal{X},标记空间 Y\mathcal{Y},假设空间 H\mathcal{H},损失函数 l\mathscr{l} 和联合分布 D\mathcal{D} 的)12ε\frac{1}{2}\varepsilon-代表性样本,则对任意 hSargminhHLS(h)h_{\mathcal{S}} \in \arg\min\limits_{h \in \mathcal{H}}L_{\mathcal{S}}(h),成立:

LD(hS)minhHLD(h)+ε.\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) \leq \min\limits_{h \in \mathcal{H}}L_{\mathcal{D}}(h) + \varepsilon. \end{equation}

Proof:\color{brown}{\textbf{{Proof:}}} 对任意 hHh \in \mathcal{H},成立:

LD(hS)LS(hS)+12εLS(h)+12εLD(h)+ε.\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) + \frac{1}{2}\varepsilon \leq L_{\mathcal{S}}(h) + \frac{1}{2}\varepsilon \leq L_{\mathcal{D}}(h) + \varepsilon. \end{equation}

hh 的任意性可知式 (2)(2) 成立. \square

根据 Thm2.2\mathrm{Thm 2.2},如果我们能保证以至少 1δ1 - \delta 的概率获得 12ε\frac{1}{2}\varepsilon-代表性的训练集 S\mathcal{S},则 ERM\mathrm{ERM} 法则是不可知 PAC 可学习的. 我们引入一致收敛条件来形式化上述过程.

Def 2.3 一致收敛:\color{blue}{\textbf{Def 2.3 一致收敛:}} 记样本空间为 X\mathcal{X},标记空间为 Y\mathcal{Y},损失函数为 l\mathscr{l};设 H\mathcal{H} 是一给定的假设空间,若存在函数 mHUC:(0, 1)2Nm_{\mathcal{H}}^{\mathrm{UC}}: (0, \space 1)^2 \rightarrow \mathbb{N},使得对任意 ε, δ(0, 1)\varepsilon, \space \delta \in (0, \space 1) 及联合分布 D\mathcal{D},满足任意从 D\mathcal{D} 中独立同分布取得的训练集 S\mathcal{S}SmHUC(ε, δ)| \mathcal{S}| \geq m_{\mathcal{H}}^{\mathrm{UC}}(\varepsilon, \space \delta) 时以不小于 1δ1 - \delta 的概率是 ε\varepsilon-代表性的,则称假设空间 H\mathcal{H}一致收敛的.

根据一致收敛的定义,我们给出如下定理:

Thm 2.4 不可知 PAC 可学习的充分条件:\color{blue}{\textbf{Thm 2.4 不可知 PAC 可学习的充分条件:}} 若假设空间 H\mathcal{H} 对函数 mHUCm_{\mathcal{H}}^{\mathrm{UC}} 是一致收敛的,那么假设空间 H\mathcal{H} 是不可知 PAC 可学习的,且样本复杂度函数 mHm_{\mathcal{H}} 满足 mH(ε, δ)mHUC(12ε, δ)m_{\mathcal{H}}(\varepsilon, \space \delta) \leq m_{\mathcal{H}}^{\mathrm{UC}}(\frac{1}{2}\varepsilon, \space \delta).

1.2 有限假设空间是不可知 PAC 可学习的

在《机器学习原理及算法001:PAC 学习理论(一)》中,我们给出了“有限假设空间是不可知 PAC 可学习的”的定理. 为了文章的完整性,我们重新叙述该定理,并给出证明:

Thm 1.5’ 有限假设空间是不可知 PAC 可学习的:\color{blue}{\textbf{Thm 1.5' 有限假设空间是不可知 PAC 可学习的:}} 设假设空间 H\mathcal{H} 是有限的,则假设空间 H\mathcal{H} 是一致收敛的,从而是不可知 PAC 可学习的,且样本复杂度有上限 mH(ε, δ)2(ba)2ln(2H/δ)ε2m_{\mathcal{H}}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2}.

Proof:\color{brown}{\textbf{{Proof:}}} 固定 ε, δ\varepsilon, \space \delta,若能找到正整数 mm,使得从任意分布 D\mathcal{D} 中独立同分布取得的 mm 个点的训练集 S\mathcal{S}12ε\frac{1}{2}\varepsilon-代表性的,则命题得证. 形式上,要求:

P( hH, LS(h)LD(h)12ε)1δ,\begin{equation} \mathbb{P}\left( \forall \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \frac{1}{2}\varepsilon \right) \geq 1 - \delta, \end{equation}

这等价于:

P( hH, LS(h)LD(h)>12ε)<δ.\begin{equation} \mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) < \delta. \end{equation}

设损失函数 l[a, b]\mathscr{l} \in [a, \space b],由 Hoeffding 不等式,不难注意到不等式左边满足:

P( hH, LS(h)LD(h)>12ε)2Hexp(mε22(ba)2).\begin{equation} \mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) \leq 2 | \mathcal{H} | \cdot \exp(\frac{-m \varepsilon^2}{2(b - a)^2}). \end{equation}

令不等式右侧小于 δ\delta,得:

m2(ba)2ln(2H/δ)ε2.\begin{equation} m \geq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2}. \end{equation}

于是有限假设空间 H\mathcal{H} 是一致收敛的,从而是不可知 PAC 可学习的. \square

1.3 离散化技巧

Thm 1.5\text{Thm 1.5} 仅适用于有限假设空间,对于无限假设空间,我们往往在实际应用中将其转化为有限假设空间. 例如,对于假设空间:

H2={hθ:θR, hθ(x)=sign(xθ)},\begin{equation} \mathcal{H}_2 = \{h_{\theta} : \theta \in \mathbb{R}, \space h_{\theta}(x) = \mathrm{sign}(x - \theta) \}, \end{equation}

其显然是无限的. 但在实际应用中,我们一般使用浮点数记录 θ\theta,这使得 θ\theta 的可能取值数量为 2642^{64}. 从而有样本复杂度上限:

mH2(ε, δ)2(ba)2[64ln2+ln(2/δ)]ε2.\begin{equation} m_{\mathcal{H}_2}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 [64 \ln2 + \ln(2 / \delta)]}{\varepsilon^2}. \end{equation}

这一上限是容易接受的,但其依赖于机器的精度. 在后面的章节中,我们会为无限假设空间引入新的样本复杂度估计方法,而离散化技巧可以用于对样本复杂度上限的粗略估计.

2. 假设空间的选取分析

2.1 没有免费的午餐定理

在前文中,我们指出了某些训练数据会导致学习算法过拟合. 为了克服该问题,我们提出了“将假设空间限制在一个给定的集合 H\mathcal{H} 中”的思想. 例如,在木瓜的例子中,我们限制了假设空间是二维平面下的矩形. 在这一过程中,我们使用了“好吃的木瓜集中在一个近似矩形的区域内”的先验知识. 那么,这样的先验知识是否是必要的?是否存在一个不需要先验知识的通用的学习器,可以完成任何可学习的学习任务呢?下面的定理回答了这一问题

Thm 2.5 没有免费的午餐(No Free Lunch): \color{blue}{\textbf{Thm 2.5 没有免费的午餐(No Free Lunch): }} 对样本空间 X\mathcal{X} 上的 010-1 损失的二分任务,对任意学习算法 L\mathfrak{L} 及正整数 mX2m \leq \frac{\vert \mathcal{X} \vert}{2},存在 X×{0, 1}\mathcal{X} \times \{0, \space 1\} 上的一个分布 D\mathcal{D},使得:

  1. 存在一个函数 f:X{0, 1}f: \mathcal{X} \rightarrow \{0, \space 1\} 满足 LD(f)=0L_{\mathcal{D}}(f) = 0
  2. 在样本 SDm\mathcal{S} \sim \mathcal{D}^m 上,LD(L(S))18L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8} 的概率至少为 17\frac{1}{7},其中 L(S)\mathfrak{L}(\mathcal{S}) 表示学习算法 L\mathfrak{L} 在训练集 S\mathcal{S} 上返回的假设.

Proof:\color{brown}{\textbf{{Proof:}}} 首先,我们选取 X\mathcal{X} 的一个大小为 2m2m 的子集 CC,这一选取的意义是仅在有限的条件下完成证明(等价于不妨设 X\mathcal{X} 有限). 一个直观的想法是,任何只观测到空间 CC 中一般样本的算法,都不具有足够的信息量来反映 CC 中剩余样本的标签.

随后,我们给出 P[LD(L(S))18]17\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7} 的一个充分条件:

ESDm[LD(L(S))]14    P[LD(L(S))18]17.\begin{equation} \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4} \implies \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7}. \end{equation}

我们反设 P[LD(L(S))18]<17\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] < \frac{1}{7},则:

ESDm[LD(L(S)]<1×P[LD(L(S))18]+18P[LD(L(S))<18]<1×17+18×(117)=14\begin{align} \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})] &< 1 \times \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] + \frac{1}{8} \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) < \frac{1}{8}] \nonumber \\ &< 1 \times \frac{1}{7} + \frac{1}{8} \times \left(1 - \frac{1}{7} \right) = \frac{1}{4} \end{align}

与式 (10)(10) 矛盾,因此式 (10)(10)P[LD(L(S))18]17\mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7} 的一个充分条件. 下面我们只需要证明,对任意学习算法 L\mathfrak{L},其接受 C×{0, 1}C \times \{0, \space 1\} 上的规模为 mm 的训练集 S\mathcal{S},则存在一个函数 f:X{0, 1}f : \mathcal{X} \rightarrow \{0, \space 1\}X\mathcal{X} 的一个分布 D\mathcal{D},满足:

LD(f)=0, ESDm[LD(L(S))]14.\begin{equation} L_{\mathcal{D}}(f) = 0, \space \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4}. \end{equation}

考虑从 CC{0, 1}\{0, \space 1\} 上的全部 T=22mT = 2^{2m} 个函数,记为 f1, f2, , fTf_1, \space f_2, \space \dots, \space f_T. 对于每个函数 fif_i,定义 Dx\mathcal{D}_{\boldsymbol{x}}CC 上的均匀分布(即:Dx(x)=1C\mathcal{D}_{\boldsymbol{x}}(\boldsymbol{x}) = \frac{1}{|C|})及 C×{0, 1}C \times \{0, \space 1\} 上的分布:

D yx(i)[(x, y)]=I[fi(x)=y], D(i)=D yx(i)×Dx.\begin{equation} \mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)}[(\boldsymbol{x}, \space y)] = \mathbb{I}[f_i(\boldsymbol{x}) = y], \space \mathcal{D}^{(i)} = \mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)} \times \mathcal{D}_{\boldsymbol{x}}. \end{equation}

换言之,从 C×{0, 1}C \times \{0, \space 1\} 中任选一对 (x, y)(\boldsymbol{x}, \space y),取到各 x\boldsymbol{x} 的概率均等,对于取定的 x\boldsymbol{x},一定成立 y=fi(x)y = f_i(\boldsymbol{x}). 因此有 LD(i)(fi)=0L_{\mathcal{D}^{(i)}}(f_i) = 0,于是对式 (12)(12) 的证明可转换为证明下式成立:

maxi[T]ES[D(i)]m[LD(i)(L(S))]14\begin{equation} \max\limits_{i \in [T]} \mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4} \end{equation}

对于大小为 mm 的训练集 SxC\mathcal{S}|_{\boldsymbol{x}} \subset C,共计有 K=(2m)mK = (2m)^{m} 种取法,分别记为 S1, S2, , SK\mathcal{S}_1, \space \mathcal{S}_2, \space \dots, \space \mathcal{S}_K. 对于 Sj={x1, x2, , xm}\mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \},记 Sj(i)={(x1,fi(x1)), (x2,fi(x2)), , (xm,fi(xm))}S_j^{(i)} = \{ (\boldsymbol{x}_1, f_i(\boldsymbol{x}_1)), \space (\boldsymbol{x}_2, f_i(\boldsymbol{x}_2)), \space \dots, \space (\boldsymbol{x}_m, f_i(\boldsymbol{x}_m))\}. 设分布为 Di\mathcal{D}_i,则学习算法 L\mathfrak{L} 可能接受到的训练集为 S1(i), S2(i), , SK(i)\mathcal{S}_1^{(i)}, \space \mathcal{S}_2^{(i)}, \space \dots, \space \mathcal{S}_K^{(i)},且所有训练集取到的概率均等,于是有:

ES[D(i)]m[LD(i)(L(S))]=1kj=1kLD(i)[L(Sj(i))].\begin{equation} \mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] = \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right]. \end{equation}

考虑所有 i[T]i \in [T],由最大值大于平均值,平均值大于最小值的基本原理,有:

maxi[T]1kj=1kLD(i)[L(Sj(i))]1Ti=1T1kj=1kLD(i)[L(Sj(i))]=1kj=1k1Ti=1TLD(i)[L(Sj(i))]minj[K]1Ti=1TLD(i)[L(Sj(i))].\begin{align} \max\limits_{i \in [T]} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\ &= \frac{1}{k} \sum\limits_{j = 1}^{k} \frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\ & \geq \min\limits_{j \in [K]}\frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right]. \end{align}

固定某个 j[K]j \in [K],设 Sj={x1, x2, , xm}\mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \},记 CSj={v1, v2, , vp}C \setminus \mathcal{S}_j = \{\boldsymbol{v}_1, \space \boldsymbol{v}_2, \space \dots, \space \boldsymbol{v}_p \},显然 pmp \geq m. 因此,对每个函数 h:C{0, 1}h : C \rightarrow \{0, \space 1\} 和每个 i[T]i \in [T],有:

LD(i)(h)=12mxCI[h(x)fi(x)]12mr=1pI[h(vr)fi(vr)]12pr=1pI[h(vr)fi(vr)].\begin{align} L_{\mathcal{D}^{(i)}}(h) &= \frac{1}{2m} \sum\limits_{\boldsymbol{x} \in C} \mathbb{I}[h(\boldsymbol{x}) \not= f_i(\boldsymbol{x})] \nonumber \\ &\geq \frac{1}{2m} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] \nonumber \\ &\geq \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)]. \end{align}

因此有:

1Ti=1TLD(i)[L(Sj(i))]1Ti=1T12pr=1pI[L(Sj(i))(vr)fi(vr)]=12pr=1p1Ti=1TI[L(Sj(i))(vr)fi(vr)]12minr[p]1Ti=1TI[L(Sj(i))(vr)fi(vr)].\begin{align} \frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\ &= \frac{1}{2p} \sum\limits_{r = 1}^{p} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\ &\geq \frac{1}{2} \min\limits_{r \in [p]} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right]. \end{align}

固定某个 r[p]r \in [p],我们可以将 f1, f2, , fTf_1, \space f_2, \space \dots, \space f_T 分为 T2\frac{T}{2} 组不相交的函数,即对每对 (fi, fi)(f_i, \space f_{i'}) 满足 fi(c)fi(c)f_i(\boldsymbol{c}) \not= f_{i'}(\boldsymbol{c}) 当且仅当 c=vr\boldsymbol{c} = \boldsymbol{v}_r. 又由于对每对函数,一定有 Sj(i)=Sj(i)S_j^{(i)} = S_j^{(i')},且:

I[L(Sj(i))(vr)fi(vr)]+I[L(Sj(i))(vr)fi(vr)]=1,\begin{equation} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] + \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i')}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] = 1, \end{equation}

因此有:

1Ti=1TI[L(Sj(i))(vr)fi(vr)]=12.\begin{equation} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] = \frac{1}{2}. \end{equation}

联合式子 (15)(20)(15) \sim (20),可知式 (14)(14) 成立,定理得证. \square

上述定理说明,对于任意学习算法,都存在一个学习任务使其失败,即便这个学习任务可以被另一个学习算法成功学习. 从另一个角度描述,考虑 F={h:h:X{0, 1}}\mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \},即从 X\mathcal{X}{0, 1}\{0, \space 1\} 的全体映射,易知 F\mathcal{F} 是没有任何先验知识的,则对任何学习算法,都存在某一个学习任务使得学习算法根据 F\mathcal{F} 返回的假设是失败的. 形式上,我们给出如下定理:

Cor 2.6: \color{blue}{\textbf{Cor 2.6: }}X\mathcal{X} 为无限样本空间,F={h:h:X{0, 1}}\mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \},则 F\mathcal{F} 不是 PAC 可学习的.

Proof:\color{brown}{\textbf{{Proof:}}} 反设 F\mathcal{F} 是 PAC 可学习的,取 ε<18, δ<18\varepsilon < \frac{1}{8}, \space \delta < \frac{1}{8},由 PAC 可学习的定义,存在正整数 mm,使得在任意分布 D\mathcal{D} 上独立同分布取得的包含 mm 个样本的训练数据 S\mathcal{S} 上,LD(hS)<εL_{\mathcal{D}}(h_{\mathcal{S}}) < \varepsilon 以大于 (1δ)(1 - \delta) 的概率成立,其中 hSh_{\mathcal{S}} 是学习算法在训练数据 S\mathcal{S} 上返回的假设. 但是应用 NFL 定理,由于 X>2m|\mathcal{X}| > 2m,对于该学习算法,存在一个分布 D\mathcal{D}',使得以大于 17>δ\frac{1}{7} > \delta 的概率,LD(hS)>18>εL_{\mathcal{D}}(h_{\mathcal{S}}) > \frac{1}{8} > \varepsilon 成立,这与假设矛盾,从而可知 F\mathcal{F} 不是 PAC 可学习的. \square

为避免上文所述的失败,我们可以利用特定学习任务的先验知识,这需要我们对假设的全体做一个有效的限制. 那么什么样的限制是有效的呢?一方面,我们希望最优的假设(LD(h)L_{\mathcal{D}}(h) 最小的 hh)在假设空间 H\mathcal{H} 中;另一方面,我们已经明晰不能选取给定样本空间上全体函数类作为假设空间. 在下一节,我们将对假设空间 H\mathcal{H} 的误差进行分解,从而对假设空间 H\mathcal{H} 的选取进行分析.

2.2 误差分解

我们首先将 ERMH\mathrm{ERM}_{\mathcal{H}} 的误差分解为两部分,设 hSh_{\mathcal{S}}ERMH\mathrm{ERM}_{\mathcal{H}} 在训练数据 S\mathcal{S} 上返回的假设,则:

LD(hS)=minhHLD(h)εapp+[LD(hS)minhHLD(h)]εest.\begin{equation} L_{\mathcal{D}}(h_{\mathcal{S}}) = \underbrace{\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h)}_{\varepsilon_{\mathrm{app}}} + \underbrace{\left[ L_{\mathcal{D}}(h_{\mathcal{S}}) - \min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) \right]}_{\varepsilon_{\mathrm{est}}}. \end{equation}

其中 εapp\varepsilon_{\mathrm{app}} 称为逼近误差,这一误差完全由假设空间 H\mathcal{H} 造成,是 H\mathcal{H} 中假设的泛化误差最小值,当假设空间扩增时,逼近误差减小;εest\varepsilon_{\mathrm{est}} 称为估计误差,这一误差是逼近误差与 ERMH\mathrm{ERM}_{\mathcal{H}} 返回的假设的泛化误差之间的差异,估计误差会随着训练数据集大小 mm 的增加而呈下降趋势.

我们的目标是使 LD(hS)L_{\mathcal{D}}(h_{\mathcal{S}}) 最小化,这使得我们面临着一个权衡:逼近误差—估计误差权衡:当选择一个较丰富的假设空间时,逼近误差减小,但估计误差增大,造成过拟合;当选择一个较简单的假设空间时,估计误差减小,但逼近误差增大,造成欠拟合. 因此,我们需要选取一个规模适中的假设空间 H\mathcal{H},从而平衡逼近误差与估计误差.

在《机器学习原理及算法001:PAC 学习理论(一)》中,我们提出 Bayes 假设是处理二分类问题的最优假设,因此 H\mathcal{H} 的一个好的选择是仅包含 Bayes 假设. 但由于样本空间的真实分布 D\mathcal{D} 未知,我们无法构造出 Bayes 假设.

学习理论的研究重点便是如何使得 H\mathcal{H} 足够丰富的同时保持合适的估计误差,这意味着我们着重研究对某个域选取一个“好”的假设空间. 这说明尽管我们不知道如何构造最优假设,但根据已有的先验知识,我们能有足够的信心构造出一个假设空间,其中包含优秀的假设. 回到木瓜的例子,尽管我们不知道最优的假设是什么,但我们知道使用矩形区域划分好吃与不好吃是一个很好的选择.

附录

A. 一些说明

  1. 满足一致收敛的假设空间又称 Glivenko-Cantelli 类,这是以科学家 Valery Ivanovich 和 Francesco Paolo Cantelli 来命名的,它们提出了一致收敛与可学习的关系. 在二分类问题中,一致收敛是可学习的充分必要条件,但在一般的学习问题中并非如此.
  2. Wolpert 和 Macready 从优化角度证明了 NFL 定理,这与本文证明的理论不同,但本文所证的定理为下一章的 VC 维理论提供了理论保障.
  3. 在一些文献中,εapp\varepsilon_{\mathrm{app}} 并非指代 minhHLD(h)\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h),而是指 minhHLD(h)εBayes\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) - \varepsilon_{\mathrm{Bayes}},其中 εBayes\varepsilon_{\mathrm{Bayes}} 是 Bayes 假设的泛化误差.