机器学习原理及算法002:PAC 学习理论(二)
Author: Rotch Date: 2025-09-26
1. 不可知 PAC 可学习的进一步探究
1.1 不可知 PAC 可学习的充分条件
我们回顾 E R M \mathrm{ERM} ERM 法则的工作方式:算法接受一个训练集 S \mathcal{S} S 并评估任意 h ∈ H h \in \mathcal{H} h ∈ H 的经验误差,最终输出经验误差最小的 h S h_{\mathcal{S}} h S . 我们希望 h S h_{\mathcal{S}} h S 的泛化误差也是 H \mathcal{H} H 中最小的(或充分接近最小的泛化误差),一个合理的想法是保证对任意 h ∈ H h \in \mathcal{H} h ∈ H ,其经验误差与泛化误差之间的差值是“一致接近”的,我们给出 ε \varepsilon ε -代表性样本的定义:
Def 2.1 ε -代表性样本: \color{blue}{\textbf{Def 2.1 }\mathbf{\varepsilon}\textbf{-代表性样本:}} Def 2.1 ε - 代表性样本: 对于给定的样本空间 X \mathcal{X} X ,标记空间 Y \mathcal{Y} Y ,假设空间 H \mathcal{H} H ,损失函数 l \mathscr{l} l 和联合分布 D \mathcal{D} D ,若训练集 S \mathcal{S} S 满足下述不等式:
∣ L S ( h ) − L D ( h ) ∣ ≤ ε , ∀ h ∈ H , \begin{equation}
| L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \varepsilon, \space \forall h \in \mathcal{H},
\end{equation} ∣ L S ( h ) − L D ( h ) ∣ ≤ ε , ∀ h ∈ H ,
则称训练集 S \mathcal{S} S 是(关于样本空间 X \mathcal{X} X ,标记空间 Y \mathcal{Y} Y ,假设空间 H \mathcal{H} H ,损失函数 l \mathscr{l} l 和联合分布 D \mathcal{D} D 的)ε \varepsilon ε -代表性样本 .
下面,我们说明只要训练集 S \mathcal{S} S 是 1 2 ε \frac{1}{2}\varepsilon 2 1 ε -代表性的,就可以保证 E R M \mathrm{ERM} ERM 法则返回一个近似正确的假设.
Thm 2.2: \color{blue}{\textbf{Thm 2.2:}} Thm 2.2 : 设训练集 S \mathcal{S} S 是(关于样本空间 X \mathcal{X} X ,标记空间 Y \mathcal{Y} Y ,假设空间 H \mathcal{H} H ,损失函数 l \mathscr{l} l 和联合分布 D \mathcal{D} D 的)1 2 ε \frac{1}{2}\varepsilon 2 1 ε -代表性样本,则对任意 h S ∈ arg min h ∈ H L S ( h ) h_{\mathcal{S}} \in \arg\min\limits_{h \in \mathcal{H}}L_{\mathcal{S}}(h) h S ∈ arg h ∈ H min L S ( h ) ,成立:
L D ( h S ) ≤ min h ∈ H L D ( h ) + ε . \begin{equation}
L_{\mathcal{D}}(h_{\mathcal{S}}) \leq \min\limits_{h \in \mathcal{H}}L_{\mathcal{D}}(h) + \varepsilon.
\end{equation} L D ( h S ) ≤ h ∈ H min L D ( h ) + ε .
Proof: \color{brown}{\textbf{{Proof:}}} Proof : 对任意 h ∈ H h \in \mathcal{H} h ∈ H ,成立:
L D ( h S ) ≤ L S ( h S ) + 1 2 ε ≤ L S ( h ) + 1 2 ε ≤ L D ( h ) + ε . \begin{equation}
L_{\mathcal{D}}(h_{\mathcal{S}}) \leq L_{\mathcal{S}}(h_{\mathcal{S}}) + \frac{1}{2}\varepsilon \leq L_{\mathcal{S}}(h) + \frac{1}{2}\varepsilon \leq L_{\mathcal{D}}(h) + \varepsilon.
\end{equation} L D ( h S ) ≤ L S ( h S ) + 2 1 ε ≤ L S ( h ) + 2 1 ε ≤ L D ( h ) + ε .
由 h h h 的任意性可知式 ( 2 ) (2) ( 2 ) 成立. □ \square □
根据 T h m 2.2 \mathrm{Thm 2.2} Thm2.2 ,如果我们能保证以至少 1 − δ 1 - \delta 1 − δ 的概率获得 1 2 ε \frac{1}{2}\varepsilon 2 1 ε -代表性的训练集 S \mathcal{S} S ,则 E R M \mathrm{ERM} ERM 法则是不可知 PAC 可学习的. 我们引入一致收敛条件来形式化上述过程.
Def 2.3 一致收敛: \color{blue}{\textbf{Def 2.3 一致收敛:}} Def 2.3 一致收敛: 记样本空间为 X \mathcal{X} X ,标记空间为 Y \mathcal{Y} Y ,损失函数为 l \mathscr{l} l ;设 H \mathcal{H} H 是一给定的假设空间,若存在函数 m H U C : ( 0 , 1 ) 2 → N m_{\mathcal{H}}^{\mathrm{UC}}: (0, \space 1)^2 \rightarrow \mathbb{N} m H UC : ( 0 , 1 ) 2 → N ,使得对任意 ε , δ ∈ ( 0 , 1 ) \varepsilon, \space \delta \in (0, \space 1) ε , δ ∈ ( 0 , 1 ) 及联合分布 D \mathcal{D} D ,满足任意从 D \mathcal{D} D 中独立同分布取得的训练集 S \mathcal{S} S 在 ∣ S ∣ ≥ m H U C ( ε , δ ) | \mathcal{S}| \geq m_{\mathcal{H}}^{\mathrm{UC}}(\varepsilon, \space \delta) ∣ S ∣ ≥ m H UC ( ε , δ ) 时以不小于 1 − δ 1 - \delta 1 − δ 的概率是 ε \varepsilon ε -代表性的,则称假设空间 H \mathcal{H} H 是一致收敛 的.
根据一致收敛的定义,我们给出如下定理:
Thm 2.4 不可知 PAC 可学习的充分条件: \color{blue}{\textbf{Thm 2.4 不可知 PAC 可学习的充分条件:}} Thm 2.4 不可知 PAC 可学习的充分条件: 若假设空间 H \mathcal{H} H 对函数 m H U C m_{\mathcal{H}}^{\mathrm{UC}} m H UC 是一致收敛的,那么假设空间 H \mathcal{H} H 是不可知 PAC 可学习的,且样本复杂度函数 m H m_{\mathcal{H}} m H 满足 m H ( ε , δ ) ≤ m H U C ( 1 2 ε , δ ) m_{\mathcal{H}}(\varepsilon, \space \delta) \leq m_{\mathcal{H}}^{\mathrm{UC}}(\frac{1}{2}\varepsilon, \space \delta) m H ( ε , δ ) ≤ m H UC ( 2 1 ε , δ ) .
1.2 有限假设空间是不可知 PAC 可学习的
在《机器学习原理及算法001:PAC 学习理论(一)》中,我们给出了“有限假设空间是不可知 PAC 可学习的”的定理. 为了文章的完整性,我们重新叙述该定理,并给出证明:
Thm 1.5’ 有限假设空间是不可知 PAC 可学习的: \color{blue}{\textbf{Thm 1.5' 有限假设空间是不可知 PAC 可学习的:}} Thm 1.5’ 有限假设空间是不可知 PAC 可学习的: 设假设空间 H \mathcal{H} H 是有限的,则假设空间 H \mathcal{H} H 是一致收敛的,从而是不可知 PAC 可学习的,且样本复杂度有上限 m H ( ε , δ ) ≤ 2 ( b − a ) 2 ln ( 2 ∣ H ∣ / δ ) ε 2 m_{\mathcal{H}}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2} m H ( ε , δ ) ≤ ε 2 2 ( b − a ) 2 l n ( 2∣ H ∣/ δ ) .
Proof: \color{brown}{\textbf{{Proof:}}} Proof : 固定 ε , δ \varepsilon, \space \delta ε , δ ,若能找到正整数 m m m ,使得从任意分布 D \mathcal{D} D 中独立同分布取得的 m m m 个点的训练集 S \mathcal{S} S 是 1 2 ε \frac{1}{2}\varepsilon 2 1 ε -代表性的,则命题得证. 形式上,要求:
P ( ∀ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ ≤ 1 2 ε ) ≥ 1 − δ , \begin{equation}
\mathbb{P}\left( \forall \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | \leq \frac{1}{2}\varepsilon \right) \geq 1 - \delta,
\end{equation} P ( ∀ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ ≤ 2 1 ε ) ≥ 1 − δ ,
这等价于:
P ( ∃ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ > 1 2 ε ) < δ . \begin{equation}
\mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) < \delta.
\end{equation} P ( ∃ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ > 2 1 ε ) < δ .
设损失函数 l ∈ [ a , b ] \mathscr{l} \in [a, \space b] l ∈ [ a , b ] ,由 Hoeffding 不等式,不难注意到不等式左边满足:
P ( ∃ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ > 1 2 ε ) ≤ 2 ∣ H ∣ ⋅ exp ( − m ε 2 2 ( b − a ) 2 ) . \begin{equation}
\mathbb{P}\left( \exist \space h \in \mathcal{H}, \space |L_{\mathcal{S}}(h) - L_{\mathcal{D}}(h) | > \frac{1}{2}\varepsilon \right) \leq 2 | \mathcal{H} | \cdot \exp(\frac{-m \varepsilon^2}{2(b - a)^2}).
\end{equation} P ( ∃ h ∈ H , ∣ L S ( h ) − L D ( h ) ∣ > 2 1 ε ) ≤ 2∣ H ∣ ⋅ exp ( 2 ( b − a ) 2 − m ε 2 ) .
令不等式右侧小于 δ \delta δ ,得:
m ≥ 2 ( b − a ) 2 ln ( 2 ∣ H ∣ / δ ) ε 2 . \begin{equation}
m \geq \frac{2 (b - a)^2 \ln(2 | \mathcal{H} | / \delta)}{\varepsilon^2}.
\end{equation} m ≥ ε 2 2 ( b − a ) 2 ln ( 2∣ H ∣/ δ ) .
于是有限假设空间 H \mathcal{H} H 是一致收敛的,从而是不可知 PAC 可学习的. □ \square □
1.3 离散化技巧
Thm 1.5 \text{Thm 1.5} Thm 1.5 仅适用于有限假设空间,对于无限假设空间,我们往往在实际应用中将其转化为有限假设空间. 例如,对于假设空间:
H 2 = { h θ : θ ∈ R , h θ ( x ) = s i g n ( x − θ ) } , \begin{equation}
\mathcal{H}_2 = \{h_{\theta} : \theta \in \mathbb{R}, \space h_{\theta}(x) = \mathrm{sign}(x - \theta) \},
\end{equation} H 2 = { h θ : θ ∈ R , h θ ( x ) = sign ( x − θ )} ,
其显然是无限的. 但在实际应用中,我们一般使用浮点数记录 θ \theta θ ,这使得 θ \theta θ 的可能取值数量为 2 64 2^{64} 2 64 . 从而有样本复杂度上限:
m H 2 ( ε , δ ) ≤ 2 ( b − a ) 2 [ 64 ln 2 + ln ( 2 / δ ) ] ε 2 . \begin{equation}
m_{\mathcal{H}_2}(\varepsilon, \space \delta) \leq \frac{2 (b - a)^2 [64 \ln2 + \ln(2 / \delta)]}{\varepsilon^2}.
\end{equation} m H 2 ( ε , δ ) ≤ ε 2 2 ( b − a ) 2 [ 64 ln 2 + ln ( 2/ δ )] .
这一上限是容易接受的,但其依赖于机器的精度. 在后面的章节中,我们会为无限假设空间引入新的样本复杂度估计方法,而离散化技巧可以用于对样本复杂度上限的粗略估计.
2. 假设空间的选取分析
2.1 没有免费的午餐定理
在前文中,我们指出了某些训练数据会导致学习算法过拟合. 为了克服该问题,我们提出了“将假设空间限制在一个给定的集合 H \mathcal{H} H 中”的思想. 例如,在木瓜的例子中,我们限制了假设空间是二维平面下的矩形. 在这一过程中,我们使用了“好吃的木瓜集中在一个近似矩形的区域内”的先验知识. 那么,这样的先验知识是否是必要的?是否存在一个不需要先验知识的通用的学习器,可以完成任何可学习的学习任务呢?下面的定理回答了这一问题
Thm 2.5 没有免费的午餐(No Free Lunch): \color{blue}{\textbf{Thm 2.5 没有免费的午餐(No Free Lunch): }} Thm 2.5 没有免费的午餐( No Free Lunch ) : 对样本空间 X \mathcal{X} X 上的 0 − 1 0-1 0 − 1 损失的二分任务,对任意学习算法 L \mathfrak{L} L 及正整数 m ≤ ∣ X ∣ 2 m \leq \frac{\vert \mathcal{X} \vert}{2} m ≤ 2 ∣ X ∣ ,存在 X × { 0 , 1 } \mathcal{X} \times \{0, \space 1\} X × { 0 , 1 } 上的一个分布 D \mathcal{D} D ,使得:
存在一个函数 f : X → { 0 , 1 } f: \mathcal{X} \rightarrow \{0, \space 1\} f : X → { 0 , 1 } 满足 L D ( f ) = 0 L_{\mathcal{D}}(f) = 0 L D ( f ) = 0 ;
在样本 S ∼ D m \mathcal{S} \sim \mathcal{D}^m S ∼ D m 上,L D ( L ( S ) ) ≥ 1 8 L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8} L D ( L ( S )) ≥ 8 1 的概率至少为 1 7 \frac{1}{7} 7 1 ,其中 L ( S ) \mathfrak{L}(\mathcal{S}) L ( S ) 表示学习算法 L \mathfrak{L} L 在训练集 S \mathcal{S} S 上返回的假设.
Proof: \color{brown}{\textbf{{Proof:}}} Proof : 首先,我们选取 X \mathcal{X} X 的一个大小为 2 m 2m 2 m 的子集 C C C ,这一选取的意义是仅在有限的条件下完成证明(等价于不妨设 X \mathcal{X} X 有限). 一个直观的想法是,任何只观测到空间 C C C 中一般样本的算法,都不具有足够的信息量来反映 C C C 中剩余样本的标签.
随后,我们给出 P [ L D ( L ( S ) ) ≥ 1 8 ] ≥ 1 7 \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7} P [ L D ( L ( S )) ≥ 8 1 ] ≥ 7 1 的一个充分条件:
E S ∼ D m [ L D ( L ( S ) ) ] ≥ 1 4 ⟹ P [ L D ( L ( S ) ) ≥ 1 8 ] ≥ 1 7 . \begin{equation}
\mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4} \implies \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7}.
\end{equation} E S ∼ D m [ L D ( L ( S ))] ≥ 4 1 ⟹ P [ L D ( L ( S )) ≥ 8 1 ] ≥ 7 1 .
我们反设 P [ L D ( L ( S ) ) ≥ 1 8 ] < 1 7 \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] < \frac{1}{7} P [ L D ( L ( S )) ≥ 8 1 ] < 7 1 ,则:
E S ∼ D m [ L D ( L ( S ) ] < 1 × P [ L D ( L ( S ) ) ≥ 1 8 ] + 1 8 P [ L D ( L ( S ) ) < 1 8 ] < 1 × 1 7 + 1 8 × ( 1 − 1 7 ) = 1 4 \begin{align}
\mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})] &< 1 \times \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] + \frac{1}{8} \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) < \frac{1}{8}] \nonumber \\
&< 1 \times \frac{1}{7} + \frac{1}{8} \times \left(1 - \frac{1}{7} \right) = \frac{1}{4}
\end{align} E S ∼ D m [ L D ( L ( S )] < 1 × P [ L D ( L ( S )) ≥ 8 1 ] + 8 1 P [ L D ( L ( S )) < 8 1 ] < 1 × 7 1 + 8 1 × ( 1 − 7 1 ) = 4 1
与式 ( 10 ) (10) ( 10 ) 矛盾,因此式 ( 10 ) (10) ( 10 ) 是 P [ L D ( L ( S ) ) ≥ 1 8 ] ≥ 1 7 \mathbb{P}[L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S})) \geq \frac{1}{8}] \geq \frac{1}{7} P [ L D ( L ( S )) ≥ 8 1 ] ≥ 7 1 的一个充分条件. 下面我们只需要证明,对任意学习算法 L \mathfrak{L} L ,其接受 C × { 0 , 1 } C \times \{0, \space 1\} C × { 0 , 1 } 上的规模为 m m m 的训练集 S \mathcal{S} S ,则存在一个函数 f : X → { 0 , 1 } f : \mathcal{X} \rightarrow \{0, \space 1\} f : X → { 0 , 1 } 和 X \mathcal{X} X 的一个分布 D \mathcal{D} D ,满足:
L D ( f ) = 0 , E S ∼ D m [ L D ( L ( S ) ) ] ≥ 1 4 . \begin{equation}
L_{\mathcal{D}}(f) = 0, \space \mathbb{E}_{\mathcal{S} \sim \mathcal{D}^m} [L_{\mathcal{D}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4}.
\end{equation} L D ( f ) = 0 , E S ∼ D m [ L D ( L ( S ))] ≥ 4 1 .
考虑从 C C C 到 { 0 , 1 } \{0, \space 1\} { 0 , 1 } 上的全部 T = 2 2 m T = 2^{2m} T = 2 2 m 个函数,记为 f 1 , f 2 , … , f T f_1, \space f_2, \space \dots, \space f_T f 1 , f 2 , … , f T . 对于每个函数 f i f_i f i ,定义 D x \mathcal{D}_{\boldsymbol{x}} D x 为 C C C 上的均匀分布(即:D x ( x ) = 1 ∣ C ∣ \mathcal{D}_{\boldsymbol{x}}(\boldsymbol{x}) = \frac{1}{|C|} D x ( x ) = ∣ C ∣ 1 )及 C × { 0 , 1 } C \times \{0, \space 1\} C × { 0 , 1 } 上的分布:
D y ∣ x ( i ) [ ( x , y ) ] = I [ f i ( x ) = y ] , D ( i ) = D y ∣ x ( i ) × D x . \begin{equation}
\mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)}[(\boldsymbol{x}, \space y)] = \mathbb{I}[f_i(\boldsymbol{x}) = y], \space \mathcal{D}^{(i)} = \mathcal{D}_{\space y \mid \boldsymbol{x}}^{(i)} \times \mathcal{D}_{\boldsymbol{x}}.
\end{equation} D y ∣ x ( i ) [( x , y )] = I [ f i ( x ) = y ] , D ( i ) = D y ∣ x ( i ) × D x .
换言之,从 C × { 0 , 1 } C \times \{0, \space 1\} C × { 0 , 1 } 中任选一对 ( x , y ) (\boldsymbol{x}, \space y) ( x , y ) ,取到各 x \boldsymbol{x} x 的概率均等,对于取定的 x \boldsymbol{x} x ,一定成立 y = f i ( x ) y = f_i(\boldsymbol{x}) y = f i ( x ) . 因此有 L D ( i ) ( f i ) = 0 L_{\mathcal{D}^{(i)}}(f_i) = 0 L D ( i ) ( f i ) = 0 ,于是对式 ( 12 ) (12) ( 12 ) 的证明可转换为证明下式成立:
max i ∈ [ T ] E S ∼ [ D ( i ) ] m [ L D ( i ) ( L ( S ) ) ] ≥ 1 4 \begin{equation}
\max\limits_{i \in [T]} \mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] \geq \frac{1}{4}
\end{equation} i ∈ [ T ] max E S ∼ [ D ( i ) ] m [ L D ( i ) ( L ( S ))] ≥ 4 1
对于大小为 m m m 的训练集 S ∣ x ⊂ C \mathcal{S}|_{\boldsymbol{x}} \subset C S ∣ x ⊂ C ,共计有 K = ( 2 m ) m K = (2m)^{m} K = ( 2 m ) m 种取法,分别记为 S 1 , S 2 , … , S K \mathcal{S}_1, \space \mathcal{S}_2, \space \dots, \space \mathcal{S}_K S 1 , S 2 , … , S K . 对于 S j = { x 1 , x 2 , … , x m } \mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \} S j = { x 1 , x 2 , … , x m } ,记 S j ( i ) = { ( x 1 , f i ( x 1 ) ) , ( x 2 , f i ( x 2 ) ) , … , ( x m , f i ( x m ) ) } S_j^{(i)} = \{ (\boldsymbol{x}_1, f_i(\boldsymbol{x}_1)), \space (\boldsymbol{x}_2, f_i(\boldsymbol{x}_2)), \space \dots, \space (\boldsymbol{x}_m, f_i(\boldsymbol{x}_m))\} S j ( i ) = {( x 1 , f i ( x 1 )) , ( x 2 , f i ( x 2 )) , … , ( x m , f i ( x m ))} . 设分布为 D i \mathcal{D}_i D i ,则学习算法 L \mathfrak{L} L 可能接受到的训练集为 S 1 ( i ) , S 2 ( i ) , … , S K ( i ) \mathcal{S}_1^{(i)}, \space \mathcal{S}_2^{(i)}, \space \dots, \space \mathcal{S}_K^{(i)} S 1 ( i ) , S 2 ( i ) , … , S K ( i ) ,且所有训练集取到的概率均等,于是有:
E S ∼ [ D ( i ) ] m [ L D ( i ) ( L ( S ) ) ] = 1 k ∑ j = 1 k L D ( i ) [ L ( S j ( i ) ) ] . \begin{equation}
\mathbb{E}_{\mathcal{S} \sim [\mathcal{D}^{(i)}]^m} [L_{\mathcal{D}^{(i)}}(\mathfrak{L}(\mathcal{S}))] = \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right].
\end{equation} E S ∼ [ D ( i ) ] m [ L D ( i ) ( L ( S ))] = k 1 j = 1 ∑ k L D ( i ) [ L ( S j ( i ) ) ] .
考虑所有 i ∈ [ T ] i \in [T] i ∈ [ T ] ,由最大值大于平均值,平均值大于最小值的基本原理,有:
max i ∈ [ T ] 1 k ∑ j = 1 k L D ( i ) [ L ( S j ( i ) ) ] ≥ 1 T ∑ i = 1 T 1 k ∑ j = 1 k L D ( i ) [ L ( S j ( i ) ) ] = 1 k ∑ j = 1 k 1 T ∑ i = 1 T L D ( i ) [ L ( S j ( i ) ) ] ≥ min j ∈ [ K ] 1 T ∑ i = 1 T L D ( i ) [ L ( S j ( i ) ) ] . \begin{align}
\max\limits_{i \in [T]} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{k} \sum\limits_{j = 1}^{k} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\
&= \frac{1}{k} \sum\limits_{j = 1}^{k} \frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] \nonumber \\
& \geq \min\limits_{j \in [K]}\frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right].
\end{align} i ∈ [ T ] max k 1 j = 1 ∑ k L D ( i ) [ L ( S j ( i ) ) ] ≥ T 1 i = 1 ∑ T k 1 j = 1 ∑ k L D ( i ) [ L ( S j ( i ) ) ] = k 1 j = 1 ∑ k T 1 i = 1 ∑ T L D ( i ) [ L ( S j ( i ) ) ] ≥ j ∈ [ K ] min T 1 i = 1 ∑ T L D ( i ) [ L ( S j ( i ) ) ] .
固定某个 j ∈ [ K ] j \in [K] j ∈ [ K ] ,设 S j = { x 1 , x 2 , … , x m } \mathcal{S}_j = \{ \boldsymbol{x}_1, \space \boldsymbol{x}_2, \space \dots, \space \boldsymbol{x}_m \} S j = { x 1 , x 2 , … , x m } ,记 C ∖ S j = { v 1 , v 2 , … , v p } C \setminus \mathcal{S}_j = \{\boldsymbol{v}_1, \space \boldsymbol{v}_2, \space \dots, \space \boldsymbol{v}_p \} C ∖ S j = { v 1 , v 2 , … , v p } ,显然 p ≥ m p \geq m p ≥ m . 因此,对每个函数 h : C → { 0 , 1 } h : C \rightarrow \{0, \space 1\} h : C → { 0 , 1 } 和每个 i ∈ [ T ] i \in [T] i ∈ [ T ] ,有:
L D ( i ) ( h ) = 1 2 m ∑ x ∈ C I [ h ( x ) ≠ f i ( x ) ] ≥ 1 2 m ∑ r = 1 p I [ h ( v r ) ≠ f i ( v r ) ] ≥ 1 2 p ∑ r = 1 p I [ h ( v r ) ≠ f i ( v r ) ] . \begin{align}
L_{\mathcal{D}^{(i)}}(h) &= \frac{1}{2m} \sum\limits_{\boldsymbol{x} \in C} \mathbb{I}[h(\boldsymbol{x}) \not= f_i(\boldsymbol{x})] \nonumber \\
&\geq \frac{1}{2m} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] \nonumber \\
&\geq \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}[h(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)].
\end{align} L D ( i ) ( h ) = 2 m 1 x ∈ C ∑ I [ h ( x ) = f i ( x )] ≥ 2 m 1 r = 1 ∑ p I [ h ( v r ) = f i ( v r )] ≥ 2 p 1 r = 1 ∑ p I [ h ( v r ) = f i ( v r )] .
因此有:
1 T ∑ i = 1 T L D ( i ) [ L ( S j ( i ) ) ] ≥ 1 T ∑ i = 1 T 1 2 p ∑ r = 1 p I [ L ( S j ( i ) ) ( v r ) ≠ f i ( v r ) ] = 1 2 p ∑ r = 1 p 1 T ∑ i = 1 T I [ L ( S j ( i ) ) ( v r ) ≠ f i ( v r ) ] ≥ 1 2 min r ∈ [ p ] 1 T ∑ i = 1 T I [ L ( S j ( i ) ) ( v r ) ≠ f i ( v r ) ] . \begin{align}
\frac{1}{T} \sum\limits_{i = 1}^{T} L_{\mathcal{D}^{(i)}} \left[ \mathfrak{L}\left(S_j^{(i)}\right) \right] &\geq \frac{1}{T} \sum\limits_{i = 1}^{T} \frac{1}{2p} \sum\limits_{r = 1}^{p} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\
&= \frac{1}{2p} \sum\limits_{r = 1}^{p} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] \nonumber \\
&\geq \frac{1}{2} \min\limits_{r \in [p]} \frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right].
\end{align} T 1 i = 1 ∑ T L D ( i ) [ L ( S j ( i ) ) ] ≥ T 1 i = 1 ∑ T 2 p 1 r = 1 ∑ p I [ L ( S j ( i ) ) ( v r ) = f i ( v r ) ] = 2 p 1 r = 1 ∑ p T 1 i = 1 ∑ T I [ L ( S j ( i ) ) ( v r ) = f i ( v r ) ] ≥ 2 1 r ∈ [ p ] min T 1 i = 1 ∑ T I [ L ( S j ( i ) ) ( v r ) = f i ( v r ) ] .
固定某个 r ∈ [ p ] r \in [p] r ∈ [ p ] ,我们可以将 f 1 , f 2 , … , f T f_1, \space f_2, \space \dots, \space f_T f 1 , f 2 , … , f T 分为 T 2 \frac{T}{2} 2 T 组不相交的函数,即对每对 ( f i , f i ′ ) (f_i, \space f_{i'}) ( f i , f i ′ ) 满足 f i ( c ) ≠ f i ′ ( c ) f_i(\boldsymbol{c}) \not= f_{i'}(\boldsymbol{c}) f i ( c ) = f i ′ ( c ) 当且仅当 c = v r \boldsymbol{c} = \boldsymbol{v}_r c = v r . 又由于对每对函数,一定有 S j ( i ) = S j ( i ′ ) S_j^{(i)} = S_j^{(i')} S j ( i ) = S j ( i ′ ) ,且:
I [ L ( S j ( i ) ) ( v r ) ≠ f i ( v r ) ] + I [ L ( S j ( i ′ ) ) ( v r ) ≠ f i ( v r ) ] = 1 , \begin{equation}
\mathbb{I}\left[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] + \mathbb{I}\left[\mathfrak{L}\left(S_j^{(i')}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)\right] = 1,
\end{equation} I [ L ( S j ( i ) ) ( v r ) = f i ( v r ) ] + I [ L ( S j ( i ′ ) ) ( v r ) = f i ( v r ) ] = 1 ,
因此有:
1 T ∑ i = 1 T I [ L ( S j ( i ) ) ( v r ) ≠ f i ( v r ) ] = 1 2 . \begin{equation}
\frac{1}{T} \sum\limits_{i = 1}^{T} \mathbb{I}[\mathfrak{L}\left(S_j^{(i)}\right)(\boldsymbol{v}_r) \not= f_i(\boldsymbol{v}_r)] = \frac{1}{2}.
\end{equation} T 1 i = 1 ∑ T I [ L ( S j ( i ) ) ( v r ) = f i ( v r )] = 2 1 .
联合式子 ( 15 ) ∼ ( 20 ) (15) \sim (20) ( 15 ) ∼ ( 20 ) ,可知式 ( 14 ) (14) ( 14 ) 成立,定理得证. □ \square □
上述定理说明,对于任意学习算法,都存在一个学习任务使其失败,即便这个学习任务可以被另一个学习算法成功学习. 从另一个角度描述,考虑 F = { h : h : X → { 0 , 1 } } \mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \} F = { h : h : X → { 0 , 1 }} ,即从 X \mathcal{X} X 到 { 0 , 1 } \{0, \space 1\} { 0 , 1 } 的全体映射,易知 F \mathcal{F} F 是没有任何先验知识的,则对任何学习算法,都存在某一个学习任务使得学习算法根据 F \mathcal{F} F 返回的假设是失败的. 形式上,我们给出如下定理:
Cor 2.6: \color{blue}{\textbf{Cor 2.6: }} Cor 2.6: 令 X \mathcal{X} X 为无限样本空间,F = { h : h : X → { 0 , 1 } } \mathcal{F} = \{h : h : \mathcal{X} \rightarrow \{0, \space 1\} \} F = { h : h : X → { 0 , 1 }} ,则 F \mathcal{F} F 不是 PAC 可学习的.
Proof: \color{brown}{\textbf{{Proof:}}} Proof : 反设 F \mathcal{F} F 是 PAC 可学习的,取 ε < 1 8 , δ < 1 8 \varepsilon < \frac{1}{8}, \space \delta < \frac{1}{8} ε < 8 1 , δ < 8 1 ,由 PAC 可学习的定义,存在正整数 m m m ,使得在任意分布 D \mathcal{D} D 上独立同分布取得的包含 m m m 个样本的训练数据 S \mathcal{S} S 上,L D ( h S ) < ε L_{\mathcal{D}}(h_{\mathcal{S}}) < \varepsilon L D ( h S ) < ε 以大于 ( 1 − δ ) (1 - \delta) ( 1 − δ ) 的概率成立,其中 h S h_{\mathcal{S}} h S 是学习算法在训练数据 S \mathcal{S} S 上返回的假设. 但是应用 NFL 定理,由于 ∣ X ∣ > 2 m |\mathcal{X}| > 2m ∣ X ∣ > 2 m ,对于该学习算法,存在一个分布 D ′ \mathcal{D}' D ′ ,使得以大于 1 7 > δ \frac{1}{7} > \delta 7 1 > δ 的概率,L D ( h S ) > 1 8 > ε L_{\mathcal{D}}(h_{\mathcal{S}}) > \frac{1}{8} > \varepsilon L D ( h S ) > 8 1 > ε 成立,这与假设矛盾,从而可知 F \mathcal{F} F 不是 PAC 可学习的. □ \square □
为避免上文所述的失败,我们可以利用特定学习任务的先验知识,这需要我们对假设的全体做一个有效的限制. 那么什么样的限制是有效的呢?一方面,我们希望最优的假设(L D ( h ) L_{\mathcal{D}}(h) L D ( h ) 最小的 h h h )在假设空间 H \mathcal{H} H 中;另一方面,我们已经明晰不能选取给定样本空间上全体函数类作为假设空间. 在下一节,我们将对假设空间 H \mathcal{H} H 的误差进行分解,从而对假设空间 H \mathcal{H} H 的选取进行分析.
2.2 误差分解
我们首先将 E R M H \mathrm{ERM}_{\mathcal{H}} ERM H 的误差分解为两部分,设 h S h_{\mathcal{S}} h S 是 E R M H \mathrm{ERM}_{\mathcal{H}} ERM H 在训练数据 S \mathcal{S} S 上返回的假设,则:
L D ( h S ) = min h ∈ H L D ( h ) ⏟ ε a p p + [ L D ( h S ) − min h ∈ H L D ( h ) ] ⏟ ε e s t . \begin{equation}
L_{\mathcal{D}}(h_{\mathcal{S}}) = \underbrace{\min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h)}_{\varepsilon_{\mathrm{app}}} + \underbrace{\left[ L_{\mathcal{D}}(h_{\mathcal{S}}) - \min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) \right]}_{\varepsilon_{\mathrm{est}}}.
\end{equation} L D ( h S ) = ε app h ∈ H min L D ( h ) + ε est [ L D ( h S ) − h ∈ H min L D ( h ) ] .
其中 ε a p p \varepsilon_{\mathrm{app}} ε app 称为逼近误差 ,这一误差完全由假设空间 H \mathcal{H} H 造成,是 H \mathcal{H} H 中假设的泛化误差最小值,当假设空间扩增时,逼近误差减小;ε e s t \varepsilon_{\mathrm{est}} ε est 称为估计误差 ,这一误差是逼近误差与 E R M H \mathrm{ERM}_{\mathcal{H}} ERM H 返回的假设的泛化误差之间的差异,估计误差会随着训练数据集大小 m m m 的增加而呈下降趋势.
我们的目标是使 L D ( h S ) L_{\mathcal{D}}(h_{\mathcal{S}}) L D ( h S ) 最小化,这使得我们面临着一个权衡:逼近误差—估计误差权衡 :当选择一个较丰富的假设空间时,逼近误差减小,但估计误差增大,造成过拟合;当选择一个较简单的假设空间时,估计误差减小,但逼近误差增大,造成欠拟合. 因此,我们需要选取一个规模适中的假设空间 H \mathcal{H} H ,从而平衡逼近误差与估计误差.
在《机器学习原理及算法001:PAC 学习理论(一)》中,我们提出 Bayes 假设是处理二分类问题的最优假设,因此 H \mathcal{H} H 的一个好的选择是仅包含 Bayes 假设. 但由于样本空间的真实分布 D \mathcal{D} D 未知,我们无法构造出 Bayes 假设.
学习理论的研究重点便是如何使得 H \mathcal{H} H 足够丰富的同时保持合适的估计误差,这意味着我们着重研究对某个域选取一个“好”的假设空间. 这说明尽管我们不知道如何构造最优假设,但根据已有的先验知识,我们能有足够的信心构造出一个假设空间,其中包含优秀的假设. 回到木瓜的例子,尽管我们不知道最优的假设是什么,但我们知道使用矩形区域划分好吃与不好吃是一个很好的选择.
附录
A. 一些说明
满足一致收敛的假设空间又称 Glivenko-Cantelli 类,这是以科学家 Valery Ivanovich 和 Francesco Paolo Cantelli 来命名的,它们提出了一致收敛与可学习的关系. 在二分类问题中,一致收敛是可学习的充分必要条件,但在一般的学习问题中并非如此.
Wolpert 和 Macready 从优化角度证明了 NFL 定理,这与本文证明的理论不同,但本文所证的定理为下一章的 VC 维理论提供了理论保障.
在一些文献中,ε a p p \varepsilon_{\mathrm{app}} ε app 并非指代 min h ∈ H L D ( h ) \min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) h ∈ H min L D ( h ) ,而是指 min h ∈ H L D ( h ) − ε B a y e s \min\limits_{h \in \mathcal{H}} L_{\mathcal{D}}(h) - \varepsilon_{\mathrm{Bayes}} h ∈ H min L D ( h ) − ε Bayes ,其中 ε B a y e s \varepsilon_{\mathrm{Bayes}} ε Bayes 是 Bayes 假设的泛化误差.