从零开始学AI——12

44 阅读10分钟

前言

好热好热好热

第十二章

本章比较理论,主要说的是凭什么相信机器学习,他为什么能给出一个好的结果:本质是研究泛化误差问题

12.1 基础知识

我们先假设有一个样本集D={(x1,y1),,(xm,ym)}D =\{(x_{1},y_{1}),\dots,(x_{m},y_{m})\},其中所有样本都是独立同分布地从分布D\mathcal{D}中采样得到的。这里每个xix_{i}属于输入空间X\mathcal{X},每个yiy_{i}属于输出空间Y\mathcal{Y}。在接下来的讨论中,如果没有特别说明,我们默认研究的是二分类问题

通过机器学习算法,我们得到了一个学习器hh,它实际上是一个从输入空间到输出空间的映射,即h:XYh:\mathcal{X}\to \mathcal{Y}。这个学习器的泛化误差定义为:

E(h;D)=PxD(h(x)y)E(h;\mathcal{D})=P_{x\sim \mathcal{D}}(h(x)\neq y)

这个式子表示当输入xx服从分布D\mathcal{D}时,学习器hh预测错误的概率。

同时,基于我们已有的样本集DD,可以计算出经验误差(也称为训练误差):

E^(h;D)=1mi=1mI(h(xi)yi)\hat{E}(h;\mathcal{D})=\frac{1}{m}\sum_{i=1}^{m}\mathbb{I}(h(x_{i})\neq y_{i})

这里I()\mathbb{I}(\cdot)是指示函数,当括号内条件成立时取值为1,否则为0。由于样本集DD是从D\mathcal{D}中独立同分布采样得到的,因此经验误差的期望等于泛化误差。当上下文明确时,我们可以省略误差表示中的D\mathcal{D}

上述内容我们应该是很熟悉的了。现在需要明确的是,我们不期望学习到的模型hh能够完全匹配宇宙中客观存在的完美真理函数cc(也称概念concept)。我们只要求hhcc之间的误差率足够小,具体来说就是要求泛化误差不超过一个预先设定的很小正值ϵ\epsilon,即满足E(h)ϵE(h)\leq\epsilon。 对于模型hh在样本集DD上的表现,如果经验误差E^(h;D)=0\hat{E}(h;D)=0,我们就说hhDD一致;否则称为不一致。此外,对于任意两个模型h1h_{1}h2h_{2},我们可以通过定义它们的不合度来衡量它们之间的差异:

d(h1,h2)=PxD(h1(x)h2(x))d(h_{1},h_{2})=P_{x\sim \mathcal{D}}(h_{1}(x)\neq h_{2}(x))

这个不合度度量了两个模型在分布D\mathcal{D}下产生不同预测的概率。

接下来,我们引入几个常用的不等式:

不想纠结证明的朋友可以只记结论

Jensen不等式:设f(x)f(x)是任意凸函数,则有 f(E(x))E(f(x))f(\mathbb{E}(x))\leq \mathbb{E}(f(x)) 对于一个凸函数f(x)f(x),找一个特殊点μ=E(x)\mu=\mathbb{E}(x)。根据凸函数的定义,在点μ\mu处存在一条支撑线(支撑超平面),使得对于所有xx,都有: f(x)f(μ)+c(xμ)f(x) \ge f(\mu) + c(x - \mu) 其中cc是支撑线在μ\mu处的斜率。对上述不等式两边同时取数学期望: E[f(x)]E[f(μ)+c(xμ)]\mathbb{E}[f(x)] \ge \mathbb{E}[f(\mu) + c(x - \mu)] 将右边展开:

  1. 第一项f(μ)f(\mu)是常数,其期望就是它本身:E[f(μ)]=f(μ)=f(E[x])\mathbb{E}[f(\mu)]=f(\mu)=f(\mathbb{E}[x])
  2. 第二项c(xμ)c(x-\mu)可以分解为: E[c(xμ)]=cE[xμ]=c(E[x]μ)=c(μμ)=0\mathbb{E}[c(x - \mu)] = c\mathbb{E}[x - \mu] = c(\mathbb{E}[x] - \mu) = c(\mu - \mu) = 0

因此不等式右边简化为f(E[x])f(\mathbb{E}[x]),从而得到: E[f(x)]f(E[x])\mathbb{E}[f(x)] \ge f(\mathbb{E}[x]) 证毕。 Hoeffding不等式:设x1,x2,,xmx_{1},x_{2},\dots,x_{m}mm个独立随机变量,且满足xi[0,1]x_{i}\in[0,1],则对于任意ϵ>0\epsilon>0,有

P(1mi=1mxi1mi=1mE[xi]ϵ)exp(2mϵ2)P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2m\epsilon^2)

同时

P(1mi=1mxi1mi=1mE[xi]ϵ)2exp(2mϵ2)P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2\exp(-2m\epsilon^2)

首先考虑第一个不等式。令Sm=i=1mxiS_{m}=\sum_{i=1}^{m}x_{i},将不等式改写为:

P(SmmE[Sm]mϵ)exp(2mϵ2)P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \exp(-2m\epsilon^2)

对不等式左边进行如下变形:

P(SmmE[Sm]mϵ)=P(SmE[Sm]mϵ)=P(es(SmE[Sm])esmϵ)E[es(SmE[Sm])]esmϵ\begin{align} &P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \\ &=P\left(S_{m} - \mathbb{E}[S_m] \ge m\epsilon\right) \\ &=P\left(e^{s(S_m - \mathbb{E}[S_m])} \ge e^{sm\epsilon}\right) \\ &\leq \frac{\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]}{e^{sm\epsilon}} \end{align}

其中:

  • 第二步引入了任意正数s>0s>0,这是为了后续应用马尔可夫不等式做准备。
  • 第三步应用了马尔可夫不等式:对于非负随机变量Y=es(SmE[Sm])Y = e^{s(S_m - \mathbb{E}[S_m])},有P(Ya)E[Y]aP(Y \ge a) \le \frac{\mathbb{E}[Y]}{a}

接下来处理分子部分E[es(SmE[Sm])]\mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}]。设zi=xiE[xi]z_i = x_i - \mathbb{E}[x_i],则SmE[Sm]=i=1mziS_m - \mathbb{E}[S_m] = \sum_{i=1}^m z_i。由于xix_i相互独立,ziz_i也相互独立,因此:

E[es(SmE[Sm])]=E[esi=1mzi]=i=1mE[eszi]\begin{align} \mathbb{E}[e^{s(S_m - \mathbb{E}[S_m])}] &= \mathbb{E}[e^{s \sum_{i=1}^m z_i}] \\ &= \prod_{i=1}^m \mathbb{E}[e^{s z_i}] \end{align}

为了给出E[eszi]\mathbb{E}[e^{s z_i}]的上界,我们使用Hoeffding引理: 若随机变量ZZ满足E[Z]=0\mathbb{E}[Z]=0Z[a,b]Z \in [a, b],则对于任意s>0s>0,有:

E[esZ]exp(s2(ba)28)\mathbb{E}[e^{sZ}] \le \exp\left(\frac{s^2(b-a)^2}{8}\right)

对于zi=xiE[xi]z_i = x_i - \mathbb{E}[x_i],由于xi[0,1]x_i \in [0,1],可得zi[E[xi],1E[xi]]z_i \in [-\mathbb{E}[x_i], 1-\mathbb{E}[x_i]],区间长度为11,且E[zi]=0\mathbb{E}[z_i]=0。因此,应用Hoeffding引理得到:

E[eszi]exp(s28)\mathbb{E}[e^{s z_i}] \le \exp\left(\frac{s^2}{8}\right)

将其代回分子部分:

i=1mE[eszi]i=1mexp(s28)=exp(ms28)\prod_{i=1}^m \mathbb{E}[e^{s z_i}] \le \prod_{i=1}^m \exp\left(\frac{s^2}{8}\right) = \exp\left(\frac{m s^2}{8}\right)

于是不等式变为:

P(SmmE[Sm]mϵ)exp(ms28)esmϵ=exp(ms28smϵ)P\left(\frac{S_m}{m} - \frac{\mathbb{E}[S_m]}{m} \ge \epsilon\right) \le \frac{\exp\left(\frac{m s^2}{8}\right)}{e^{s m \epsilon}} = \exp\left(\frac{m s^2}{8} - s m \epsilon\right)

由于该不等式对所有s>0s>0成立,我们选择ss使得右侧指数最小。对s28sϵ\frac{s^2}{8} - s \epsilon关于ss求导并令导数为零,得到最优s=4ϵs=4\epsilon。将其代入,得到最小上界:

exp(m(4ϵ)284ϵmϵ)=exp(2mϵ2)\exp\left(\frac{m (4\epsilon)^2}{8} - 4\epsilon m \epsilon\right) = \exp(-2 m \epsilon^2)

因此:

P(1mi=1mxi1mi=1mE[xi]ϵ)exp(2mϵ2)P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) \le \exp(-2 m \epsilon^2)

证明第二个不等式

对于绝对值形式的不等式,可以将其拆分为两个事件:

{1mi=1mxi1mi=1mE[xi]ϵ}={1mi=1mxi1mi=1mE[xi]ϵ}{1mi=1mxi1mi=1mE[xi]ϵ}\left\{ \left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon \right\} = \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon \right\} \cup \left\{ \frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \le -\epsilon \right\}

由概率的并集不等式P(AB)P(A)+P(B)P(A \cup B) \le P(A) + P(B),有:

P(1mi=1mxi1mi=1mE[xi]ϵ)P(1mi=1mxi1mi=1mE[xi]ϵ)+P(1mi=1mE[xi]1mi=1mxiϵ)P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le P\left(\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] \ge \epsilon\right) + P\left(\frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i] - \frac{1}{m}\sum_{i=1}^m x_i \ge \epsilon\right)

第一项的上界已证明为exp(2mϵ2)\exp(-2 m \epsilon^2)。对于第二项,可以通过变量替换xixix_i \to -x_i,由于xi[0,1]x_i \in [0,1]的性质和独立性保持不变,其概率上界同样为exp(2mϵ2)\exp(-2 m \epsilon^2)。因此:

P(1mi=1mxi1mi=1mE[xi]ϵ)2exp(2mϵ2)P\left(\left|\frac{1}{m}\sum_{i=1}^m x_i - \frac{1}{m}\sum_{i=1}^m \mathbb{E}[x_i]\right| \ge \epsilon\right) \le 2 \exp(-2 m \epsilon^2)

证毕。 McDiarmid不等式

x1,x2,,xmx_1, x_2, \ldots, x_mmm独立的随机变量,若函数 ff 满足:对于任意 1im1 \leqslant i \leqslant m 和任意的 x1,,xm,xix_1, \ldots, x_m, x_i',都有

f(x1,,xm)f(x1,,xi1,xi,xi+1,,xm)ci,\left| f(x_1, \ldots, x_m) - f(x_1, \ldots, x_{i-1}, x_i', x_{i+1}, \ldots, x_m) \right| \leqslant c_i,

这意味着当只改变第 ii 个输入变量时,函数值的变化幅度不超过 cic_i。那么对于任意 ϵ>0\epsilon > 0,有

P(f(x1,,xm)E[f(x1,,xm)]ϵ)exp(2ϵ2i=1mci2),P \left( f(x_1, \ldots, x_m) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \geqslant \epsilon \right) \leqslant \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right),

以及

P(f(x1,,xm)E[f(x1,,xm)]ϵ)2exp(2ϵ2i=1mci2).P \left( \left| f\left( x_1, \ldots, x_m \right) - \mathbb{E} \left[ f(x_1, \ldots, x_m) \right] \right| \geqslant \epsilon \right) \leqslant 2 \exp \left( \frac{ -2\epsilon^2 }{ \sum_{i=1}^m c_i^2 } \right).

为了简化书写,记 X=(x1,,xm)X = (x_1, \ldots, x_m),并定义 Z=f(X)E[f(X)]Z = f(X) - \mathbb{E}[f(X)]。我们引入条件期望的记号:Ei[]\mathbb{E}_i[\cdot] 表示对变量 {xi,xi+1,,xm}\{x_i, x_{i+1}, \ldots, x_m\} 取期望,而将 {x1,,xi1}\{x_1, \ldots, x_{i-1}\} 视为固定值。定义

Vi=E[f(X)x1,,xi],V_i = \mathbb{E}[f(X) | x_1, \ldots, x_i],

这是一个仅依赖于前 ii 个变量的函数。特别地:

  • Vm=E[f(X)x1,,xm]=f(X)V_m = \mathbb{E}[f(X) | x_1, \ldots, x_m] = f(X)
  • V0=E[f(X)]V_0 = \mathbb{E}[f(X)]

于是,ZZ 可以表示为:

Z=VmV0=i=1m(ViVi1).Z = V_m - V_0 = \sum_{i=1}^m (V_i - V_{i-1}).

Yi=ViVi1Y_i = V_i - V_{i-1},则 Z=i=1mYiZ = \sum_{i=1}^m Y_i。接下来,我们采用切诺夫界的方法:对于任意 λ>0\lambda > 0,有

P(Zϵ)eλϵE[eλZ]=eλϵE[exp(λi=1mYi)].P(Z \geqslant \epsilon) \leqslant e^{-\lambda \epsilon} \mathbb{E}[e^{\lambda Z}] = e^{-\lambda \epsilon} \mathbb{E}\left[\exp\left(\lambda \sum_{i=1}^m Y_i\right)\right].

切诺夫界方法:对于随机变量 ZZ,通过引入参数 λ>0\lambda > 0,利用马尔可夫不等式可得: P(Zϵ)=P(eλZeλϵ)E[eλZ]eλϵ.P(Z \geqslant \epsilon) = P(e^{\lambda Z} \geqslant e^{\lambda \epsilon}) \leqslant \frac{\mathbb{E}[e^{\lambda Z}]}{e^{\lambda \epsilon}}.

接下来计算 E[eλZ]\mathbb{E}[e^{\lambda Z}]。根据塔定律(条件期望的迭代性质),可以逐步对变量取条件期望。首先:

E[eλi=1mYi]=E[E[eλi=1mYix1,,xm1]].\mathbb{E}[e^{\lambda \sum_{i=1}^m Y_i}] = \mathbb{E}\left[ \mathbb{E}\left[ e^{\lambda \sum_{i=1}^m Y_i} | x_1, \ldots, x_{m-1} \right] \right].

在内层条件期望中,x1,,xm1x_1, \ldots, x_{m-1} 是固定的,因此 Y1,,Ym1Y_1, \ldots, Y_{m-1} 是常数,可以提出:

E[eλi=1m1YieλYmx1,,xm1]=eλi=1m1YiE[eλYmx1,,xm1].\mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] = e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right].

将其代回外层期望,得到:

E[eλZ]=E[eλi=1m1YiE[eλYmx1,,xm1]].\mathbb{E}[e^{\lambda Z}] = \mathbb{E}\left[ e^{\lambda \sum_{i=1}^{m-1} Y_i} \cdot \mathbb{E}\left[ e^{\lambda Y_m} | x_1, \ldots, x_{m-1} \right] \right].

重复这一过程,逐步对 Ym1,Ym2,,Y1Y_{m-1}, Y_{m-2}, \ldots, Y_1 取条件期望,最终只需考虑:

E[eλYix1,,xi1].\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right].

为了对上式进行界估计,我们使用Hoeffding引理。首先验证 YiY_i 的条件:

  1. 零均值性
    E[Yix1,,xi1]=E[Vix1,,xi1]Vi1=Vi1Vi1=0.\mathbb{E}[Y_i | x_1, \ldots, x_{i-1}] = \mathbb{E}[V_i | x_1, \ldots, x_{i-1}] - V_{i-1} = V_{i-1} - V_{i-1} = 0.
  2. 有界性: 定义辅助函数:
    g(xi)=E[f(x1,,xi1,xi,,xm)x1,,xi1],g(x_i') = \mathbb{E}[f(x_1, \ldots, x_{i-1}, x_i', \ldots, x_m) | x_1, \ldots, x_{i-1}],
    Vi=g(xi)V_i = g(x_i)Vi1=E[g(xi)]V_{i-1} = \mathbb{E}[g(x_i')],因此:
    Yi=g(xi)E[g(xi)].Y_i = g(x_i) - \mathbb{E}[g(x_i')].
    由最开始ff性质f()f()ci|f(\ldots) - f(\ldots)| \le c_igg 的值域满足:
    supxi,xig(xi)g(xi)ci.\sup_{x_i', x_i''} |g(x_i') - g(x_i'')| \leqslant c_i.
    因此,YiY_i 的取值区间宽度不超过 cic_i

根据Hoeffding引理,有:

E[eλYix1,,xi1]exp(λ2ci28).\mathbb{E}\left[ e^{\lambda Y_i} | x_1, \ldots, x_{i-1} \right] \leqslant \exp\left( \frac{\lambda^2 c_i^2}{8} \right).

将其代入 E[eλZ]\mathbb{E}[e^{\lambda Z}] 的表达式,得到:

E[eλZ]i=1mexp(λ2ci28)=exp(λ2i=1mci28).\mathbb{E}[e^{\lambda Z}] \leqslant \prod_{i=1}^m \exp\left( \frac{\lambda^2 c_i^2}{8} \right) = \exp\left( \frac{\lambda^2 \sum_{i=1}^m c_i^2}{8} \right).

最后,通过优化 λ\lambda 来最小化右式。令导数为零,解得:

λ=4ϵi=1mci2,\lambda = \frac{4\epsilon}{\sum_{i=1}^m c_i^2},

此时指数部分取得最小值:

2ϵ2i=1mci2.-\frac{2\epsilon^2}{\sum_{i=1}^m c_i^2}.

因此,第一条不等式得证。第二条不等式可以通过类似 Hoeffding 不等式的对称性证明,此处省略。

12.2 PAC学习

回到我们的主线,我们需要解决的问题是学习器的泛化性能分析。为此,提出了可能近似正确(Probably Approximately Correct, PAC)学习框架,旨在为这一问题建立严格的数学理论基础。

正如前文所述,在这个框架下,我们对学习器的要求包含两个关键方面:

  • 近似正确:不要求学习器hh达到零错误率,但要求其错误率能够控制在可接受的范围内。具体来说,对于给定的误差阈值ϵ>0\epsilon > 0,学习器的错误率应当满足err(h)ϵerr(h) \leq \epsilon。这里的ϵ\epsilon反映了我们对模型精度的要求。

  • 可能:不要求学习过程每次都成功,但要求成功的概率足够高。具体而言,对于给定的置信参数δ>0\delta > 0,学习过程失败的概率不超过δ\delta。换句话说,我们以至少1δ1-\delta的概率保证学习器满足近似正确性条件。δ\delta的设定反映了我们对学习过程可靠性的要求。

PAC学习理论主要研究在给定学习要求的情况下,学习算法需要满足的条件,特别是所需的训练数据量。我们沿用之前的符号定义:输入空间X\mathcal{X}和输出空间Y\mathcal{Y},数据分布D\mathcal{D},目标概念cc。 接着引入两个概念:

  1. 假设空间H\mathcal{H}:表示在特定学习算法L\mathcal{L}作用下可能产生的所有假设hh的集合。这里需要特别注意,这个H\mathcal{H}是与算法相关的,不同于学习任务本身的理论假设空间。
  2. 概念类C\mathcal{C}:表示我们希望学习的所有可能目标概念的集合。如果目标概念cc包含在假设空间H\mathcal{H}中(即cHc\in \mathcal{H}),那么我们称学习算法L\mathcal{L}可分的或者一致的;反之则称为不可分的不一致的

接下来给出四个定义PAC辨识:对于任意的0<ϵ,δ<10<\epsilon,\delta<1,针对所有可能的目标概念cCc\in \mathcal{C}和所有可能的数据分布D\mathcal{D},若存在一个学习算法L\mathcal{L},使得该算法输出的假设hHh\in \mathcal{H}满足以下概率不等式:

P(E(h)ϵ)1δP(E(h)\leq\epsilon)\geq 1-\delta

其中E(h)E(h)表示假设hh的泛化误差,那么称学习算法L\mathcal{L}能够从假设空间H\mathcal{H}中PAC辨识概念类C\mathcal{C}。这个定义将机器学习算法需要满足的可靠性要求进行了严格的数学表述。

需要特别注意的是,虽然PAC辨识提供了一个理想化的理论保证,但它没有考虑实现这个保证所需的样本数量。如果达到该保证需要无限多个训练样本,那么这个理论结果就失去了实际应用价值。

PAC可学习:设mm表示从分布D\mathcal{D}中独立同分布采样得到的训练样本数量,给定参数0<ϵ,δ<10<\epsilon,\delta<1。如果对于所有可能的分布D\mathcal{D},都存在一个学习算法L\mathcal{L}和一个多项式函数poly(,,,)\text{poly}(\cdot,\cdot,\cdot,\cdot),使得当样本量mm满足:

mpoly(1/ϵ,1/δ,size(x),size(c))m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))

时,L\mathcal{L}都能从假设空间H\mathcal{H}中PAC辨识概念类C\mathcal{C},那么就称概念类C\mathcal{C}相对于假设空间H\mathcal{H}是PAC可学习的,简称为概念类C\mathcal{C}是PAC可学习的。

这个定义的核心在于对样本的多项式约束,具体解释如下:

  • 1/ϵ1/\epsilon:要求的精度越高(ϵ\epsilon越小),需要的样本量越大
  • 1/δ1/\delta:置信度要求越高(δ\delta越小),需要的样本量越大
  • size(x)\text{size}(\boldsymbol{x}):输入样本的表示复杂度
  • size(c)\text{size}(c):目标概念的描述复杂度

多项式增长意味着样本需求量的上界是可控的,这与指数级增长形成鲜明对比,后者在实际中往往是不可行的。

在保证样本效率的基础上,我们还需要考虑计算效率,这就引出了下一个定义:

PAC学习算法:如果一个学习算法L\mathcal{L}不仅使概念类C\mathcal{C}是PAC可学习的,而且L\mathcal{L}本身的运行时间也是多项式函数poly(1/ϵ,1/δ,size(x),size(c))\text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c)),那么就称概念类C\mathcal{C}是高效PAC可学习的,并称L\mathcal{L}为概念类C\mathcal{C}的PAC学习算法。

这个定义在PAC可学习的基础上增加了对算法时间复杂度的约束,其理解方式与PAC可学习类似。 最后,PAC可学习给出了样本量的一个下界,而我们还希望知道这个下界的最小值,这就是:

样本复杂度:对于PAC学习算法L\mathcal{L},若存在多项式函数poly()\text{poly}(\cdot)使得当样本量mm满足mpoly(1/ϵ,1/δ,size(x),size(c))m \geq \text{poly}(1/\epsilon, 1/\delta, \text{size}(\boldsymbol{x}), \text{size}(c))时,L\mathcal{L}能实现PAC学习,则称满足该条件的最小mm值为该算法的样本复杂度
这个指标反映了算法达到PAC学习要求所需的最小样本数量

在PAC学习中,假设空间H\mathcal{H}的复杂度是一个重要因素:

  • H=C\mathcal{H}=\mathcal{C}时(即假设空间与概念类完全一致),称为恰PAC学习,但这种情况通常难以实现。
  • 更常见的情形是HC\mathcal{H}\neq\mathcal{C},此时H\mathcal{H}的规模会影响学习难度:
    • H\mathcal{H}越大,包含目标概念cc的可能性越高,但找到正确的cc也越困难
    • H|\mathcal{H}|有限,称H\mathcal{H}有限假设空间;否则称为无限假设空间

12.3 有限假设空间

我们先考虑最直观且简单的情形:模型假设空间是有限的,并且算法L\mathcal{L}可分的(即存在至少一个假设hHh \in \mathcal{H}在训练集上完全正确)。这种情况下,PAC学习的结论会如何?

由于L\mathcal{L}可分且H\mathcal{H}有限,我们可以通过遍历排除法逐步筛选假设:首先丢弃所有与训练集L\mathcal{L}不一致的假设,剩下的假设称为一致假设。但一致性只是必要条件,PAC学习还要求这些假设的泛化误差必须足够小。根据上一节的知识:对任意一个一致假设hh,其泛化误差E(h)ϵE(h) \leq \epsilon的概率至少为1δ1-\delta,才能满足PAC可辨识性。

证明过程如下
假设从H\mathcal{H}中随机选取一个坏假设hbadh_{bad},其泛化误差满足E(hbad)>ϵE(h_{bad}) > \epsilon。对于任意来自分布D\mathcal{D}的样本(x,y)(\mathbf{x}, y),该假设预测正确的概率为:

P(hbad(x)=y)=1P(hbad(x)y)=1E(hbad)<1ϵP(h_{bad}(\mathbf{x}) = y) = 1 - P(h_{bad}(\mathbf{x}) \neq y) = 1 - E(h_{bad}) < 1 - \epsilon

这意味着,坏假设hbadh_{bad}在单次预测中不犯错(即“蒙混过关”)的概率严格小于1ϵ1 - \epsilon。如果hbadh_{bad}要成为一致假设,它必须对所有mm个训练样本都预测正确,这一事件的概率不超过(1ϵ)m(1 - \epsilon)^m

接下来考虑假设空间H\mathcal{H}的整体性质。虽然无法直接计算抽到坏假设的概率,但可以通过联合界得到失败概率的上界:

PfailH(1ϵ)mHeϵmP_{\text{fail}} \leq |\mathcal{H}| \cdot (1 - \epsilon)^m \leq |\mathcal{H}| \cdot e^{-\epsilon m}

其中最后一步利用了不等式1xex1 - x \leq e^{-x}x>0x > 0)。这表明,算法L\mathcal{L}输出坏假设的概率(即学习失败的概率)不超过Heϵm|\mathcal{H}| e^{-\epsilon m}。为了满足PAC要求,我们强制该概率小于δ\delta

Heϵmδ|\mathcal{H}| e^{-\epsilon m} \leq \delta

解得所需的最小样本量mm为:

m1ϵ(lnH+ln1δ)m \geq \frac{1}{\epsilon} \left( \ln|\mathcal{H}| + \ln\frac{1}{\delta} \right)

结论:只要样本数量mm满足上述条件,有限假设空间H\mathcal{H}在可分情形下一定是PAC可辨识且可学习的

以上结论成立的条件中有一个明显的可分情形假设,那么如果数据不可分时该如何处理?在这种情况下,E^(h)0,hH\hat{E}(h)\neq {0} ,\forall h\in H,也就是说对于假设空间中的任何假设,其在训练集上都无法达到完美表现。

这时一个自然的思路是放宽要求:我们只需要保证假设空间中在训练集上表现最好的那个假设hh,其泛化误差E(h)<ϵE(h)<\epsilon的概率达到1δ1-\delta即可。

首先,这个证明需要用到之前提到的霍夫丁不等式

P(E^(h)E(h)>ϵ)2e2mϵ2P(|\hat{E}(h) - E(h)| > \epsilon) \le 2e^{-2m\epsilon^2}

接下来我们继续使用联合界。学习失败的事件定义为至少存在一个hHh \in \mathcal{H}使得训练误差和泛化误差的偏差超过ϵ\epsilon

Pfail=P(hH,E^(h)E(h)>ϵ)hHP(E^(h)E(h)>ϵ)hH2e2mϵ2=2He2mϵ2\begin{align} P_{fail} &= P(\exists h\in H,|\hat{E}(h)-E(h)|>\epsilon) \\ &\leq \sum_{h\in H}P(|\hat{E}(h)-E(h)|>\epsilon) \\ &\leq \sum_{h\in H} 2e^{-2m\epsilon^2} \\ &=2|\mathcal{H}|e^{-2m\epsilon^{2}} \end{align}

我们希望这个失败概率不超过δ\delta,于是得到不等式H2e2mϵ2δ|\mathcal{H}| \cdot 2e^{-2m\epsilon^2} \le \delta,解这个不等式可以得到:

m12ϵ2(lnH+ln2δ)m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)

这个结果表明即使在不可分情形下,PAC学习仍然是可能的。因此我们定义:

不可知 PAC 可学习:设mm表示从分布D\mathcal{D}中独立同分布采样的样本数量,0<ϵ,δ<10 < \epsilon, \delta < 1。如果对于所有分布D\mathcal{D},存在学习算法L\mathcal{L}和多项式函数poly(,,,)\text{poly}(\cdot, \cdot, \cdot, \cdot),使得对于任何mpoly(1/ϵ,1/δ,size(x),size(c))m \ge \text{poly}(1/\epsilon, 1/\delta, \text{size}(x), \text{size}(c))L\mathcal{L}能从假设空间H\mathcal{H}中输出满足以下条件的假设hh

P(E(h)minhHE(h)ϵ)1δP\left(E(h) - \min_{h' \in \mathcal{H}} E(h') \le \epsilon\right) \ge 1 - \delta

则称假设空间H\mathcal{H}是不可知 PAC 可学习的。

最终我们得到了不可知 PAC 学习的样本复杂度界。将其与之前"可分"情况的结果进行比较:

  • 可分情形: m1ϵ(lnH+ln1δ)m \ge \frac{1}{\epsilon} \left(\ln|\mathcal{H}| + \ln\frac{1}{\delta}\right)
  • 不可分情形: m12ϵ2(lnH+ln2δ)m \ge \frac{1}{2\epsilon^2} \left(\ln|\mathcal{H}| + \ln\frac{2}{\delta}\right)

可以观察到对ϵ\epsilon的依赖关系从1/ϵ1/\epsilon变为1/ϵ21/\epsilon^2,这说明在不可知设定下,要达到相同的精度要求需要多得多的样本

12.4 VC维

上一节我们讨论了有限假设空间的情况,现在将假设空间扩展到无限维的情形。考虑一个最简单的二分类任务,通常使用超平面将样本空间划分为两部分,每个超平面对应一个假设hh。这样的假设有多少个呢?显然存在无限多个,即H=|\mathcal{H}|=\infty。根据上一节的推导公式(无论是否可分),这意味着需要无限多的训练样本,但这与实际情况不符。因此可以得出结论:对于无限维假设空间,上一节得到的边界公式不再适用

为了处理无限假设空间的问题,VC维理论提出了新的思路:给定mm个数据点时,我们不关注能完美分类这些点的具体假设数量,而是研究这些假设能产生的不同划分结果的总数。为此需要先引入以下关键概念:

增长函数ΠH(m)\Pi_{\mathcal{H}}(m)的定义
对于任意正整数mm,假设空间H\mathcal{H}的增长函数定义为: ΠH(m)=max{x1,,xm}X{(h(x1),,h(xm))hH}\Pi_{\mathcal{H}}(m) = \max_{\{x_1, \dots, x_m\} \subset \mathcal{X}} |\{(h(x_1), \dots, h(x_m)) | h \in \mathcal{H}\}|

这个定义可以分两步理解:

  1. 首先固定一组mm个样本点{x1,...,xm}\{x_1,...,x_m\},让假设空间H\mathcal{H}中的所有假设hh对这组样本进行预测,得到所有可能的输出组合(h(x1),...,h(xm))(h(x_1),...,h(x_m)),这些输出组合构成一个集合,计算该集合的大小(即不同预测结果的数量)。
  2. 然后考虑所有可能的mm个样本点的组合,对每个样本组合重复上述过程,最终取所有结果中的最大值作为ΠH(m)\Pi_{\mathcal{H}}(m)的值。

定理12.2我不打算证明,有想法的同学可以参照书上的注释找原文证明。

在此之上,我们可以定义打散:称假设空间H\mathcal{H}能够打散一个包含mm个样本点的集合DXD \subset \mathcal{X},当且仅当对于DD中样本的所有可能的2m2^m种标签分配方式,都存在至少一个假设hHh \in \mathcal{H}能够精确实现该标签组合。这意味着H\mathcal{H}在集合DD上的表达能力达到了最大可能,即ΠH(m)=2m\Pi_{\mathcal{H}}(m) = 2^m

而对于假设空间H\mathcal{H}能够打散的最大样本集的大小,我们就称为VC维:

VC(H)=max{m:ΠH(m)=2m}VC(\mathcal{H}) = \max\{m:\Pi_{\mathcal{H}}(m)=2^{m}\}

比如如果一个H\mathcal{H}的VC维是dd,那么意味着存在这么一个样本集,其个数为dd,可以被H\mathcal{H}打散。至此我们有了足够的定义,现在就来考虑最终的问题:PAC学习,为此我们还得有一个引理。 Sauer引理 对于一个VC维为dd的假设空间H\mathcal{H}和任意大小为mm的点集DD,增长函数满足: ΠH(m)i=0d(mi)\Pi_{\mathcal{H}}(m) \le \sum_{i=0}^{d} \binom{m}{i}

证明过程: 采用数学归纳法,我们考虑以下构造: 设D={x1,x2,,xm1}D' = \{x_1, x_2, \dots, x_{m-1}\}为去掉最后一个样本的点集。定义HD\mathcal{H}|_D为假设空间H\mathcal{H}DD上产生的所有可能标签组合的集合,即: HD={(h(x1),h(x2),,h(xm))hH}\mathcal{H}|_D = \{(h(x_1), h(x_2), \dots, h(x_m)) \mid h \in \mathcal{H}\}

对于HD\mathcal{H}|_{D'}中的任意标签组合y=(y1,,ym1)y' = (y_1, \dots, y_{m-1}),考察其在HD\mathcal{H}|_D中的扩展情况。具体来说,我们需要确定yy'HD\mathcal{H}|_D中可能对应的完整标签组合。这有两种可能情形:

  • 单次出现:仅存在(y1,,ym1,+1)(y_1, \dots, y_{m-1}, +1)(y1,,ym1,1)(y_1, \dots, y_{m-1}, -1)中的一个
  • 两次出现:同时存在(y1,,ym1,+1)(y_1, \dots, y_{m-1}, +1)(y1,,ym1,1)(y_1, \dots, y_{m-1}, -1)

定义子集HDD\mathcal{H}_{D'|D},它包含所有在HD\mathcal{H}|_{D'}能扩展出两种可能的标签组合: HDD={(y1,,ym1)HDh,hH,(h(xi)=h(xi)=yi)i<mh(xm)h(xm)}\mathcal{H}_{D'|D} = \{(y_1, \dots, y_{m-1}) \in \mathcal{H}|_{D'} \mid \exists h, h' \in \mathcal{H}, (h(x_i)=h'(x_i)=y_i)_{i<m} \wedge h(x_m) \neq h'(x_m) \}

由此可以得到基数关系: HD=HD+HDD|\mathcal{H}_{|_D}| = |\mathcal{H}_{|_{D'}}| + |\mathcal{H}_{D'|D}| 这是因为:

  • HD|\mathcal{H}_{|_{D'}}|计数所有可能的yy'
  • HDD|\mathcal{H}_{D'|D}|额外计数那些能产生两种扩展的yy'对应的第二种扩展

现在我们需要对等式右边的两项分别使用归纳假设。

第一项HD|\mathcal{H}_{|_{D'}}|表示假设空间H\mathcal{H}m1m-1个样本点DD'上的限制,即所有可能的标签组合数。根据归纳假设,可以得到: HDi=0d(m1i)|\mathcal{H}|_{D'}| \le \sum_{i=0}^{d} \binom{m-1}{i}

第二项: 令QQ表示能被HDD\mathcal{H}_{D'|D}打散的集合。根据HDD\mathcal{H}_{D'|D}的定义可知,Q{xm}Q\cup\{x_m\}必然能被HD\mathcal{H}|_D打散。由于H\mathcal{H}的VC维为dd,因此HDD\mathcal{H}_{D'|D}的VC维最多为d1d-1。于是可以得到: HDDi=0d1(m1i)|\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d-1} \binom{m-1}{i} 这个上界比第一项少了一项,对应着VC维减少1带来的影响。

最后我们将这个结果应用到原始等式中,可以得到: HD=HD+HDDi=0d(m1i)+i=0d1(m1i)|\mathcal{H}|_D| = |\mathcal{H}|_{D'}| + |\mathcal{H}_{D'|D}| \le \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i}

现在让我们详细展开右边两个组合数求和项的合并过程:

i=0d(m1i)+i=0d1(m1i)=[(m10)+i=1d(m1i)]+[i=1d(m1i1)]=(m10)+i=1d((m1i)+(m1i1))=(m10)+i=1d(mi)=(m0)+i=1d(mi)=i=0d(mi)\begin{aligned} \sum_{i=0}^{d} \binom{m-1}{i} + \sum_{i=0}^{d-1} \binom{m-1}{i} &= \left[ \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m-1}{i} \right] + \left[ \sum_{i=1}^{d} \binom{m-1}{i-1} \right] \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \left( \binom{m-1}{i} + \binom{m-1}{i-1} \right) \\ &= \binom{m-1}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \binom{m}{0} + \sum_{i=1}^{d} \binom{m}{i} \\ &= \sum_{i=0}^{d} \binom{m}{i} \end{aligned}

引理得证。 由该引理我们可以得到增长函数的一个上界:

ΠH(m)(emd)d\Pi_{\mathcal{H}}(m)\leq \left( \frac{em}{d} \right)^{d}

现在我们可以回到熟悉的PAC可学习框架上。我们需要确保"学习失败"的概率足够小,具体来说,这个概率应该小于我们能够容忍的风险阈值δ\delta。根据定理12.2(没证明那个),我们可以将失败概率的上界设为δ\delta

4ΠH(2m)exp(mϵ28)=δ4 \Pi_{\mathcal{H}}(2m) \exp\left(-\frac{m\epsilon^2}{8}\right) = \delta

在前面的推导中我们已经知道增长函数满足ΠH(2m)(e2md)d\Pi_{\mathcal{H}}(2m) \le \left(\frac{e \cdot 2m}{d}\right)^d这个上界。将这个上界代入上式,可以得到:

4(2emd)dexp(mϵ28)δ4 \left(\frac{2em}{d}\right)^d \exp\left(-\frac{m\epsilon^2}{8}\right) \le \delta

为了求出ϵ\epsilon的表达式,我们需要对这个不等式进行求解。最终可以得到ϵ\epsilon的下界:

ϵ8dln(2emd)+8ln(4δ)m\epsilon \ge \sqrt{\frac{8d \ln\left(\frac{2em}{d}\right) + 8\ln\left(\frac{4}{\delta}\right)}{m}} 基于上述工具,我们可以完成最后一个命题的证明:对于任何VC维有限的假设空间H\mathcal{H},只要采用经验风险最小化(ERM)算法,就能构成一个满足PAC要求的学习算法

具体说来,我们需要验证:当假设空间H\mathcal{H}的VC维有限时,采用ERM原则的学习算法L\mathcal{L}确实满足PAC可学习性。根据PAC学习的基本定义,这意味着对于任意给定的精度参数ϵ>0\epsilon > 0和置信参数δ(0,1)\delta \in (0,1),都存在一个样本量阈值mH(ϵ,δ)m_{\mathcal{H}}(\epsilon,\delta),使得当训练样本量mmH(ϵ,δ)m \geq m_{\mathcal{H}}(\epsilon,\delta)时,算法L\mathcal{L}从任意分布D\mathcal{D}中抽取样本集SS后输出的假设h=L(S)h=\mathcal{L}(S),能以至少1δ1-\delta的概率满足: E(h)minhHE(h)+ϵE(h) \leq \min_{h'\in\mathcal{H}}E(h')+\epsilon

h=argminhHE^(h)h = \arg\min_{h'\in\mathcal{H}}\hat{E}(h')为ERM算法输出的经验风险最小化假设,g=argminhHE(h)g = \arg\min_{h'\in\mathcal{H}}E(h')为整个假设空间中真实风险最小的理想假设。我们需要证明的是: P(E(h)E(g)ϵ)1δP(E(h)-E(g) \leq \epsilon) \geq 1-\delta

首先将风险差分解为三个部分: E(h)E(g)=[E(h)E^(h)]+[E^(h)E^(g)]+[E^(g)E(g)]E(h)-E(g) = [E(h)-\hat{E}(h)] + [\hat{E}(h)-\hat{E}(g)] + [\hat{E}(g)-E(g)] 根据ERM的定义可知E^(h)E^(g)\hat{E}(h) \leq \hat{E}(g),因此中间项非正,于是有: E(h)E(g)[E(h)E^(h)][E(g)E^(g)]E(h)-E(g) \leq [E(h)-\hat{E}(h)] - [E(g)-\hat{E}(g)]

我们需要证明以高概率这两个偏差项都控制在ϵ/2\epsilon/2以内。为此定义两个事件并应用联合界:

  • 固定假设gg的偏差控制: 由于gg是固定假设(不依赖样本选择),根据Hoeffding不等式可得: P(E^(g)E(g)>ϵ/2)2exp(mϵ2/2)P(|\hat{E}(g)-E(g)|>\epsilon/2) \leq 2\exp(-m\epsilon^2/2) 令其不超过δ/2\delta/2,则事件A1:E(g)E^(g)ϵ/2A_1: |E(g)-\hat{E}(g)| \leq \epsilon/2以至少1δ/21-\delta/2的概率成立。

  • 一致收敛性控制: 对于ERM输出的hh(依赖样本选择),需要VC泛化界(定理12.3): P(suphHE(h)E^(h)>ϵ/2)4ΠH(2m)exp(mϵ2/32)P\left(\sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|>\epsilon/2\right) \leq 4\Pi_{\mathcal{H}}(2m)\exp(-m\epsilon^2/32) 令其不超过δ/2\delta/2,则事件A2:suphHE(h)E^(h)ϵ/2A_2: \sup_{h'\in\mathcal{H}}|E(h')-\hat{E}(h')|\leq\epsilon/2以至少1δ/21-\delta/2的概率成立。

由联合界可知: P(A1A2)1(P(A1c)+P(A2c))1δP(A_1\cap A_2) \geq 1-(P(A_1^c)+P(A_2^c)) \geq 1-\delta

A1A_1A2A_2同时成立时:

E(h)E(g)E(h)E^(h)+E^(g)E(g)ϵ/2+ϵ/2=ϵ\begin{aligned} E(h)-E(g) &\leq |E(h)-\hat{E}(h)| + |\hat{E}(g)-E(g)| \\ &\leq \epsilon/2 + \epsilon/2 = \epsilon \end{aligned}

这一结论以至少1δ1-\delta的概率成立。

12.5 Rademacher复杂度

VC维只关注是否存在一个大小为dd的集合能被假设空间H\mathcal{H}完全打散,而完全不考虑这个特定集合在实际数据分布中出现的可能性。这种与数据分布无关的最坏情况度量方式,虽然能够提供理论上的保证,但往往会导致给出的泛化误差上界过于宽松(即过于"悲观")。为了克服这一局限性,Rademacher复杂度被提出作为更精细的度量工具。

Rademacher复杂度的基本思想发生了重要转变:不再像VC维那样统计假设空间能产生的标签组合数量,而是直接评估假设空间对随机噪声的拟合能力。具体来说,如果一个假设空间能够非常完美地拟合纯粹的随机噪声,那么它在真实数据上就很可能存在严重的过拟合风险。

给定一个固定的训练数据集S={x1,x2,,xm}S = \{x_1, x_2, \dots, x_m\},我们首先完全忽略这些数据点原本的真实标签yiy_i。然后为每个数据点xix_i独立地生成一个完全随机的噪声标签,称为Rademacher随机变量σi\sigma_i,其定义为:

σi={+1概率为 0.51概率为 0.5\sigma_i = \begin{cases} +1 & \text{概率为 } 0.5\\ -1 & \text{概率为 } 0.5 \end{cases}

这样就得到了一个长度为mm的随机噪声向量σ=(σ1,σ2,,σm)\boldsymbol{\sigma} = (\sigma_1, \sigma_2, \dots, \sigma_m)

接下来,我们需要度量函数空间F\mathcal{F}(即假设空间)中任意函数fFf \in \mathcal{F}对随机生成的标签σ=(σ1,...,σm)\boldsymbol{\sigma}=(\sigma_1,...,\sigma_m)的拟合程度。具体来说,对于每个函数ff,我们通过计算其预测值向量(f(x1),...,f(xm))(f(x_1),...,f(x_m))与噪声向量σ\boldsymbol{\sigma}内积来量化它们的相关性:

i=1mσif(xi)\sum_{i=1}^{m} \sigma_i f(x_i)

这个求和结果反映了函数输出与随机噪声的匹配程度:值越大表明函数ff对噪声σ\boldsymbol{\sigma}的拟合能力越强,意味着假设空间F\mathcal{F}更容易过拟合带噪声的数据。为了评估整个函数空间的噪声拟合能力,我们需要找到所有函数中最优的拟合情况,因此对于给定的噪声向量σ\boldsymbol{\sigma},定义函数空间F\mathcal{F}在样本集S={x1,...,xm}S=\{x_1,...,x_m\}上的噪声拟合能力为:

supfF1mi=1mσif(xi)\sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i)

由于噪声向量σ\boldsymbol{\sigma}是随机生成的(共有2m2^m种可能的取值),为了获得稳定的度量,我们需要对所有可能的噪声配置取期望。这就引出了经验Rademacher复杂度的定义:给定样本集SS和函数空间F\mathcal{F},其经验Rademacher复杂度R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})定义为:

R^S(F)=Eσ[supfF1mi=1mσif(xi)]\hat{\mathfrak{R}}_S(\mathcal{F}) = \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right]

经验Rademacher复杂度R^S(F)\hat{\mathfrak{R}}_S(\mathcal{F})描述的是针对某个特定样本集SS的函数类F\mathcal{F}的复杂度。然而在实际应用中,我们通常希望得到一个与具体抽样无关的度量,它应该仅取决于数据分布D\mathcal{D}和样本量mm。为此,我们需要考虑所有可能从D\mathcal{D}中抽取的大小为mm的样本集SS,并对这些样本集上的经验Rademacher复杂度求期望。

基于这个思想,我们定义期望Rademacher复杂度如下: Rm(F)=ESDm[R^S(F)]=ESDm[Eσ[supfF1mi=1mσif(xi)]]\mathfrak{R}_m(\mathcal{F}) = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \hat{\mathfrak{R}}_S(\mathcal{F}) \right] = \mathbb{E}_{S \sim \mathcal{D}^m} \left[ \mathbb{E}_{\boldsymbol{\sigma}} \left[ \sup_{f \in \mathcal{F}} \frac{1}{m} \sum_{i=1}^{m} \sigma_i f(x_i) \right] \right]

Rademacher复杂度的重要性质在于它能够给出泛化误差的紧致上界(其中mm表示样本数量,δ\delta表示置信水平参数):

E[f(z)]1mi=1mf(zi)+2Rm(F)+ln(1/δ)2m\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\mathfrak{R}_m(\mathcal{F}) + \sqrt{\frac{\ln(1/\delta)}{2m}}
E[f(z)]1mi=1mf(zi)+2R^Z(F)+3ln(2/δ)2m\mathbb{E}[f(z)] \le \frac{1}{m}\sum_{i=1}^{m} f(z_i) + 2\hat{\mathfrak{R}}_Z(\mathcal{F}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}

第一个不等式基于期望Rademacher复杂度Rm(F)\mathfrak{R}_m(\mathcal{F}),第二个不等式基于经验Rademacher复杂度R^Z(F)\hat{\mathfrak{R}}_Z(\mathcal{F})。前者提供了理论分析的基础框架,后者则更适合实际应用中的计算估计。具体的证明过程可以参考相关教材中的详细推导。

对于二分类问题,类似的泛化误差界可以表示为:

E(h)E^(h)+Rm(H)+ln(1/δ)2mE(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}
E(h)E^(h)+R^Z(H)+3ln(2/δ)2mE(h) \le \hat{E}(h) + \hat{\mathfrak{R}}_Z(\mathcal{H}) + 3\sqrt{\frac{\ln(2/\delta)}{2m}}

其中H\mathcal{H}表示假设空间。这些结果的证明同样可以参考标准教材中的相关内容。

最后,我们给出Rademacher复杂度和VC维之间的联系。基于前面得到的第一式:

E(h)E^(h)+Rm(H)+ln(1/δ)2mE(h) \le \hat{E}(h) + \mathfrak{R}_m(\mathcal{H}) + \sqrt{\frac{\ln(1/\delta)}{2m}}

我们引入Massart引理来进一步分析这个上界。Massart引理的内容如下:设AARm\mathbb{R}^m中的一个有限向量集合,σ1,,σm\sigma_1, \dots, \sigma_m是独立的Rademacher随机变量,则有不等式:

Eσ[maxaAi=1mσiai](maxaAa2)2lnA\mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{a} \in A} \sum_{i=1}^{m} \sigma_i a_i \right] \le \left( \max_{\mathbf{a} \in A} \|\mathbf{a}\|_2 \right) \cdot \sqrt{2\ln|A|}

其中a2=i=1mai2\|\mathbf{a}\|_2 = \sqrt{\sum_{i=1}^m a_i^2}表示向量a\mathbf{a}的L2范数。

将这个引理应用到我们的场景中:

R^S(H)=1mEσ[maxvHSi=1mσivi]\hat{\mathfrak{R}}_S(\mathcal{H}) = \frac{1}{m} \mathbb{E}_{\boldsymbol{\sigma}} \left[ \max_{\mathbf{v} \in \mathcal{H}_S} \sum_{i=1}^{m} \sigma_i v_i \right]

根据Massart引理,经验Rademacher复杂度可以被上界约束为:

R^S(H)1m(maxvHSv2)2lnHS\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \left( \max_{\mathbf{v} \in \mathcal{H}_S} \|\mathbf{v}\|_2 \right) \cdot \sqrt{2\ln|\mathcal{H}_S|}

由于HS\mathcal{H}_S中的每个向量v\mathbf{v}都是二分类结果(取值为0或1),其L2范数为m\sqrt{m},因此可以简化为:

R^S(H)1mm2lnΠH(S)=2lnΠH(S)m\hat{\mathfrak{R}}_S(\mathcal{H}) \le \frac{1}{m} \cdot \sqrt{m} \cdot \sqrt{2\ln\Pi_{\mathcal{H}}(S)} = \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(S)}{m}}

这个不等式对于任意大小为mm的样本集SS都成立,因此我们可以进一步放宽这个上界:

R^S(H)2lnΠH(m)m\hat{\mathfrak{R}}_S(\mathcal{H}) \le \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}}

其中ΠH(m)\Pi_{\mathcal{H}}(m)是假设空间H\mathcal{H}的增长函数。

将这个结果代回最初的泛化误差界,我们得到:

E(h)E^(h)+2lnΠH(m)m+ln(1/δ)2mE(h) \le \hat{E}(h) + \sqrt{\frac{2\ln\Pi_{\mathcal{H}}(m)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}

最后,利用VC维的性质lnΠH(m)dln(emd)\ln\Pi_{\mathcal{H}}(m) \le d\ln\left(\frac{em}{d}\right),其中dd是假设空间H\mathcal{H}的VC维,我们得到最终的泛化误差界:

E(h)E^(h)+2dln(emd)m+ln(1/δ)2mE(h) \le \hat{E}(h) + \sqrt{\frac{2d\ln\left(\frac{em}{d}\right)}{m}} + \sqrt{\frac{\ln(1/\delta)}{2m}}

即Rademacher复杂度和增长函数可以推导出VC维的泛化误差界

12.6 稳定性

在之前的讨论中,我们始终以假设空间H\mathcal{H}作为主要研究对象。现在我们需要关注学习算法本身的特性——具体来说,当训练数据集SS发生微小变化(例如增加或删除一个样本)时,研究该算法输出的假设hSh_S会产生怎样的变化。这里需要特别注意的是,实际学习算法在寻找解的过程中并不会穷举整个假设空间H\mathcal{H},而是根据优化策略在特定的子空间中进行搜索。这就引出一个重要问题:能否避免传统分析方法中针对假设空间全局最坏情况的保守估计转而分析具体学习算法在实际训练过程中表现出的行为模式?这种针对性研究有望得到与实际应用场景更匹配数学上更精确的泛化性能保证。

算法稳定性理论的提出正是为了回答这个问题。其基本思想可以表述为:对于一个泛化性能良好的学习算法,当其在训练集DD上学习得到假设hDh_D时,这个结果对训练集中任意单个样本(xi,yi)(x_i,y_i)的变化应该保持相对稳定。这种稳定性意味着算法输出不会因为训练样本的微小调整而产生显著波动,从而保证了在未知测试数据上的预测性能具有可靠性。

我们沿用先前定义的符号体系:设有一个由mm个从未知分布D\mathcal{D}中独立同分布采样得到的样本z1,,zmz_1, \dots, z_m构成的训练集DD,以及一个学习算法L\mathfrak{L}。该算法以完整数据集DD作为输入,从假设空间H\mathcal{H}中输出一个具体的假设(模型),记作LD\mathfrak{L}_D

两种微小变化

  • D\iD^{\backslash i}:表示通过从原始数据集DD中移除第ii个样本ziz_i后得到的新数据集。其样本量为m1m-1,这是留一法的核心操作方式。
  • DiD^i:表示将原始数据集DD中的第ii个样本ziz_i替换为从同一分布D\mathcal{D}中新独立采样的样本ziz'_i后得到的数据集。其样本量保持为mm,这是定义算法均匀稳定性时的关键构造方法。

评估算法表现的三个重要指标

  1. 泛化损失:衡量模型在总体分布上的预期表现,定义为: (L,D)=EzD[(LD,z)]\ell(\mathfrak{L}, D) = \mathbb{E}_{z \sim \mathcal{D}}[\ell(\mathfrak{L}_D, z)]
  2. 经验损失:衡量模型在训练集上的平均表现,定义为: ^(L,D)=1mi=1m(LD,zi)\hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_D, z_i)
  3. 留一损失:通过留一法构造的评估指标,定义为: loo(L,D)=1mi=1m(LD\i,zi)\ell_{loo}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)

对于留一损失:

  • 对于每个样本ziz_i(其中i=1,,mi=1,\dots,m):
    1. 使用排除ziz_i后的数据集D\iD^{\backslash i}训练新模型LD\i\mathfrak{L}_{D^{\backslash i}}
    2. 用该模型计算在被排除样本ziz_i上的损失值(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)
  • 最后将所有mm次计算的损失值取平均

由于在计算每个(LD\i,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i)时,测试样本ziz_i与训练集D\iD^{\backslash i}完全独立,这使得留一损失loo(L,D)\ell_{loo}(\mathfrak{L}, D)成为泛化损失(L,D)\ell(\mathfrak{L}, D)无偏估计。数学上表示为: ED[loo(L,D)]=ED[(L,D)]\mathbb{E}_D[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}_D[\ell(\mathfrak{L}, D)] 因此,loo\ell_{loo}在理论上是泛化误差的一个完美代理指标。现在我们来分析loo(L,D)\ell_{loo}(\mathfrak{L}, D)^(L,D)\hat{\ell}(\mathfrak{L}, D)之间的差异:

loo(L,D)^(L,D)=1mi=1m((LD\i,zi)(LD,zi))\ell_{loo}(\mathfrak{L}, D) - \hat{\ell}(\mathfrak{L}, D) = \frac{1}{m}\sum_{i=1}^m \left( \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i) \right)

让我们仔细观察求和式中的每一项(LD\i,zi)(LD,zi)\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_D, z_i)。这个差值表示的是:当我们将训练数据集DD中的第ii个样本ziz_i移除后,重新训练的模型LD\i\mathfrak{L}_{D^{\backslash i}}与原始模型LD\mathfrak{L}_D在这个被移除的样本ziz_i上的损失值之差。如果一个学习算法具有稳定性,那么这个差值通常会很小。

基于这个观察,我们引入均匀稳定性的正式定义:一个学习算法L\mathfrak{L}被称为βm\beta_m-均匀稳定的,如果对于任意大小为mm的数据集DD,以及通过替换DD中第ii个样本得到的任意数据集DiD^i(其中i{1,...,m}i \in \{1,...,m\}),以下不等式对所有可能的数据点zZz \in \mathcal{Z}都成立:

(LD,z)(LD\i,z)βm|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \le \beta_m 另外,对于差值(LD,z)(LDi,z)|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)|的估计,我们可以直接应用三角不等式进行分解:

(LD,z)(LDi,z)(LD,z)(LD\i,z)+(LDi,z)(LD\i,z)β+β=2β\begin{align} &|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^i}, z)| \\ \leq & |\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| + |\ell(\mathfrak{L}_{D^{i}}, z) - \ell(\mathfrak{L}_{D^{\backslash i}}, z)| \\ \leq & \beta + \beta \\ = & 2\beta \end{align}

这一结果表明:移除示例的稳定性性质可以直接推导出替换示例的稳定性上界

进一步地,假设学习算法L\mathfrak{L}满足βm\beta_m-均匀稳定性条件,且损失函数\ell的取值范围限定在[0,M][0, M]区间内。那么对于任意置信水平0<δ<10 < \delta < 1以至少1δ1-\delta的概率同时成立以下两个泛化界:

(L,D)^(L,D)+2βm+(4mβm+M)ln(1/δ)2m(1)\ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta_m + (4m\beta_m + M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(1)}
(L,D)loo(L,D)+βm+(4mβm+M)ln(1/δ)2m(2)\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta_m + (4m\beta_m+M)\sqrt{\frac{\ln(1/\delta)}{2m}} \quad \text{(2)}

我们首先证明式(2),这个证明过程中会用到McDiarmid不等式。定义随机变量ZZ作为数据集DD的函数: Z(D)=loo(L,D)(L,D)Z(D) = \ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D) 需要计算cj=supD,zjZ(D)Z(Dj)c_j = \sup_{D, z'_j} |Z(D) - Z(D^j)|,其中DjD^j表示将DD中的样本zjz_j替换为zjz'_j得到的新数据集。根据定义,差值可以表示为: Z(D)Z(Dj)=(loo(D)(D))(loo(Dj)(Dj))|Z(D) - Z(D^j)| = |(\ell_{loo}(D) - \ell(D)) - (\ell_{loo}(D^j) - \ell(D^j))| 应用三角不等式,这个差值可以被拆分为两部分: (L,D)(L,Dj)+loo(L,D)loo(L,Dj)\le |\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)| + |\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|

第一项(L,D)(L,Dj)|\ell(\mathfrak{L}, D) - \ell(\mathfrak{L}, D^j)|,这反映了替换单个样本对模型整体损失的影响。可以展开为: Ez[(LD,z)]Ez[(LDj,z)]Ez[(LD,z)(LDj,z)]=2β|\mathbb{E}_z[\ell(\mathfrak{L}_D, z)] - \mathbb{E}_z[\ell(\mathfrak{L}_{D^j}, z)]| \le \mathbb{E}_z[|\ell(\mathfrak{L}_D, z) - \ell(\mathfrak{L}_{D^j}, z)|] = 2\beta 因此第一项的上界是2β2\beta

第二项: 考察留一损失的变化量loo(L,D)loo(L,Dj)|\ell_{loo}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D^j)|,这反映了替换单个样本对交叉验证损失的影响。展开表达式: 1mi=1m(LD\i,zi)1mi=1m(L(Dj)\i,zij)\left|\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i^j)\right| 其中zijz_i^j表示DjD^j中的第ii个样本。将求和项分为i=ji=jiji\neq j两种情况处理: =1m((LD\j,zj)(L(Dj)\j,zj))+ij((LD\i,zi)(L(Dj)\i,zi))= \frac{1}{m} \left| (\ell(\mathfrak{L}_{D^{\backslash j}}, z_j) - \ell(\mathfrak{L}_{(D^j)^{\backslash j}}, z'_j)) + \sum_{i\ne j}(\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)) \right|

  • i=ji=j时,两个损失函数值都在[0,M][0, M]区间内,因此其差的绝对值不超过MM
  • iji\neq j时,由于D\iD^{\backslash i}(Dj)\i(D^j)^{\backslash i}这两个训练集仅相差一个样本(zjz_jzjz'_j),所以类似第一部分有: (LD\i,zi)(L(Dj)\i,zi)2β|\ell(\mathfrak{L}_{D^{\backslash i}}, z_i) - \ell(\mathfrak{L}_{(D^j)^{\backslash i}}, z_i)| \le 2\beta

综合这两部分结果,可以得到: 1m(M+(m1)2β)Mm+2β\le \frac{1}{m} (M + (m-1)\cdot 2\beta) \le \frac{M}{m} + 2\beta

最终得到cjc_j的上界: cj=supZ(D)Z(Dj)2β+(Mm+2β)=4β+Mmc_j = \sup |Z(D) - Z(D^j)| \le 2\beta + \left(\frac{M}{m} + 2\beta\right) = 4\beta + \frac{M}{m} 接下来我们定义期望泛化误差E[Z(D)]\mathbb{E}[Z(D)]为留一误差期望与训练误差期望之差: E[Z(D)]=E[loo(L,D)]E[(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] - \mathbb{E}[\ell(\mathfrak{L}, D)]

关于留一误差的无偏性:由于loo\ell_{loo}\ell的近似无偏估计,其期望可以展开为: E[loo(L,D)]=E[1mi=1m(LD\i,zi)]=E[(LD\1,z1)]=E[(L,D\1)]\mathbb{E}[\ell_{loo}(\mathfrak{L}, D)] = \mathbb{E}\left[\frac{1}{m}\sum_{i=1}^m \ell(\mathfrak{L}_{D^{\backslash i}}, z_i)\right] = \mathbb{E}[\ell(\mathfrak{L}_{D^{\backslash 1}}, z_1)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})] 中间的等式成立是基于数据独立同分布的对称性,即任意删除一个样本后的期望结果相同。

将上述结果代入可得: E[Z(D)]=E[(L,D\1)]E[(L,D)]\mathbb{E}[Z(D)] = \mathbb{E}[\ell(\mathfrak{L}, D^{\backslash 1})] - \mathbb{E}[\ell(\mathfrak{L}, D)] 进一步表示为: =ED,zm,zm[(LD\m,zm)]ED,zm[(LD,zm)]= \mathbb{E}_{D, z_m', z_m}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m')\right] - \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D}, z_m')\right] =ED,zm[(LD\m,zm)(LD,zm)]= \mathbb{E}_{D, z_m'}\left[\ell(\mathfrak{L}_{D^{\backslash m}}, z_m') - \ell(\mathfrak{L}_D, z_m')\right]

括号内是负的均匀稳定性,最终可得: E[Z(D)]E[β]=β\mathbb{E}[Z(D)] \ge \mathbb{E}[-\beta] = -\beta 最后应用McDiarmid不等式,可以得到以下概率不等式:

P(Z(D)E[Z(D)]ϵ)exp(2ϵ2j=1mcj2)\mathbb{P}\left(Z(D) - \mathbb{E}[Z(D)] \le -\epsilon\right) \le \exp\left(-\frac{2\epsilon^2}{\sum_{j=1}^m c_j^2}\right)

其中,我们计算了cjc_j的平方和上界:

j=1mcj2j=1m(4β+M/m)2=m(4β+M/m)2\sum_{j=1}^m c_j^2 \le \sum_{j=1}^m (4\beta + M/m)^2 = m(4\beta + M/m)^2

为了将概率上界表示为δ\delta,我们设:

δ=exp(2ϵ2m(4β+M/m)2)\delta = \exp\left(-\frac{2\epsilon^2}{m(4\beta + M/m)^2}\right)

通过解这个方程,可以得到ϵ\epsilon的表达式:

ϵ=m(4β+M/m)2ln(1/δ)2=(4mβ+M)ln(1/δ)2m\epsilon = \sqrt{\frac{m(4\beta + M/m)^2 \ln(1/\delta)}{2}} = (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}

这意味着,至少有1δ1-\delta的概率,以下不等式成立:

Z(D)E[Z(D)]ϵZ(D) \ge \mathbb{E}[Z(D)] - \epsilon

Z(D)Z(D)的定义和E[Z(D)]\mathbb{E}[Z(D)]的下界代入后,可以得到:

loo(L,D)(L,D)β(4mβ+M)ln(1/δ)2m\ell_{loo}(\mathfrak{L}, D) - \ell(\mathfrak{L}, D) \ge -\beta - (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}

最后,通过移项整理,我们得到了式(2)(2)的最终表达式:

(L,D)loo(L,D)+β+(4mβ+M)ln(1/δ)2m\ell(\mathfrak{L}, D) \le \ell_{loo}(\mathfrak{L}, D) + \beta + (4m\beta + M)\sqrt{\frac{\ln(1/\delta)}{2m}}

对于式(1)(1)的推导,直接从均匀稳定性的定义出发可以得到: ^(L,D)loo(L,D)β|\hat{\ell}(\mathfrak{L}, D) - \ell_{loo}(\mathfrak{L}, D)| \le \beta 这个不等式可以等价地表示为: loo(L,D)^(L,D)+β\ell_{loo}(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + \beta

现在,我们将这个结果代入前面已经证明的式(2)(2)中。具体做法是将式(2)(2)中的loo(L,D)\ell_{loo}(\mathfrak{L}, D)替换为其上界^(L,D)+β\hat{\ell}(\mathfrak{L}, D) + \beta(L,D)loo(L,D)^(L,D)+β+β+(4mβ+M)ln(1/δ)2m\ell(\mathfrak{L}, D) \le \underbrace{\ell_{loo}(\mathfrak{L}, D)}_{\le \hat{\ell}(\mathfrak{L}, D) + \beta} + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}

将替换后的表达式展开,我们得到: (L,D)(^(L,D)+β)+β+(4mβ+M)ln(1/δ)2m\ell(\mathfrak{L}, D) \le (\hat{\ell}(\mathfrak{L}, D) + \beta) + \beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}}

合并同类项后,最终得到式(1)(1)的完整表达式: (L,D)^(L,D)+2β+(4mβ+M)ln(1/δ)2m\ell(\mathfrak{L}, D) \le \hat{\ell}(\mathfrak{L}, D) + 2\beta + (4m\beta+M)\sqrt{\frac{\ln(1/\delta)}{2m}} 我们费这么大劲证明了基于稳定性分析导出的算法L\mathfrak{L}的泛化误差界,它已经说明了我们的算法是可学习的。现在我们将说明若学习算法L\mathfrak{L}是ERM且稳定的,则假设空间H\mathcal{H}可学习。其中若学习算法L\mathfrak{L}所输出的假设满足经验损失最小化,则称算法L\mathfrak{L}满足经验风险最小化(ERM)原则.

证明在书上,略。