泛化的贝叶斯视角学习理论 PAC-Bayes和深度学习

3,241 阅读6分钟

学习理论--泛化的贝叶斯视角

通过PAC-Bayes的镜头

照片:Christiaan HuynenonUnsplash

学习理论是研究训练误差和泛化误差之间的差距(又称泛化差距)的课题,它为我们提供了一个训练有素的学习者在新数据上的性能保证。多年来,人们在捕捉泛化差距方面做了许多伟大的工作,其中包括但不限于VC维度、Rademacher复杂性、算法稳定性。虽然这些工作在参数不足的情况下(在这种情况下,我们有更多的数据比要学习的自由参数的数量要多)给出了泛化差距的尖锐界限,但当我们转到插值制度(在这种情况下,我们有更多的自由参数比数据多,我们可以完美地插值数据)时,这些界限就变得空洞了--随着模型(神经网络)变得越来越复杂,泛化误差不会像这些界限那样增长,而是呈现出下降趋势。虽然这种神秘的泛化行为,也被称为双重下降,导致了神经网络模型在众多任务中的成功,但寻找理论上的解释仍未结束。

泛化的贝叶斯视角--实证研究

在最近的一篇论文 "贝叶斯深度学习和概率泛化视角 "中,作者表明,人们可以完全缓解双降现象,即假设类的泛化误差相对于模型的灵活性(最大容量)变得单调下降,即使对于损坏的数据集。实现这一目标的关键,模糊地说,是更好地接近数据匹配归纳偏见的贝叶斯边际化模型(我不会去看论文传达的细节,但人们可以参考以下页面关于论文的简明和全面的介绍:https://jorisbaan.nl/2021/03/02/introduction-to-bayesian-deep-learning.html)。对这些概念的实验确实产生了迷人的结果,给我们提供了一个令人信服的证据来倡导贝叶斯方法。然而,除了经验性的实验之外,仍然缺少理论支持。在这篇文章中,我将通过PAC-Bayes框架的视角给出贝叶斯边缘化和泛化之间的理论联系。

从ELBO到PAC-Bayes边界

首先,让我勾勒出一般的路线图,以总结出走向连接的步骤。

  1. 回顾一下证据下限(ELBO
  2. 介绍计量变化不等式作为ELBO的一般化
  3. 推导出PAC-Bayes约束
  4. 建立联系

证据下限

对于熟悉贝叶斯框架的人来说,众所周知,对数证据可以有如下的下限

其中q是概率模型,q(x|θ)是似然函数,q(θ)是θ的先验分布,q(x)=∫q(x|θ)-q(θ)-dθ是证据/边缘似然。这个不等式对θ上的任何分布r都有效,因为r的支持度不比q大。这个不等式的RHS是所谓的ELBO,它是一个紧约束,即当r(θ)等于后验q(θ|x)时可以实现平等。事实上,对数证据和ELBO之间的差异是q(θ|x)到r(θ)的KL发散,因此对数证据可以分解如下

度量衡不等式的改变

由于证据满足q(x)=∫q(x|θ)-q(θ)-dθ,这是q(x|θ)相对于q(θ)的期望。因此,该不等式可以被改写为

事实上,这个不等式不仅对对数似然函数成立,而且对任何实值函数都成立,即:。

正如副标题所说,这就是计量变化不等式。与ELBO类似,这个下限也很紧,我们可以通过吉布斯后验实现平等。

而事实上,两者之间的差异恰恰是吉布斯后验到r的KL发散,因为它是在证据分解中。

PAC-Bayes约束

现在,我们可以毫不费力地推导出PAC-Bayes约束。这里的诀窍是用一个与训练误差和概括误差有关的函数来设置_j_。一个特别的选择是

其中D代表未知的数据生成分布,S表示D中的随机样本iid,R是在某个损失L上评估的风险,L代表S或D,分别代表训练误差和概括误差。至于λ,它是一个自由参数,就像温度的倒数,控制着适配性和复杂性之间的某种权衡,我们将在后面看到。插上这个_j_并重新排列条款,我们将得到

通过对RHS上最后一项的对数内的部分应用马尔科夫不等式,我们可以用它的期望值(相对于S)来代替它,这样由S引起的随机性就被消除了,得到了一般形式的PAC-Bayes约束。

概括化的贝叶斯观点--理论上的观点

边缘化的作用

现在让我们看看如何将贝叶斯的概念和PAC-Bayes技术联系起来。选择负对数似然函数作为评估风险的损失,并设定λ为样本数,前两个项被精确加起来就是负ELBO,其额外分数为1大于n。

泛化=支持度+归纳偏见

在前面提到的 "贝叶斯深度学习和泛化的概率视角 "一文中,作者认为一个模型的泛化包括两个方面:支持度,即模型可以相当近似的数据分布范围,以及归纳偏差,即模型在不同数据分布中的适合程度。通过推导出的PAC-Bayes约束的视角,我们为这个论点赋予了严格的数学意义

  1. 对于不支持的数据分布,例如在图像数据集上应用线性模型,我们可能会有很小的泛化差距,但我们永远无法实现令人满意的泛化,因为在整个空间中没有任何权重的配置能很好地接近真相,导致即使是对优化的先验q(θ)进行精确的贝叶斯边际化,也会产生小的ELBO。
  2. 在不匹配的归纳偏见下,不可还原项,即不等式RHS上的第三个,永远不会小(在固定的模型和数据分布下,减少它的唯一方法是收集更多的数据)。

总结

通过PAC-Bayes的视角,在泛化边界方面,对贝叶斯边际化的更好的近似确实优于任何优化方法的一个单一解决方案。对于更严格的约束,有很多活跃的研究领域:几何深度学习研究不同架构在不同数据上的有效性;差分隐私寻求在q(θ)上找到 "数据分布相关 "但 "数据独立 "的先验,等等。我们正在逐步揭开学习中的神秘面纱,虽然还有很长的路要走,但这真的很令人振奋。