深度模型需要大量的训练实例,但标记的数据却很难获得。这促使人们对利用未标记的数据进行了重要的研究,这些数据往往更容易获得。例如,大量的无标签图像数据可以通过抓取网络获得,而像ImageNet这样的有标签的数据集则需要昂贵的标签程序。在最近的经验发展中,用无标签数据训练的模型已经开始接近完全监督的性能(例如,Chen等人,2020,Sohn等人,2020)。
这一系列的博文将讨论我们的理论工作,旨在分析最近使用无标签数据的经验方法。在第一篇文章中,我们将分析自我训练,这是一个非常有影响的半监督学习和领域适应的算法范式。在第二部分中,我们将使用相关的理论思想来分析自我监督的对比学习算法,这种算法对于无监督的表征学习非常有效。
背景:自我训练
我们首先将提供一个自我训练算法的基本概述,这是本博文的主要焦点。其核心思想是使用一些预先存在的分类器\(F_{pl}\)(被称为 "伪标签器")在一个大的无标签数据集上进行预测(被称为 "伪标签"),然后用伪标签重新训练一个新模型。例如,在半监督学习中,伪标签器是在一个小的有标签的数据集上训练得到的,然后被用来在一个更大的无标签的数据集上预测伪标签。然后,一个新的分类器 \(F\)被重新训练,以适应伪标签,使用额外的正则化。在实践中, \(F\)往往比原始的伪标签器 \(F_{pl}\)更准确(Lee 2013)。自我训练的过程描述如下。
鉴于我们对自己的预测,即伪标签,而不是真正的标签进行再训练,自我训练在实践中能有如此好的效果,是非常令人惊讶的。在这篇博文的其余部分,我们将分享我们的理论分析,解释为什么会出现这种情况,表明自我训练中的再训练与原始的伪标签器相比,可以证明提高了准确性。
我们的理论分析侧重于基于伪标签的自我训练,但也有其他的变种。例如,熵值最小化,它基本上是对由 \(F\)产生的变化的伪标签进行训练,而不是对来自 \(F_{pl}\)的固定的伪标签进行训练,也可以被解释为自我训练。相关的分析技术适用于这些算法(Cai等人,21岁)。
正则化对自我训练的重要性
在讨论我们理论的核心部分之前,我们首先要通过证明再训练阶段的正则化对于自我训练的良好运行是必要的,来建立分析。
让我们考虑一下上面描述的自我训练算法的再训练步骤。假设我们最小化交叉熵损失以适应伪标签,就像深度网络的情况一样。我们可以通过将F_{pl}的预测值放大到无穷大,将未规范化的交叉熵损失赶到0。如下图2所示,这意味着重新训练的步骤不会取得比 \(F_{pl}\)更多的改进,因为决策边界不会改变。这表明,如果自我训练要导致对伪标签器的可证明的改进,那么在我们的分析中可能需要有正则化。
从经验上看,一种在重新训练步骤后导致实质性改进的技术是鼓励分类器对相邻的例子有一致的预测。我们把这种方法称为输入一致性正则化的形式。在文献中,有各种方法来定义 "相邻对",例如,在 \(ell_2\)距离上接近的例子(Miyato等人,2017,Shu等人,2018),或同一图像的不同强数据增强的例子(Xie等人,2019,Berthelot等人,2019,Xie等人,2020,Sohn等人,2020)。强数据增强,对输入图像的改变比传统的监督学习中使用的更强,对自我监督的对比学习也非常有用,我们将在后续博文中进行分析。我们的理论分析考虑了一个正则器,其灵感来自于输入一致性正则化的经验工作。
理论分析的关键公式
从上面的讨论中可以看出,为了理解为什么自我训练有帮助,我们需要一个原则性的方法来思考自我训练的正则器。输入一致性正则化在实践中是有效的,但我们如何将其抽象化,使分析具有可操作性?此外,输入一致性正则化要利用数据的哪些属性才能有效?在下一节中,我们将介绍增殖图,这是一个关键的概念,可以让我们干净地解决这两个挑战。在增强图的基础上,后续章节将正式介绍正则器和数据的假设。
人口数据的增强图
我们介绍人口数据上的增强图,这是一个关键的概念,它使我们能够正式确定输入一致性正则器,并激发对数据分布的自然假设。
直观地说,扩增图是一个以数据点为顶点的图,其特性是语义上相似的数据点将通过边的序列连接起来。我们将考虑下面图3中显示的二方图(G'\),其顶点集由所有自然图像(X\)以及图像的增强版本(X\)的集合(tilde{X}\)组成。如果(tilde{x}\)是通过对(x\)进行数据增强而得到的,那么该图在(x\中的x)和(tilde{x}\中的tilde{X}\)之间含有一条边(粉红色)。
如果我们使用将G'\折叠到顶点集X\上得到的图G\,分析会稍微简单些。G\的边用黑色显示,连接顶点\(x_1, x_2 \在X\中),它们在G\中有一个共同的邻居。自然图像\(x_1, x_2 \在X\中)在G\中是邻居,当且仅当它们在G'\中拥有一个共同的邻居。在我们下一篇关于自监督对比学习算法的文章中,我们还将考虑将G'\\折叠到G'\\上得到的图,其边在上图中显示为棕色。
为了简单起见,我们只考虑非加权图,并关注那些用小的(\ell_2\)边界噪声模糊图像的数据增强,尽管增强图可以基于任意类型的数据增强而构建。上图显示了在 \(G\)中相邻图像的例子,配对的彩色箭头指向它们在 \(\tilde{X}\)中的共同增强。请注意,通过沿着 \(G\)中的边,有可能在两个相当不同的图像之间穿越一条路径,尽管 \(G\)中的相邻图像非常相似,而且彼此之间的距离必须很小 \ell_2\)。需要强调的一点是, \(G\)是群体数据上的图,而不仅仅是训练集--这个区别对于我们将对 \(G\)做出的假设类型至关重要。
正则器的形式化
现在我们已经定义了增殖图,让我们看看这个概念如何帮助我们制定分析。首先,扩增图促使我们对输入一致性正则器进行以下自然抽象:
\R(F, x) = 1(F\text{ 在邻域的所有例子上预测同一类别})N(x))\tag{1}\]。
在这个定义中,邻域(N(x)\)是所有(x'\)的集合,使得(x\)和(x'\)在增强图中有边连接。我们将分析的最终群体自我训练目标是正则器和拟合伪标签的损失之和,与经验上成功的目标密切相关,如(Xie等人,2019,Sohn等人,2020)中。
\E_x[1(F(x) \ne G_{pl}(x))] + λ E_x[R(F, x)] \tag{2}\)
对数据的假设
我们现在要做一个思想实验,看看为什么正则器是有用的,这样做是为了激励我们分析的两个关键假设。让我们考虑一个理想化的情况,即分类器具有完美的输入一致性,即对所有的 \(x\)来说, \(R(F, x) = 0\) 。如果数据满足一个适当的结构,强制执行完美的输入一致性会非常有利,如下图所示。
上图显示,如果狗类在 \(G\)中是连接的,执行完美的输入一致性将确保分类器对所有的狗做出相同的预测。这是因为完美的输入一致性保证了相同的标签会在狗的所有邻域传播,最终覆盖整个类别。这有利于避免对不正确的伪标签例子的过度拟合。
图4中的数据分布有两个隐含的属性,确保了完美的输入一致性是有益的:1)狗类在(G\)中是连接的,2)狗类和猫类相距甚远。图5描述了这些条件不成立的失败案例,所以完美的输入一致性没有帮助。左图显示,如果狗类在 \(G\)中没有连接,完美的输入一致性可能无法保证分类器在整个类中预测出相同的标签。右图显示,如果狗类和猫类之间的距离太近,完美的输入一致性将意味着分类器无法区分这两个类别。
我们的主要假设,如下所述,是上述条件的自然形式化。
**假设1(类内扩展):**扩增图在类内具有良好的连接性。形式上,对于一个基础真理类中的任何图像子集(S\),对于一些(c>1\),(P(N(S))>cP(S)\)。
上图说明了假设1。在假设1中, \(N(S)\)指的是 \(S\)的邻域,它包含 \(S\)和 \(S\)中的例子的邻域联盟。我们把假设1称为 "扩张 "假设,因为它要求\(S\)的邻域在概率上必须以恒定的系数\(c\)相对于\(S\)本身扩张。我们把系数 \(c\)称为扩展系数。直观地说,更大的系数意味着更好的连通性,因为它意味着每个集合有一个更大的邻域。过去在谱图理论[2,3]、抽样和混合时间[4]、组合优化[5],甚至在不同的协同训练设置中的半监督学习[1]等场合都研究过相关的扩展概念。
**假设2(类间分离):**班级之间存在分离:图 \(G\)确实包含不同班级之间非常有限的边。
在本文中,我们提供了满足扩展和分离的分布的例子,我们相信它们是真实数据的现实特征。需要重申的一个关键点是,这些假设和图/(G\)是针对人口数据定义的。事实上,对于训练集来说,像扩张这样的属性是不现实的。如果我们试图只在训练实例上建立图 \(G\),它将是完全脱节的,因为在输入维度上,抽到两个恰好是邻居的i.i.d.样本的概率(在 \(ell_2\)距离上定义)是指数级地小。
主要的理论结果
我们现在表明,一个满足低自我训练损失(2)的模型将有良好的分类精度。我们的主要结果如下:
**定理1(非正式):**存在一个输入一致性正则化强度的选择,这样,如果伪标签器满足准确率的基线水平,即\(\text{Error}(G_{pl}) < 1/3\),群体目标(2)的最小化器\(\hat{F}\)将满足:
\[\text{Error}(\hat{F}) `le `frac{2}{c - 1} `text{Error}(G_{pl})`] 。
换句话说,假设扩展和分离,自我训练可以证明导致一个比原始伪标签器更准确的分类器!定理1的主要优点之一是它不依赖于 \(F\)的参数化,特别是当 \(F\)是一个深度网络时,它是成立的。此外,在领域适应设置中,我们不需要对源域和目标域之间的关系做任何假设,只要伪标签员达到基线准确率水平即可。之前对自我训练的分析仅限于线性模型(例如,Kumar等人,2020年,Chen等人,2020年),或假设领域转移非常小的领域适应设置(Kumar等人,2020年)。
该约束的一个有趣的特性是,它随着扩展假设中的系数\(c\)变大而改善。回顾一下, \(c\)本质上是一个量化器,表示每个类中的扩增图的连接程度,较大的 \(c\)表示更多的连接。直观地说,连接性可以通过加强输入一致性正则器的影响来提高约束。
改善图的连通性的一个方法是使用更强的数据增量。事实上,这种方法在经验上非常有效:像FixMatch和Noisy Student这样的算法通过使用数据增强来实现最先进的半监督学习性能,而数据增强对图像的改变要比标准监督学习中的强烈得多。定理1提出了一个解释,为什么强大的数据增强是如此有帮助:它导致了更大的/(c/)和更小的约束。然而,我们确实需要注意不要把增强的强度提高太多--使用太强的数据增强可能会使我们的假设2(即基础真理类是分离的)不再成立。
定理1的证明依赖于上一小节中所传达的直觉。回顾一下,我们的目标是要证明对伪标签的再训练可以导致分类器纠正伪标签中的一些错误。分类器可以忽略一些错误的伪标签的原因是,(2)中的输入一致性正则化项鼓励分类器在邻近的例子上预测相同的标签。因此,我们可以希望,正确的伪标签的例子会把它们的标签传播给不正确的伪标签的邻居,导致对这些邻居的去噪效果。我们可以通过利用扩展假设(假设1)使这个直觉变得严谨。
定理1的主要结果和我们的假设是针对群体数据的,但要把定理1转化为在有限训练集上优化(2)的准确性保证并不难。关键的观察是,即使我们只优化(2)的训练版本,由于泛化,群体损失也会很小,这实际上足以实现定理1的精度保证。
总结
在这篇博文中,我们讨论了为什么在未标记的数据上进行自我训练可以证明能提高准确率。我们在数据上建立了一个增强图,这样附近的例子就用一条边连接起来。我们假设同一类别的两个例子可以通过图中的一系列边连接起来。在这个假设下,我们表明,带有正则化的自我训练通过强制每个连接的子图具有相同的标签来提高伪标签器的准确性。一个局限性是,该分析只适用于细粒度的类别,因此每个类别在增强图中形成自己的连接部分。然而,我们可以想象这样的情景:一个大类是由较小的、稀疏连接的子类组成的联盟。在这些情况下,我们的假设可能不成立。我们关于对比性学习的后续博文将展示如何处理这种情况。
这篇博文是基于论文Theoretical Analysis of Self-Training with Deep Networks on Unlabeled Data。
其他参考文献
- Balcan MF, Blum A, Yang K. Co-training and expansion:迈向理论与实践的桥梁。神经信息处理系统的进展;2005年。
- Cheeger J. A lower bound for the smallest eigenvalue of the Laplacian.Problems in analysis; 2015.
- Chung FR, Graham FC.Spectral graph theory.American Mathematical Soc.; 1997.
- Kannan R, Lovász L, Simonovits M. Isoperimetric problems for convex bodies and a localization lemma.Discrete & Computational Geometry; 1995.
- Mohar B, Poljak S. Eigenvalues and the max-cut problem.Czechoslovak Mathematical Journal; 1990.