大规模数据集的标签策划成本很高,因此在对较小的、有标签的数据集进行微调之前,利用丰富的无标签数据是预训练机器学习模型的一个重要且有前途的方向。开发预训练模型的一个流行和成功的方法是对比学习,(He等人,2019,Chen等人,2020)。对比学习是一类强大的自监督视觉表征学习方法,它通过(1)最小化正向对或在某种意义上相似的样本的表征之间的距离,以及(2)最大化反向对或在某种意义上不同的样本的表征之间的距离来学习特征提取器。对比学习可以应用于未标记的图像,方法是让阳性对包含同一图像的增强部分,而阴性对包含不同图像的增强部分。
在这篇博文中,我们将提出一个理论框架来理解这种对比性学习方法的成功。我们的理论激发了一种新的对比性损失,在理论上保证了下游的线性探测性能。我们的实验表明,通过最小化这一目标而学习的表征取得了与最先进的方法相当的性能。
自监督学习的增量图
我们工作背后的关键想法是群体增强图的想法,这也出现在我们之前分析自我训练的博文中。作为提醒,这个图是这样建立的:节点代表人口分布中所有数据点的所有可能的增强,而边连接来自同一自然图像的节点。此外,鉴于所使用的增强功能的集合,边缘被加权为两个增强图像是同一基础图像的增强的概率。一些增强方法,如剪裁,产生的图像只能来自同一基础图像。然而,其他方法,如高斯模糊,在技术上将所有图像连接到一起,尽管大部分概率非常小。由于存在潜在的无限数量的增强,这个图更像是我们用来描述我们的想法的一个理论想法,而不是我们构建的一个实际图。下图给出了该图的可视化,法国斗牛犬的增强图像在该图中被连接。
图1
我们对该图有两个简单的直觉,表明它包含对预训练的计算机视觉模型普遍有用的信息。 首先, 任何两张图片之间都存在很少的高概率边,特别是如果它们有不同的语义内容。例如,考虑两张相同的狗的不同姿势的照片。即使语义内容相同,使用高斯模糊等增强方法从另一张图片中产生的可能性几乎为零。当考虑到两张甚至不共享相同物体的图像时,这种概率会进一步降低,比如一张狗在外面的图像和另一张海洋中的游轮图像。相反,唯一的高概率连接是具有类似方向或姿势的类似物体的增强图像。 其次,具有类似内容的图像(例如,同一品种的狗图像)可以通过插值图像的路径相互连接。上图直观地展示了这一直觉,其中x1和x2是两幅法国斗牛犬的增强图像,它们并不是从同一自然图像中获得的(因此它们之间没有高概率的边)。然而,由于增强图是一个理论构造,它是在包含所有可能的狗图像的群体数据上定义的,一定存在一条插值法国斗牛犬图像的路径(如图1所示),其中每一个连续的两个图像都由一条合理的高概率边直接连接。因此,这个序列形成了一个连接x1和x2的路径。
通过谱系分解进行图的划分
考虑到一个理想的世界,我们可以将扩增图划分为多个不相连的子图。从上面的直觉来看,每个子图包含的图像都可以很容易地相互插值,因此很可能在其图像中描绘了相同的基本概念或物体。这促使我们设计自我监督的算法,可以将同一子图内的节点映射为类似的表示。 假设我们可以获得人口数据分布,从而获得整个扩增图。一个成功的图划分算法是谱系聚类(Shi & Malik 2000,Ng et al. 2002),它使用谱系图理论工具来发现图中的连接成分。我们将在这里更详细地描述频谱聚类,然后将对比学习解释为在大型增强图上实现频谱聚类的一种有效的参数化方式。 让X表示图的顶点集,为了便于阐述,假设|X|=N。(N也可以是无限的或指数的。)让A∈RN×N为邻接矩阵,其中包含边缘权重wxx′作为其条目。对于每个节点x,让wx=∑x′∈Xwxx′是与x相连的边的权重之和(可以认为是顶点x的程度)。我们把矩阵L=I-diag(wx-1/2)⋅A⋅diag (wx-1/2)称为图的拉普拉契亚矩阵。 谱系聚类从拉普拉斯矩阵的重分解开始。让u1,u2, ⋯ ,uk是对应于最小的k个特征值的N维特征向量。如果我们把这些向量写成矩阵F∈RN×k的列,每一行(表示为v1,v2, ⋯ ,vN∈Rk)将对应于图中的一个节点。然后我们可以通过在这N个向量上运行k-means来获得图的k-way分区。
值得注意的是,我们不能直接在人口增殖图上运行频谱聚类,因为它的eigendecomposition步骤需要知道整个图(即人口中的所有数据),而实际上我们只有一个采样的数据集。然而,谱系聚类背后的直觉仍然是有价值的:拉普拉斯矩阵的最小特征向量应该提供相当好的数据表示。
对比学习作为频谱聚类的方法
我们可以利用这些关于频谱聚类的直觉来设计一种对比性学习算法。具体来说,因为我们无法获得真正的群体增强图,所以我们定义fθ,它是一个神经网络,接收一个例子并输出该例子的特征向量表示。换句话说,我们的目标是计算包含特征向量列的矩阵F,并使用其行作为表示。我们的目标是学习fθ,使fθ(x )是矩阵F中对应于例子x的一行。鉴于神经网络的高表现力,我们假设这样的θ存在。
事实证明,这个特征可以通过最小化以下 "矩阵分解损失 "来学习:
minFθL(Fθ)≜‖(I-L)-FθFθ⊤‖F2=∑i,j(wxixjwxiwxj-fθ(xi)⊤fθ(xj))2
其中Fθ∈RN×k是包含fθ(xi)作为其第i行的矩阵。根据Eckart-Young-Mirsky定理,这个损失的任何最小化器都包含I-L的最大特征向量(因此是L的最小特征向量)作为其列(直到缩放)。因此,在最小化器处,fθ恢复了最小的特征向量。 我们扩展上述损失,得出一个(有点令人吃惊的)类似于对比损失的公式:
minθL(fθ)=const-2∑i,jwxixjwxiwxjfθ(xi)⊤fθ(xj)+∑i,j(fθ(xi)⊤fθ(xj))2 =const-2Ex,x+fθ(x)⊤wxfθ(x+)wx++Ex,x′(fθ(x)⊤wxfθ(x′)wx′)2
其中(x,x+)是一个随机的正数对,(x,x′)是一个随机的负数对。在第二行中,我们利用wxixj和wxiwxj分别是(xi,xj)为正数和负数对的概率密度这一事实,用期望值代替和。 忽略常数项和标度wx(不影响所学表征的线性可分性),我们得到以下对比损失目标minθLscl(fθ)=-2Ex,x+[fθ(x)⊤fθ(x+)]+Ex,x′[(fθ(x)⊤fθ(x′))2],我们称之为光谱对比损失。这个目标的最小化器将对应于拉普拉斯矩阵的最小特征向量,并具有一些数据上的正比例。 总之,上述分析表明,当最小化对比损失的一个特殊变体(即光谱对比损失)时,所学特征对应于人口增强图的拉普拉斯矩阵的特征向量。
根据经验,通过训练光谱对比损失学到的特征可以与SimCLR和SimSiam等强基线相匹配。上表显示了在ImageNet上进行100个epoch预训练的线性探测精度。关于这种损失的经验性能的更多讨论可以在我们论文的实验部分找到。
为什么这种方法能产生良好的表征?
我们现在转向我们开始讨论的问题:为什么通过对比性损失学到的表征对下游的计算机视觉任务有用?我们用 "线性探测 "协议(Chen et al. 2020)来研究表征的下游准确性,在这个协议中,一个额外的线性模型被训练来预测下游分类任务的标签。 如上所述,通过光谱对比损失学到的表征是一个矩阵的行(具有数据上的正比例),其中列是拉普拉斯矩阵的最小特征向量。由于缩放并不改变线性预测,因此只需将特征向量矩阵的行视为表征。 这种表示法在分类任务中的用处可以通过下面的说教例子来证明:考虑一个有三个完全不相连的组件的增强图G,这些组件对应于三个类别,下游的任务是对一个组件进行分类(例如,集合{x1,x2,x3}与其余部分)。
上图显示了拉普拉斯的最小特征向量,其中空白项为0。不难看出,这里特征向量矩阵的行正好对应图中不同组件的指标,因此来自不同连接子图的节点的表示显然是线性可分离的。例如,如果我们使用f(x)⊤b的符号作为预测器,其中向量b∈Rk被设置为e1,我们可以完美地分类一个节点是否属于集合{x1,x2,x3}。 同样的直觉也适用于更广泛的环境,即图不是规则的,组件不一定是断开的,而且下游的任务有两个以上的类。综上所述,对比性学习表征可以线性地预测任何一组几乎不相连的成分,并具有很高的准确性,这可以通过以下定理来体现:**定理(非正式):**假设种群扩增图包含k个近似不连接的成分,其中每个成分对应于一个下游类。让特征图f:X→Rk是种群光谱对比损失的最小化。那么,在f上面存在一个线性头,可以实现小的下游分类误差。 这个定理的正式版本可以在我们的论文中找到。
结论
我们的理论表明,自我监督学习可以学习到相当强大和多样化的特征,这些特征适合于大量的下游任务。要看到这一点,请考虑这样一种情况:在增强图中有大量不相连的子图,下游任务可以是以任意的方式将这些子图归入少量的类(每个类可以对应许多子图,.例如,"狗 "类可能包含许多子图,对应不同品种的狗)。 由于实践中存在大量的无标签数据,传统意义上的泛化(即研究群体损失与经验损失)不再是理解自监督学习的主要挑战。相反,对群体预训练损失及其与下游任务的联系的良好理解变得至关重要。因此,对预训练数据的适当建模成为理论分析的关键。我们希望我们的理论框架,通过增强图来表征数据的属性,能够促进人们更好地理解深度学习中的无监督算法,并能激发新的实用损失函数和算法。 这篇博文是基于我们在NeurIPS 2021年的论文Provable Guarantees for Self-Supervised Deep Learning with Spectral Contrastive Loss。