【论文学习】迁移度量学习:算法、应用和前景

346 阅读6分钟

这是我参与11月更文挑战的第1天

链接

简介

样本间的距离估算在图形分析和机器学习应用中是非常重要的,为了学习可信赖的距离度量,我们通常需要大量的标记信息,然而现实中的数据大多没有标记而人工标记是劳动密集型工作需要高昂的成本。

迁移学习的目标在于标记缺失案例的模型训练问中缓解问题造成的影响,因此将其引入到了提升距离度量学习的性能中用于应对目标域中标记信息不足的情况。这就启发了迁移度量学习(transfer metric learning, TML),且在很多应用中被证明非常有用。

背景和总览

迁移度量学习简史

迁移度量学习(TML)是一个新的研究领域,明确将迁移学习用于距离度量学习(DML)的工作开始于2009年。一些方法通过源度量来提升目标度量学习,如使用多个辅助(源)数据集提升目标集的度量学习,其核心思想在于强制目标度量接近源度量,学习一个自适应权重来反映源度量对目标度量的贡献。

此外,还可以通过让不同的DML任务互相帮助来提升目标度量的学习,通常称之为多任务度量学习(MTML),一个有代表性的工作是著名DML算法的多任务扩展LMNN。

异构TML的研究比同构TML晚一些,相关研究工作也少一些。第一个为异构TML设计的工作为“Transfer learning of distance metrics by cross-domain metric sampling across heterogeneous spaces”,不过其局限于两个域(即只能用于一个源域和目标域),现在还有一些面向异构MTML的基于张量的方法,利用所有域间的高阶相关性。

图1展示了TML的发展过程: image.png

符号和定义

本文中假设存在MM个不同领域,其中第mm个领域的特征空间为Xm\mathcal{X}_m,其边缘分布为Pm(Xm)P_m(\mathcal{X}_m),一般而言假设第MM(最后)一个领域为目标域,其余为源域。若只有一个源域则用SS表示。在DML中,其主要任务是学习两个实例间的一个距离函数,即dϕ(xi,xj)d_{\phi}(x_i,x_j),其必须满足多个性质包括:非负性、恒等性、对称性和三角形不等式。此处的ϕ\phi为距离函数的参数,称之为距离度量。对于一个非线性距离度量,ϕ\phi通常为一个非线性特征映射。线性度量定义为AA,为一个半正定(PSD)矩阵采用流行的马氏距离度量学习。

为学习第mm域的度量,假设存在一个训练集Dm\mathcal{D}_m包含NmN_m个样本,其中xmiRdmx_{mi}\in \mathbb{R}^{d_m}为第ii个样本的特征表示,在完全监督情景中,相应的标签为ymiy_{mi}。在弱监督场景中,仅存在一些相似/不相似约束的训练样本对(xmi,xmj)(x_{mi},x_{mj}),或者约束可以是一个训练三元组(xmi,xmj,xmk)(x_{mi},x_{mj},x_{mk})的相对比较。

在传统的DML中,经常可以获得大量的标记数据,因此很容易学得度量AA*,如图2中所示的区分斑马和老虎。但是在现实生活中,由于目标域数据不足,学习到的度量AMA_M可能不满足要求,它很难区分同样带有相似条纹的老虎和斑马。为了减轻目标度量学习中的标签缺失问题,可以利用其他相关源域的信息,通过大量的标签数据学习,可以很好地学习到度量ASA^*_S。例如,如果有足够的标记样本,可以很好地区分"马"和"猫",那么就可以通过少量标记样本很容易识别"斑马"和“老虎”。由于不同的数据分布和表示,源度量不能直接在目标域中使用。因此,(同构或异构)迁移度量学习发展的目的是通过从源域中转移知识(特别是度量信息)来改进目标度量。

image.png

迁移度量学习技术的分类

迁移度量学习可以根据不同的原则分为如图3所示的几类。首先根据特征设置可以分为同构和异构TML,在同构TML中,不同领域的样本位于同一特征空间,即X1=...=XM\mathcal{X}_1=...=\mathcal{X}_M仅数据分布不同,即P1(X1)...PM(Xm)P_1(X_1)\neq ...\neq P_M(X_m)。异构TML中不同领域的样本位于不同的特征空间,即X1...XM\mathcal{X}_1\neq...\neq\mathcal{X}_M

image.png

不同的TML同样可以分为归纳TML、直推式TML和无监督迁移TML,具体区别见链接和表1。

image.png

根据迁移策略的不同TML可以进一步分成四种案例(前两者通常出现在同构TML中,后两者通常出现在异构TML中):

  • 早期的TML直接强制目标度量接近源度量,将其称为通过度量近似的TML(TML via metric approximation)。
  • 在同构TML中源域和目标域的主要差别在于分布差异,一些方法通过最小化分布差异来实现度量迁移,称之为通过分布近似的TML(TML via distribution approximation)。
  • 通常在异构TML中,一些TML方法通过寻找源域和目标域间的一个公共子空间来实现知识迁移,称之为通过子空间近似的TML(TML via subspace approximation)。
  • 一些工作尝试令不同域间的距离函数共享一些部分或强制对应的样本对距离在不同的领域内保持一致,称之为通过距离近似的TML(TML via distance approximation)。

表2是对上述内容的一个简单介绍。 image.png

表3展示了不同环境下适用的策略。 image.png

同构迁移度量学习

同构TML中,不同领域使用的特征是相同的,但数据分布不同。例如图4中所示的情感分类,我们想要确定对电子学的评论的情感分类(积极、消极或中立)。情感分类器的性能很大程度上取决于评论之间的距离估计,为了获得可靠的距离估计,通常需要大量的标记评论来学习一个良好的距离度量。但标记成本很高难以获得大量的标记评论,但比较幸运的是可以采集到大量有标签的其他书评,由于电子学这本书的评论和其他书评分布不同不能直接适用其度量,因此迁移度量学习就可以派上用场了。

image.png

归纳TML

在归纳设置中,提供了一些目标域内的标记数据,源域中的标记数据数量足够多因此可以获得不错的距离度量,即NS>>NM>0N_S>>N_M>0。在归纳迁移学习中,可能没有标记的源数据(NS=0N_S=0),但是在目前的同构TML工作中尚未有相关研究。

通过度量近似的TML

对于同构TML一个基本思想是首先用源域数据{Dm}\{\mathcal{D}_m\}来学习源距离度量{ϕm}\{\phi_m\},然后强制令目标的度量接近之前训练得到的源度量。因此对于目标度量ϕM\phi_M的基本计算公式为:

arg minϕMϵ(ϕM)=L(ϕM;DM)+γR(ϕM;ϕ1,...,ϕM1)\argmin_{\phi_M}\epsilon(\phi_M)=L(\phi_M;\mathcal{D}_M)+\gamma\mathcal{R}(\phi_M;\phi_1,...,\phi_{M-1})

其中L(ϕM;DM)L(\phi_M;\mathcal{D}_M)表示关于度量的经验损失,R(ϕM;ϕ1,...,ϕM1)\mathcal{R}(\phi_M;\phi_1,...,\phi_{M-1})为通过源度量和目标度量间关系得到的一个正则化项,γ0\gamma\geq 0为一个权衡超参数。(关于正则化项的意义见链接

这类方法的关键在于如何选择合适的正则化项。