《TransMatch: A Transfer-Learning Scheme for Semi-Supervised Few-Shot Learning》

categories: 论文阅读笔记

tags: 小样本学习

summary: 这篇文章提出了一种半监督小样本学习的迁移学习模式，该方法能够重充分利用有标签的基类和无标签的新类上的信

摘要

这篇文章提出了一种半监督小样本学习的迁移学习模式，它能够充分利用基类和新类上的信息。包括三个部分：1.在基类上预训练的特征提取器；2.使用特征提取器来初始化新类的分类器的权重；3.采用半监督的学习方法来进一步提高这个分类器。作者提出了一种新的方法叫做MixMatch，即利用imprint和MixMatch来实现了这三个部分。

引言

作者首先总结了小样本学习的两大门派：元学习方法，迁移学习方法。

元学习的方法 采用episode训练策略。episode是一种类似于batch的机制，它是从数据集中采样出来的一部分数据，其中只包含极少的基类中的数据，这样模拟了测试时只有极少的标注数据的情形。episode中的标注数据被分成两个部分，即support set和query set。support set用于构建模型，query set用于评估模型的性能。

迁移学习方法 这篇文章的灵感来自于迁移学习的方法，作者企图利用基类和新类的无标签数据来预训练一个模型，然后利用这个模型来学习一个新类的分类器。

主要贡献

1、提出了一种半监督小样本学习的迁移学习模式，它能够充分利用类和无标签新类数据的信息

2、开发了一个叫做TransMatch的方法，它综合了基于迁移学习的小样本学习方法的优势和半监督学习方法的优势

3、在流行的小样本学习数据集上进行了广泛的实验，并且展示了该方法确实能够充分利用无标签数觉得信息

方法

作者提出的方法是：首先利用基类的数据来进行模型的预训练。然后，将这个预训练模型作为一个特征提取器，来提取新类中少量的带标签样本的特征。然后将这些特征直接作为新类分类器的初始权重，在这个基础上来做进一步的微调。

预训练的特征提取器 利用基类中的数据来训练这个特征提取器。这跟迁移学习的预训练的目的是一样的，尽可能的提取基类中的知识，然后迁移到到新类的学习上。

Imprint权重 从新类 $D_{novel}$ 中采样N个类，每个类采样K个带标注样本，这就形成了N-way K-shot问题。这部分回答两个问题：1.如何进行Imprint权重？2.分类器实际上在做什么？ Imprint权重的核心公式见公式1

w_c=\frac{1}{K}\sum^{K}_{k=1}f^e(x^c_k)\tag{1}

下标c表示第c个类， $f^e$ 表示上一阶段得到的特征提取器。 $x^c_k$ 表示第c个类的第k个样本。很显然，这就是提取N-way K-shot样本的特征的平均值，将这个平均值作为权重。

分类器实际上在计算一个相似度。见公式2

f^{novel}(x)=[cos(\theta(w_1,x)),....cos(\theta(w_N,x))]^{\prime}\tag{2}

f^{novel}(f^e(x))\tag{3}

从公式2和公式3可以看出，新类的分类器实际上是在计算样本x的特征和k-shot的平均特征之间的余弦相似度。取相似度最大的类最为预测的类。但是，这里仅仅是设置了分类器权重的一个初值，在下一阶段还要进行微调。

微调阶段 作者使用MixMatch的方法来微调分类器。一方面是由于MixMatch在半监督学习任务上具有超强的性能，另一方面是因为MixMatch能够很好的利用无标注数据。一个批量的带标注数据记为 $L=\{(x_i,p_i)\}^{B}_{i=1}$ ，一个批量的无标注数据记为 $U=\{x_u\}^U_{u=1}$ 。

无标注数据的标签可以通过第二部分的Imprint的分类器来进行估计。首先对无标注数据的每个样本进行数据增强，产生M个增强版本，这样就得到数据集 $\{x_{u,1},...x_{u,M}\}$ ，将这M个版本的样本分别输入到相同的分类器中，将会产生M个不同的预测，取这M个预测值的平均值，见公式4。然后做一个sharpen操作（T=0.5），来最小化未标注数据的熵，sharpen之后的结果将作为最终的估计值，见公式5。

\bar{p}_u=\frac{1}{M}\sum^{M}_{i=1}f(x_{u,i})\tag{4}

p_u=\bar{p}_{u}^{1/T}/\sum^N_{j=1}(\bar{p}_u)^{1/T}_j\tag{5}

优化目标包括两个部分，一部分是交叉熵损失，一部分是自洽正则化的损失，见公式6。

loss=-\frac{1}{|\mathcal{X}^{'}_1|}\sum_{(x,p)\in \mathcal{X}^{'}_1}p\ log(f(x)) + \frac{1}{N|\mathcal{X}^{'}_2|}\sum_{(x,p)\in \mathcal{X}^{'}_2}||p-f(x)||^2_2\tag{6}

公式中 $f(·)$ 表示新类分类器，它是用于对无标注数据做出预测的。MixMatch方法采用了Mixup数据增强的方法，即构造混合样本和混合标签。首先将 $L$ 和 $U$ 进行合并（这里的合并应该是在axis=0方向的合并），然后做一个shuffle操作，见公式7，将得到的结果称为 $\mathcal{W}$ ，然后将这个 $\mathcal{W}$ 划分为两个部分，见公式8。这样的得到了两个增强的数据集 $\mathcal{X}^{\prime}_{1}$ 和 $\mathcal{X}^{\prime}_{2}$ 。其中 $\mathcal{X}^{\prime}_{1}$ 是将 $L$ 数据集和 $\mathcal{W}$ 的前 $|L|$ 个样本混合得到的。 $\mathcal{X}^{\prime}_{2}$ 是将 $U$ 和 $\mathcal{W}$ 的剩余的 $|U|$ 个样本混合得到的。因此公式6的标签 $p$ 应该是混合标签。但是公式6中的第二部分为什么有个N。

\mathcal{W}=Shuffle(Concat(L,U))\tag{7}

\mathcal{X}^{'}_{1}=MixUp\{L_i,\mathcal{W}_i\}\qquad i\in (1....|L|) \\ \mathcal{X}^{\prime}_{2}=MixUp\{U_i,\mathcal{W}_{i+|L|}\} \qquad i\in (1....|U|) \tag{8}

总览

1、采用基类数据集预训练一个特征提取器，这个特征提取器用于提取新类样本的特征，取新类样本特征的平均值来imprint新类分类器的权重。 2、将带标注数据的样本和无标注数据的样本进行合并，做一个shuffle，构成了一个新的集合 $\mathcal{W}$ 。无标注样本的标签可以通过imprint过的分类器获得。 3、将带标注数据集 $L$ 和 $\mathcal{W}$ 中前 $|L|$ 个样本进行MixUp操作得到数据集 $\mathcal{X}_1^{\prime}$ ， $\mathcal{X}^{\prime}_{2}$ 是将 $U$ 和 $\mathcal{W}$ 的剩余的 $|U|$ 个样本混合得到的。 4、利用Imprint的分类器在 $\mathcal{X}_1^{\prime}$ 计算交叉熵损失，在 $\mathcal{X}_2^{\prime}$ 计算自洽正则化损失。有了损失就可以计算梯度，然后进行反向传播更新模型参数。

附录

MixMatch是怎么样的过程 zhuanlan.zhihu.com/p/66281890

《TransMatch: A Transfer-Learning Scheme for Semi-Supervised Few-Shot Learning》

摘要

引言

主要贡献

相关工作

1.小样本学习

2.半监督学习

3.半监督的小样本学习

问题定义

方法

总览

附录