Self-Supervised Facial Representation Learning with Facial Region Awareness翻译

题目：

Self-Supervised Facial Representation Learning with Facial Region Awareness

具有面部区域感知的自监督面部表征学习

作者：

Zheng Gao, Ioannis Patras
伦敦玛丽女王大学

摘要：

自监督预训练已经被证明在学习可迁移的表示上非常有效，这些表示有助于各种视觉任务。本文提出了这样一个问题：自监督预训练能否学习到通用的面部表征，以便应用于各种面部分析任务？当前为实现这一目标的努力主要集中在将每一张人脸图像作为一个整体进行处理，即在图像级别学习一致的面部表征，但忽略了“局部面部表征的一致性”（即，面部的局部区域如眼睛、鼻子等）。在这项工作中，我们首次提出了一种新颖的自监督面部表征学习框架，名为面部区域感知（FRA），它可以同时学习一致的全局和局部面部表征。具体来说，我们通过在不同视图之间匹配局部面部表征，明确强制了面部区域的一致性，这些局部表征是通过学习到的热图提取出来的，而热图则突出显示了面部区域。受监督语义分割中掩码预测的启发，我们通过特征图的每像素投影与“面部掩码嵌入”之间的余弦相似度生成热图，这些“面部掩码嵌入”是从可学习的位置嵌入计算得到的，利用了注意力机制在全局范围内查找面部区域。为了学习这些热图，我们将面部掩码嵌入的学习表述为一个深度聚类问题，通过将特征图中的像素特征分配给这些嵌入。面部分类和回归任务的迁移学习结果表明，我们的FRA优于之前的预训练模型，并且更重要的是，使用ResNet作为统一的主干网络，FRA在面部分析任务中与当前最先进的方法相比，取得了相当甚至更好的性能。

1. 引言：

人脸理解是计算机视觉中的一个重要且具有挑战性的课题【41, 72】。最近，监督学习算法在各种面部分析任务中显示了有前景的结果【5, 31, 55, 71】。尽管取得了显著进展，但这些方法通常需要大规模且标注良好的训练数据，而这类数据的收集代价非常高。

最近，关于视觉图像的自监督表示学习的研究表明，自监督预训练在提高各种下游任务（如图像分类、对象检测和分割）性能上非常有效，因为它能够从未标注的数据中学习到通用的表示，并且这些表示可以转移到有标签数据有限的下游视觉任务中【18, 24, 28, 30, 58, 62, 65】。其中，实例辨别（包括对比学习【10, 22, 36】和非对比学习【11, 20】两种范式）被证明在学习可推广的自监督特征方面是有效的。实例辨别旨在通过匹配由图像增强生成的不同视图之间的全局表示，学习到视图不变的表示，即增强视图的图像级表示应当相似【10–12, 20, 22, 36】。另一种自监督学习范式是掩模图像建模（MIM）【23, 54】，它通过从掩模图像重建图像内容来学习视觉表示，在完整模型微调中取得了优异的表现。这引出了一个问题：自监督预训练能否学习到能够在下游面部分析任务中表现出色的通用面部表征？

一些研究已经尝试为面部分析任务学习通用的面部表征【3, 41, 72】。例如，Bulat等人【3】直接将对比目标应用于面部特征。FaRL【72】和MCF【59】结合了对比学习和掩模图像建模【23】。PCL【41】提出将姿势相关和姿势无关的特征进行解耦，并在姿势相关（回归任务）和姿势无关（分类任务）的面部分析任务中取得了出色的表现。然而，该方法在每次训练步时需要前向和后向运行三次，计算成本非常高。尽管这些方法技术各异，但它们都有一个共同点，即都将每张面部图像视为一个整体进行处理，以在图像级别学习一致的全局表征，而忽略了局部面部区域（如眼睛、鼻子、嘴巴等）的空间一致性。这种处理方式限制了它们在下游任务中的泛化能力。

我们认为，为了学习一致的局部表征，模型需要关注面部的局部区域。为此，我们提出了一组热图，通过利用可学习的位置嵌入作为面部查询（特征图作为键和值）来全局查找面部图像的局部区域，从而预测出这些局部区域。这种方法受到监督分割中掩码预测的启发【13】。在视觉图像中，Transformer的注意力机制允许可学习的位置嵌入充当对象查询，用于查找视觉模式【7, 13】。在我们的场景中（面部图像），可学习的位置嵌入被用作面部区域的查询。

在这项工作中，考虑到局部面部区域的一致性，我们首次尝试提出了一种新型的自监督面部表征学习框架，名为面部区域感知（FRA），通过学习一致的全局和局部面部表征来学习通用的面部表征。我们基于BYOL【20】这一简化的实例判别基线进行学习。具体来说，我们通过在增强视图中匹配局部面部表征来学习一致的局部面部表征，这些局部表征是通过使用学习到的热图聚合特征图来提取的，热图突出显示了面部区域。我们从一组可学习的位置嵌入中生成热图，这些嵌入被用作面部查询，以查找面部区域。Transformer解码器接收来自编码器的特征图和可学习的位置嵌入作为输入，输出一组面部掩模嵌入，每个掩模与一个面部区域相关联。然后，通过计算特征图每像素投影与面部掩模嵌入之间的余弦相似度，生成热图。此外，我们还在不同视图中保持全局表征的一致性，从而确保图像级信息得以保留。为了学习这些热图（面部掩模嵌入），受深度聚类【8】的启发，我们将面部掩模嵌入视为聚类，并学习将特征图中的像素特征分配到这些聚类中。具体来说，我们通过在线网络和动量网络，在同一个增强视图中对像素特征的每像素聚类分配进行对齐。与监督分割直接使用地面真值掩模来监督掩模（热图）的学习不同，我们将热图的学习表述为一个深度聚类问题【8】，该问题以自监督的方式将像素特征分配到聚类（面部掩模嵌入）中。

我们的贡献可以总结如下：

考虑到局部面部区域的一致性，我们首次尝试提出了一种新型的自监督面部表征学习框架，FRA，学习一致的全局和局部面部表征。
我们展示了学习到的热图可以粗略发现面部区域。
在之前的工作中，不同的主干网络被用于不同的面部分析任务（例如，在面部对齐中，常用的是Hourglass网络【63】，而在面部表情识别中，ResNet【21】是常见的主干网络）。在这项工作中，我们的FRA使用了Vanilla ResNet【21】作为统一的主干网络，在各种面部分析任务中达到了SOTA（state-of-the-art，最先进）性能。
我们的FRA在面部分类（如面部表情识别【19, 38】和面部属性识别【42】）及回归任务（如面部对齐【48–50, 60】）中，均优于现有的自监督预训练方法（如BYOL【20】和PCL【41】），并且与SOTA方法相比，FRA在面部分析任务中表现出了相当甚至更好的性能。

2. 相关工作

2.1 视觉表示学习

作为自监督预训练的主要范式之一，实例判别通过将图像作为一个整体来学习表示，并在增强视图之间强制全局表示在图像级别上的一致性。一般来说，实例判别有两种主要范式：对比学习【10, 22, 36】和非对比学习【11, 20】。对比学习将每个图像及其变换视为不同的类，即“正样本”被拉近，而“负样本”在潜在空间中被推开。与依赖负样本以避免崩溃的对比学习不同，非对比学习直接最大化增强视图之间的全局表示相似性，而不涉及负样本，依赖于如停梯度【11】和预测器【20】等技术。进一步的工作通过将对比学习目标应用于图像-文本对，来进行视觉-语言预训练【29, 35, 47】。

另一条工作线索是掩模图像建模（MIM）【1, 23, 54】，它通过从掩模图像中重建图像内容来学习视觉表示，受到了NLP中掩模语言建模的启发【15】。与实例判别不同，MIM通过视觉Transformer的充分预训练在全模型微调中实现了强大的性能。然而，这些工作在少样本场景下的数据效率低于实例判别【1】，并且线性可分性较差。

2.2 面部表示学习

近年来，面部分析任务的研究探索了几种面部相关任务中的自监督学习，如面部表情识别【9, 53】、面部识别【9, 57】、面部微表情识别【46】、面部动作单元检测（AU detection）【39, 40】、面部对齐（面部关键点检测）【14, 64】等。然而，这些方法通常是任务特定的，即为某个特定的面部任务量身定制，因此无法在多种面部分析任务中通用【41】。进一步的工作【3, 41, 72】则致力于通过对比学习和掩模图像建模【23, 54】来学习通用的面部表征。Bulat等人【3】直接将对比学习目标应用于同一人脸图像的增强视图，展示了通过预训练学习到的通用面部表征可以应用于多种面部分析任务。FaRL【72】通过视觉-语言结合的方式进行预训练，采用了图像-文本对比学习和掩模图像建模。MCF【59】结合了图像级的对比学习和掩模图像建模，并从外部的ImageNet预训练模型中提取知识以进行面部表征学习。PCL【41】认为，直接将对比目标应用于面部图像，忽视了面部姿势的变化，导致学习到的表示对姿势不敏感，从而限制了姿势相关任务的性能【66, 75】。因此，PCL【41】将姿势相关特征和姿势无关特征解耦，然后对这些特征分别进行对比学习，从而在姿势相关和姿势无关的面部分析任务中均取得了强大的性能。然而，尽管这些方法表现优异，它们依旧主要集中于实例判别范式，忽略了局部面部区域的一致性。

2.3 面部区域发现

一些方法利用面部区域（如面部关键点）的发现来进行面部分析【27, 43, 61】。这些方法中的一些通过图像重建来学习每个关键点的热图【27, 68】，或通过等方差损失执行像素级匹配【56, 68】来进行关键点检测。尽管这些方法各不相同，它们通常是任务特定的，即通过发现局部信息来进行关键点检测，而我们的FRA方法是任务不可知的，即通过保持图像、区域和像素级别的一致性来学习各种任务的通用面部表征。MARLIN【4】通过使用外部的面部解析算法来发现面部区域（如眼睛、鼻子和嘴巴），并利用这些区域来引导掩模自动编码器的掩蔽。与之密切相关的工作SLPT【61】利用注意力机制，通过监督学习从初始面部关键点估计中提取面部关键点。这些方法通常依赖于外部的监督信号，而我们的FRA方法则通过自监督方式，端到端地发现面部区域，用于面部表征学习。

3. 方法

3.1 总览

如图1所示，我们提出的FRA框架的目标是同时学习一致的全局和局部面部表征。为此，我们提出了两个主要目标：像素级语义关系和图像/区域级语义一致性。像素级语义关系通过在线网络和动量网络之间的面部掩模嵌入的逐像素聚类分配对齐，来学习面部区域的热图（详见3.2节）；语义一致性通过匹配增强视图中的全局和局部面部表征，保证不同视图间的一致性（详见3.3节）。

3.2 语义关系

如图1所示，采用了BYOL的连体结构（Siamese），这是一个基于实例判别的流行自监督预训练基线。遵循BYOL的做法，使用两个分支：在线网络由参数 $\theta$ 控制，动量网络由参数 $\xi$ 控制。在线网络 $\theta$ 包括编码器 $E_\theta$ 、全局投影器 $H_g^\theta$ 和局部投影器 $H_l^\theta$ 。动量网络的架构与在线网络相同，不同之处在于动量网络通过对 $\theta$ 的指数移动平均来更新。与BYOL相同，我们在在线网络的投影器上添加了全局预测器 $G_g^\theta$ 和局部预测器 $G_l^\theta$ ，为简洁起见，图1中省略了这一部分。

给定输入图像 $x$ ，进行两次随机增强，生成两个增强视图 $x_1 = T_1(x)$ 和 $x_2 = T_2(x)$ ，遵循BYOL的做法。每个增强视图 $x_i \in {x_1, x_2}$ 输入到编码器 $E$ ，生成特征图 $F_i \in \mathbb{R}^{C \times H \times W}$ （全局平均池化之前），其中 $C$ 、 $H$ 和 $W$ 分别表示通道数、高度和宽度。然后，通过全局投影器 $H_g$ 将每个潜在表示 $h_i \in {h_1, h_2}$ 变换为全局嵌入 $z_i \in \mathbb{R}^D$ ，即 $z_1 = H_g^\theta(h_1)$ 和 $z_2 = H_g^\xi(h_2)$ 。

接下来，从特征图 $F_i$ 中生成一组热图 $M_i \in {M_1, M_2}$ ，用于突出显示面部区域，受到了基于掩模分类的监督分割的启发，该方法利用注意力机制在全局范围内查找视觉模式。

首先，局部投影器 $H_l^\theta$ 用于逐像素投影特征图 $F_i$ ，将其映射到 $D$ 维空间，得到稠密特征图 $F_i^{dense} \in \mathbb{R}^{D \times H \times W}$ 。以视图 $x_1$ 为例，投影特征图可以表示为：

F_1^{dense}[\ast, u, v] = H_l^\theta(F_1[\ast, u, v])

其中， $F_1[\ast, u, v] \in \mathbb{R}^C$ 是特征图 $F_1$ 在 $(u, v)$ 处的像素特征。

接着，如图2所示，受到监督分割的启发，论文使用Transformer解码器（随后接一个多层感知器（MLP）），该解码器以特征图 $F_i$ 和 $N$ 个可学习的位置嵌入（即“面部查询”）作为输入，生成 $N$ 个“面部掩模嵌入” $Q_i \in \mathbb{R}^{N \times D}$ ，其中每一行对应一个面部区域。

接下来，计算面部掩模嵌入 $Q_i$ 与稠密特征图 $F_i^{dense}$ 在通道维度上的余弦相似度，得到逐像素聚类分配 $S_i \in \mathbb{R}^{N \times H \times W}$ ，其中 $S_i[\ast, u, v]$ 表示稠密像素特征 $F_1^{dense}[\ast, u, v]$ 与面部掩模嵌入 $Q_i$ 之间的关系。

最后，在通道维度上对 $S_i$ 进行softmax归一化，得到 $N$ 个热图 $M_i \in \mathbb{R}^{N \times H \times W}$ ，每个向量 $(u, v)$ 表示一个归一化的概率相似性分布。注意， $M_i$ 是一组热图，每个通道 $M_i^{(m)}$ 表示一个二维热图。

为了学习这些热图（即面部掩模嵌入），受深度聚类的启发，将面部掩模嵌入视为面部区域的聚类，并通过动量网络作为教师网络，在相同增强视图中对在线网络和动量网络的逐像素聚类分配进行对齐。

遵循BYOL的做法，将增强视图 $x_1$ 和 $x_2$ 分别输入在线网络和动量网络。以 $x_1$ 为例，在线网络 $\theta$ 输出归一化的逐像素聚类分配 $s_{u,v}^1$ ，动量网络则输出目标分配 $\hat{s} _{u,v}^1$ 。根据以下交叉熵损失函数，用 $\hat{s}_{u,v}^1$ 作为指导来学习 $s_{u,v}^1$ ：

CE(s_{u,v}^1, \hat{s}_{u,v}^1) = -\sum_{m=1}^N \hat{s}_{u,v}^1[m] \log s_{u,v}^1[m]

对于两个增强视图，定义对称的语义关系目标为：

L_r = \frac{1}{HW} \sum_{u,v} (CE(s_{u,v}^1, \hat{s}_{u,v}^1) + CE(s_{u,v}^2, \hat{s}_{u,v}^2))

对动量网络生成的目标分配应用Sinkhorn-Knopp归一化，以避免崩溃，并使用均值熵最大化（ME-MAX）正则化来最大化预测的熵，从而鼓励模型充分利用聚类。

3.3 语义一致性

在这一部分，强制执行全局嵌入和局部面部嵌入的一致性。学习到的热图 $M_i$ ,通过加权平均池化生成局部面部区域的潜在表示：

h_i^m = M_i^{(m)} \otimes F_i = \frac{1}{\sum_{u,v} M_i[m,u,v]} \sum_{u,v} M_i[m,u,v] F_i[\ast,u,v]

其中 $\otimes$ 表示通道级加权平均池化， $M_i^{(m)}$ 是 $M_i$ 的第 $m$ 个通道（热图）， $h_i^m \in \mathbb{R}^C$ 是使用 $M_i^{(m)}$ 生成的潜在表示。面部嵌入 $z_1^m = H_l^\theta(h_1^m)$ 和 $z_2^m = H_l^\xi(h_2^m)$ 分别通过局部投影器 $H_l^\theta$ 和 $H_l^\xi$ 得到。

通过使用BYOL的负余弦相似度来匹配不同视图间的全局和局部面部嵌入：

L_{sim}(z_1, z_2) = -(\lambda_c \times f_s(G_g^\theta(z_1), z_2) + (1 - \lambda_c) \times \frac{1}{N} \sum_{m=1}^N f_s(G_l^\theta(z_1^m), z_2^m))

其中 $f_s(u,v) = \frac{u \cdot v}{|u|_2 |v|*2}$ 表示向量 $u$ 和 $v$ 之间的余弦相似度， $\lambda_c$ 是损失权重， $G_g^\theta$ 和 $G_l^\theta$ 分别是全局和局部投影器上的预测器。

将相似性损失 $L*{sim}(z_1, z_2)$ 对称化，并通过动量网络 $\xi$ 对视图 $x_1$ 进行计算，对视图 $x_2$ 则使用在线网络 $\theta$ 进行计算，从而得到语义一致性目标：

L_c = L_{sim}(z_1, z_2) + L_{sim}(z_2, z_1)

3.4 总体目标

将语义关系目标和语义一致性目标联合优化，最终的总体目标为：

L = L_c + \lambda_r L_r

其中 $\lambda_r$ 是平衡 $L_c$ 和 $L_r$ 的损失权重。

4. 实验

4.1 实验设置

4.1.1 实现细节

使用了与BYOL【20, 25】相同的数据增强策略。热图的数量 $N$ 经验性地设定为8。损失权重 $λc$ 和$ λr 分别设定为0.5和0.1。为了公平比较，其他超参数保持与BYOL【20】中的设置一致。网络架构和预训练的详细信息在补充材料中提供。

4.1.2 基线

我们的基线方法包括用于视觉图像的自监督预训练方法（例如，BYOL【20】和LEWEL【25】），以及针对面部图像的预训练方法（例如，Bulat等人【3】和PCL【41】）。值得注意的是，SwAV【8】相当于Bulat等人的方法【3】。由于我们使用了BYOL【20】作为预训练的基础模型，因此在所有实验中，我们都将FRA与BYOL【20】进行比较。我们还与另一种预训练方法LEWEL【25】进行了比较，该方法为视觉图像学习了局部一致性。此外，我们还与最先进的下游任务方法进行了比较。

4.2 评估协议

遵循先前工作的惯例【41, 72】，我们在几个流行的下游面部分析任务中评估了自监督预训练的面部表征的迁移性能：面部表情识别（Facial Expression Recognition, FER）【2, 38】、面部属性识别（Facial Attribute Recognition, FAR）【42】以及面部对齐（Face Alignment, FA）【48–50, 60】。具体而言，我们使用预训练权重初始化下游任务的主干网络，然后共同训练主干网络和任务特定的头部网络【72】。我们分别报告了线性探测（线性分类器，标记为“LP”）和微调（微调整个模型，标记为“FT”）的性能。以下是下游任务的详细描述：

面部表情识别 是一个多类分类任务，目标是对给定人脸图像的情绪表达进行分类（例如，愤怒、恐惧、惊讶等）。我们采用了三个广泛使用的数据集：FERPlus【2】、RAF-DB【38】和AffectNet【45】。对于RAF-DB，我们使用基本情感子集，遵循【32, 41, 70】中的做法。对于AffectNet，我们报告了包含7种情感类别的结果（即中性、快乐、悲伤、惊讶、恐惧、愤怒、厌恶），遵循【32, 70】的设定。
面部属性识别 是一个多标签分类任务，目标是预测给定面部图像的各种属性（例如，性别、年龄、种族等）。我们采用了流行的CelebA【42】基准数据集，该数据集包含超过20万张人脸图像，每张图像包含40个面部属性。我们报告了所有属性的平均准确率。
面部对齐 是一个回归任务，目标是预测面部图像上的二维面部关键点坐标。我们使用了两个流行的基准：WFLW【60】和300W【48–50】。遵循常见做法【14, 26, 74】，我们报告了归一化均方误差（Normalized Mean Error, NME）、失败率（Failure Rate, FR）和AUC。对于300W数据集，我们报告了完整测试集、常见（554张图像）和挑战（135张图像）测试集的结果，遵循【26, 74】的做法。

4.3 与弱监督预训练方法的比较

在表1中，我们将我们的FRA与最先进的弱监督预训练Transformer模型FaRL【72】进行了比较，FaRL是在2000万张视觉-语言数据（包括面部图像和文本）上使用图像-文本对比学习和掩模图像建模进行预训练的。我们对预训练的特征主干和任务特定的头部进行了微调，测试其在相应的下游面部分析任务上的表现。我们的自监督FRA，使用了参数量为2400万的ResNet-50，与参数量为8600万的弱监督FaRL【72】相比，在所有任务上表现出色。

4.4 迁移学习

在本节中，我们将我们的FRA与自监督预训练方法和最先进方法在多个下游任务中的表现进行了比较。设置的细节见补充材料。

4.4.1 面部表情识别

表2中报告了面部表情识别的结果。我们观察到：（1）在微调（FT）设定下，我们的FRA优于之前的自监督预训练方法（如BYOL和LEWEL）以及针对面部图像的预训练方法（如PCL和MCF）。特别是，使用参数量为2400万的ResNet-50的FRA超过了并发工作MCF【59】中参数量为8600万的ViT-B/16【17】。（2）仅通过在线性分类器上训练，我们的FRA在AffectNet【45】数据集上超过了具有复杂设计的最先进的面部表情识别方法（如EAC【70】）。（3）更重要的是，通过使用我们预训练的模型初始化最先进的面部表情识别方法EAC【70】的主干，我们的“FRA (EAC)”变体在所有数据集上均改进了EAC【70】的表现，这表明“FRA (EAC)”优于SOTA的FER方法，展示了我们提出的自监督预训练的优越性。

4.4.2 面部属性识别

如表3所示，我们的FRA优于视觉图像的自监督预训练方法和面部图像的预训练方法。面部表情识别和面部属性识别的结果表明，我们的FRA为面部分类任务学习到了更好的面部表征。

4.4.3 面部对齐

如表4所示，尽管最先进的面部对齐方法（如ADNet【26】和STAR【74】）通常依赖于专为回归任务（如关键点检测）设计的Hourglass网络【63】，但我们基于ResNet的FRA方法在许多任务上取得了与这些SOTA方法相当的性能（例如在300W数据集上，NME为2.91 vs 2.87）。这表明FRA使用通用的ResNet作为主干，在面部分类任务（如表情识别）和回归任务（如面部对齐）上都能取得SOTA结果。

4.5 消融实验

我们在VGGFace2【6】上预训练模型，然后在面部表情识别（RAF-DB）和面部属性识别（CelebA）上对其进行评估，如4.2节所述。

4.5.1 不同模块的影响

表5中展示了所提出的语义一致性损失（即整个面部的全局一致性和面部区域的局部一致性）以及语义关系损失对我们方法的贡献。我们有以下观察：（1）使用所有损失的变体取得了最佳结果。（2）全局一致性（GC）对于避免分类任务中的退化至关重要。（3）局部一致性（LC）或语义关系（SR）单独对回归任务（关键点检测）有好处。总体而言，LC和SR通过捕捉空间/局部信息改进了BYOL【20】（GC），在分类和回归任务上均有提升，验证了我们提出的面部区域感知方法的有效性。

4.5.2 热图数量的影响

表6中，我们研究了热图数量对性能的影响。我们观察到最佳的设定为 N=8N = 8N=8，这一数值接近面部关键点的数量5。这表明，在足够多的面部图像训练下，合适的 NNN 可以促使模型学习到与面部相关的特定模式，这有助于提高在不同面部分析任务中的迁移学习表现。进一步增加热图数量可能会迫使模型关注不适合面部任务的细粒度模式。

4.5.3 损失权重的影响

表7中，我们对语义一致性损失 λc\lambda_cλc 和语义关系损失 λr\lambda_rλr 的权重进行了消融实验。我们发现，当 λc=0.5\lambda_c = 0.5λc=0.5 和 λr=0.1\lambda_r = 0.1λr=0.1 时效果最佳。当 λc=1.0\lambda_c = 1.0λc=1.0 且 λr=0\lambda_r = 0λr=0 时，仅应用了全局表示的一致性，模型表现较差，这表明局部表征的一致性和语义关系损失的重要性。通过使用语义关系损失，性能显著提升。然而，当 λr\lambda_rλr 设置过高时，性能反而下降，这是因为在线网络和动量网络之间的像素级一致性可能影响到对图像/对象级信息的捕捉。

4.5.4 Transformer解码器层数的影响

表8中，我们研究了用于热图预测的Transformer解码器层数的影响。我们观察到，单层解码器已经能够产生相当不错的结果，表明1层解码器已经足以捕捉人脸图像中的面部区域（关键点）关系。随着解码器层数的增加，性能的提升趋于减小。默认情况下，我们仅使用1层解码器以加快训练速度。

5. 结论

在这项工作中，我们提出了一种新颖的自监督面部表征学习框架，称为面部区域感知（Facial Region Awareness, FRA） ，该框架通过保持全局和局部面部表征的一致性来学习通用的面部表示。我们通过可学习的位置嵌入生成了一组面部区域的热图，这些嵌入利用注意力机制来全局查找面部图像中的面部区域。实验结果表明，我们的FRA在多个面部分类和回归任务中优于先前的预训练模型。更重要的是，使用ResNet作为统一的主干网络，FRA在各种面部分析任务中表现出与SOTA方法相当甚至更好的性能。