【论文笔记】Kaleido-BERT：精致的时尚领域需要“百变”的模型作者提出了一个应用在时尚领域的多模态预训练模型 K

这是我参与2022首次更文挑战的第6天，活动详情查看：2022首次更文挑战

深度学习小白第二次写论文阅读笔记，可能会有比较多的错误和疏漏，请见谅。
期待自己在不断输出的过程中有所长进，能与大家分享更有价值的内容。

原文链接：Kaleido-BERT: Vision-Language Pre-training on Fashion Domain

Motivation

当前的多模态预训练模型（VL-BERT、UNITER等）注重于通用的视觉-语言表征，但电商领域的多模态预训练模型更关注细粒度表征（如商品的材质）而不是通用场景下的粗粒度表征（是什么、在哪等）。因此，本文提出了一个应用在时尚领域的模型来解决上述问题。

Related Works

作者总结了28个具有代表性的多模态方法，如图：

上图中的大多数视觉-语言模型仅关注相对粗糙的通用表征，在此不再过多讨论。有两个与本文相似的工作：

FashionBERT。FashionBERT是第一个时尚领域的预训练模型（其实也是他们的工作），采用固定尺寸的图像块，主要研究的是图片-文本之间的跨模态检索任务。
MAAF。MAAF旨在推导一种模态不可知的注意力融合策略，以解决无差别的文本和图像检索任务。MAAF采用图像级的注意力机制。

本研究认为它们都限制了预训练模型的表征能力，尤其是在细粒度理解的时尚任务。因此，设计多尺度图像块作为细粒度输入的工作是学界/工业界中急需的。本文提出的Kaleido-BERT是首个使用预对齐掩码策略来隐式关联图像-文本语义的模型。

Methods

本文的核心思想是聚焦细粒度表征学习并减轻图文间的语义隔阂，为此，作者利用如下方法：

引用“Kaleido（百变）”策略，在图像侧提取了一系列不同尺度的细粒度图像块，获取多尺度的图像特征，进而更好地应用到下游任务中。
引入SAT网络来减轻跨模态的语义隔阂，生成Kaleido图像块和文本词例的对齐信息。

Model

Kaleido-BERT的模型结构如图：

从下往上分别是Kaleido图像块生成器（KPG）、注意力对齐生成器（AAG）、预对齐掩码策略（AGM）、跨模态Transformer，以及三个预训练任务。

1. Kaleido图像块生成器（Kaleido Patches Generator）

KPG首先用使用显著性检测网络(BAS、EGNet、ICON等）提取前景分割图，并以前景图为依据框定主体目标。

然后将每张图片切分成不同尺度（1×1，2×2，……，5×5），共55个图像块（也就是Kaleido patches）。

最后，用ResNet50作为骨干网络进行特征提取。

2. 注意力对齐生成器（Attention-based Alignment Generator）

直接使用SAT网络在FashionGen数据集上训练（FashionGen就是作者团队在FashionBERT那篇文章里构建的数据集），然后作为文本生成器生成图片描述。

若生成的描述和原本描述有共现的单词，将依照共现单词的注意力热图来判断该单词倾向于与哪一Kaleido图像块关联。

该阶段可以得到原始描述中的单词与Kaleido图像块的部分对齐信息。

3. 预对齐掩码策略（Alignment Guided Masking）

与随机掩码策略不同，预对齐掩码策略会给予更高优先级去掩码有预对齐信息的词例或图像块。

根据经验，本文分别在3×3图像块挑出1块，4×4图像块挑出2块，5×5图像块挑出3块进行掩码。

4. 跨模态Transformer

本文使用原始的BERT来构建多模态Transformer，保证Kaleido-BERT易于开发和迁移。

Pre-Training

本文设计了三个预训练任务：

1. 预对齐掩码语言模型 (AMLM)

通过周围的词例特征和图像块特征，来还原被掩码掉的词例。

2. 图文匹配任务 (ITM)

判断输入的图像和文本是否是匹配的。

3. 预对齐Kaleido图像块模型 (AKPM)

上文提到了KPG生成了5种不同层级的共55个图像块，AKPM针对每一层级的图像块都设计了独立的任务。

任务1：旋转（Rotation Recognition, RR）
任务2：拼图（Jigsaw Puzzle Solving, JPS)
任务3：伪装（Camouflage Prediction, CP)
任务4：着色（Grey-to-Color Modeling, G2CM)
任务5：修复（Blank-to-Color Modeling, B2CM)

Experiments

Results

作者用 $SumR=(Rank@1+Rank@5+Rank@10)\times100$ 来获得加权后的性能得分，在文本检索（ITR）和图像检索（TIR）两个下游任务中均取得了显著优于SOTA的成绩。

在类目预测（CR、SUB）和时尚描述（FC）两个任务中,Kaleido-BERT同样取得了较大的性能提升（ $Sum CLS=(ACC+macro-F)\times100 and Sum CAP=Bleu-4+METEOR+ROUGE-L+CIDEr$ ）

值得注意的是，相较于ViLBERT和VLBERT提取RoIs作为特征，FashionBERT方法使用图像块作为图像输入特征，取得了更好的结果，说明在时尚领域，后者是更合适的方法。

Ablation Study

对比了固定尺寸切割、Kaleido和Kaleido+显著性检测三种方法；
对比了随即掩码策略和预对齐掩码策略（AGM）；
针对5个预训练任务做了消融实验。

结果如图：

Summary

作者提出了一个应用在时尚领域的多模态预训练模型Kaleido-BERT，在图像-文本检索、类目预测、时尚描述等下游任务中取得了卓越的成绩。

主要贡献：

Kaleido图像块生成器
注意力对齐生成器
预对齐掩码策略