Align before Fuse: Vision and Language Representation Learning with Momentum Dis

世上有多少個繽紛樂園任你行

2023-09-20 266 阅读1分钟

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

模型结构

模型结构

ITM：图像文本匹配
MLM：Maked Language Modeling，遮蔽语言建模

模型解释

ALBEF由一个图片编码器，一个文本编码器，一个多模态编码器构成。
采用一个12层的visual transformer viT-B/16作为图像编码器

贡献

提出一个image-text contrastive loss，用以在融合前对齐图像文本对
提出一个An image-text matching loss和masked-language-modeling loss，用以学习图像和文本之间的多模态交互
为了改进从噪声数据中的学习，提出了动量蒸馏，这是一种从动量模型产生的伪目标中学习的自训练方法。