Align before Fuse: Vision and Language Representation Learning with Momentum Dis

266 阅读1分钟

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation

模型结构

模型结构

ITM:图像文本匹配
MLM:Maked Language Modeling,遮蔽语言建模

模型解释

ALBEF由一个图片编码器,一个文本编码器,一个多模态编码器构成。
采用一个12层的visual transformer viT-B/16作为图像编码器

贡献

  1. 提出一个image-text contrastive loss,用以在融合前对齐图像文本对
  2. 提出一个An image-text matching loss和masked-language-modeling loss,用以学习图像和文本之间的多模态交互
  3. 为了改进从噪声数据中的学习,提出了动量蒸馏,这是一种从动量模型产生的伪目标中学习的自训练方法。