Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
模型结构
ITM:图像文本匹配
MLM:Maked Language Modeling,遮蔽语言建模
模型解释
ALBEF由一个图片编码器,一个文本编码器,一个多模态编码器构成。
采用一个12层的visual transformer viT-B/16作为图像编码器
贡献
- 提出一个image-text contrastive loss,用以在融合前对齐图像文本对
- 提出一个An image-text matching loss和masked-language-modeling loss,用以学习图像和文本之间的多模态交互
- 为了改进从噪声数据中的学习,提出了动量蒸馏,这是一种从动量模型产生的伪目标中学习的自训练方法。