大家好,这里是好评笔记,本文为试读,查看全文请移步公主号:Goodnote。本文详细介绍多模态模型Coca,在DALL·E 3中使用其作为captioner基准模型的原因和优势。
@[toc]
首先我们需要知道Coca是主要用于图像生成文本的。在此之前,我们已经介绍了BLIP和BLIP2,但是BLIP模型生成的文本描述较为简单,模型训练则需要更详细、准确的图像描述或字幕。本文将介绍一个新模型Coca(Contrastive Captioners,谷歌出品),OpenAI的DALL·E 3在处理图像-文本训练数据集就是基于谷歌的CoCa模型,微调一个image captioner,用来合成图像的caption。
DALL·E 3介绍参考DALL·E系列文章:DALL·E 3模型及其论文详解
ALBEF
CoCa可以理解成是ALBEF模型的一个后续工作,它与ALBEF模型类似,所以我们就先简要介绍一下ALBEF模型,再给出CoCa模型的介绍及其在ALBEF基础上做的改进。
ALBEF (Align Before Fuse) 是一个多模态学习模型,专注于图像和文本的联合表示学习。它通过对比学习 (Contrastive Learning) 和多模态特征对齐 (Alignment) 来实现任务优化,同时为下游任务提供强大的基础表示。
论文
Align before Fuse: Vision and Language Representation Learning with Momentum Distillation
模型结构
组成
ALBEF 由三部分组成,如下:
- 一个图像编码器
- 一个文本编码器
- 一个多模态编码器
训练目标
- 图像-文本对比损失(image-text contrastive loss) :对齐图像和文本特征,最小化同一图像-文本对的特征距离,最大化不同图像-文本对的特征距离。用于在特征融合之前对图像和文本的单模态表示进行对齐。
- 图像-文本匹配损失(image-text matching loss) :判断图像和文本是否匹配,进一步提高特征对齐效果。用于学习图像与文本之间的多模态交互。
- 遮蔽语言建模损失(masked-language-modeling loss):在文本中随机掩盖部分单词,通过上下文信息预测掩盖的单词。用于学习图像与文本之间的多模态交互。
为了提升对噪声数据的学习能力,我们在训练过程中生成伪标签(pseudo-targets),这些伪标签由动量模型(momentum model,即基础模型的滑动平均版本)生成,并作为额外的监督信号。
有没有发现ALBEF和BLIP模型的训练目标极其相似?因为他们来自一个团队。
BLIP参考本系列历史文章:多模态论文笔记——CLIP、BLIP
CoCa
CoCa 是 ALBEF 的后续工作,在保持多模态特征对齐的同时,通过引入可学习的池化机制和统一的 Decoder 架构,更适合生成任务(如图像描述生成)。这种设计不仅提升了多模态任务的性能,也在生成任务上展现了显著的优势。
CoCa 是谷歌提出的一种图像-文本对齐模型,旨在同时优化对比学习(contrastive learning)和图像描述(image captioning)的任务。其主要特点是统一了对比学习和生成任务,通过共享的编码器和解码器框架完成多任务学习,生成更为准确且多样的图像描述。
详细全文请移步公主号:Goodnote。