前情提要

本文是传知代码平台中的相关前沿知识与技术的分享~

接下来我们即将进入一个全新的空间，对技术有一个全新的视角~

本文所涉及所有资源均在传知代码平台可获取

以下的内容一定会让你对AI 赋能时代有一个颠覆性的认识哦！！！

以下内容干货满满，跟上步伐吧~

💡本章重点

【BLIP】VLP任务的新框架

🍞一. 概述

视觉语言预训练（VLP）提高了许多视觉语言任务的性能。然而，大多数现有的预训练任务只擅长基于理解的任务或者基于生成的任务。此外，同时使用Web收集的有噪声的图像-文本对来扩展数据集虽然在很大程度上提高了性能，但这是一个次优的监督来源。

BLIP是一个新的VLP框架，它可以灵活的转移到视觉语言理解和生成任务。BLIP通过引导字幕有效地利用了有噪声的网络数据，其中字幕生成器生成合成字幕，滤波器去除有噪声的字幕。

模型结构

在这里插入图片描述 BLIP使用ViT模型作为图像编码器，ViT将输入图像划分为补丁块，并将其编码为嵌入序列，使用额外的[cls]标记来表示全局图像特征。为了预训练具有理解和生成能力的统一模型，BLIP提出了编码器-解码器的多模式混合（MED），这是一种可以在一下三种功能之一运行的多任务模型：

单峰编码器

单峰式编码器分别对图像和文本进行编码，文本编码器与BERT相同，其中[CLS]标记被附加到文本输入的开头，以总结句子。BLIP使用图像-文本对比（ITC）损失的训练单峰编码器，以对齐视觉和语言表示。

基于图像的文本编码器

基于图像的文本编码器，同时在文本编码器的每个transformer块的自注意力层SA和前馈网络FFN之间插入一个额外的交叉注意力层CA来注入视觉信息。特定于任务的[Encode]标记附加到文本中，[Encode]的输出嵌入用于图像-文本对的多模态表示。基于图像的文本编码器使用图像-文本匹配（ITM）损失进行训练，以区分匹配和不匹配的图像-文本对。

基于图像的文本编码器

基于图像的文本编码器以因果自注意力层取代双向自注意力层，一个[Decode]标记用于表示序列的开始，一个序列结束标记用于表示序列的结束。基于图像的文本编码器使用语言建模（LM）损失进行训练，以生成给定图像的标题。

预训练目标函数

在这里插入图片描述 BLIP在预训练中共同优化了三个目标函数，两个基于理解的目标函数和一个基于生成的目标函数。每个图像-文本对只需要通过计算量较大的ViT进行一次前向传递，并通过文本转换器进行三次前向传递，用以激活不同的功能以计算如下所述的三种损失。

图像-文本对比损失（ITC）图像-文本对比损失激活单峰编码器，它的目的是通过鼓励匹配的图像-文本对具有相似的表示，不匹配的图像-文本对具有差异较大的表示来对齐视觉转换器和文本转换器的特征空间。
图像-文本匹配损失（ITM）图像-文本匹配损失激活基于图像的文本编码器，它旨在学习图像-文本多模态表示，以捕获视觉和语言之间的细粒度对齐。ITM是一个二元分类任务，模型使用ITM头部（线性层）来预测给定图像-文本对的多模态特征是匹配的，还是负的不匹配的。
语言建模损失（LM）语言建模损失激活基于图像的文本解码器，其目的是生成给定图像的文本描述。该损失训练模型以自回归的方式最大化文本的可能性，优化了交叉熵损失。

为了在利用多任务学习的同时执行有效的预训练，文本编码器和文本解码器共享除了自注意力层之外的所有参数，因为编码和解码任务之间的差异最好由自注意力层捕获。编码和解码任务之间的嵌入层，自注意力层和全连接前馈网络层的作用相似，因此，共享这些层可以提高训练效率，同时受益于多任务学习。

🍞二. CapFilt

在这里插入图片描述 BLIP提出了Captioning 和Filtering(CapFilt)，这是一种提高文本语料库质量的新方法，它引入了两个模块，一个用于生成给定web图像的标题的captioner，以及一个用于去除图像-文本对噪声的filter。captioner和filter都是从相同的预训练的MED模型初始化的，并在COCO数据集上分别进行微调，调优是一个轻量级的过程。

filter是一个基于图像的文本编码器，它使用ITC和ITM目标函数进行微调，以确定文本是否与图像匹配。如果标题预测文本与图像不匹配，则认为文本有噪声，过滤器去除原始网络文本和合成文本中的噪声文本。最后，BLIP将过滤后的图像文本对于人工注释的图像文本对结合起来形成一个新的数据集，使用它来训练一个新的模型。

🍞三. 演示效果

BLIP对整个图像的关注程度可视化

在这里插入图片描述 BLIP生成多个标题

在这里插入图片描述

🍞四. 核心逻辑

BLIP生成标题

  # 加载预训练好的模型
model, vis_processors, _ = load_model_and_preprocess(
    name="blip_caption", model_type="large_coco", is_eval=True, device=device
)
# 以下是其他可以使用的模型
# model, vis_processors, _ = load_model_and_preprocess(
#     name="blip_caption", model_type="base_coco", is_eval=True, device=device
# )

# 对图像进行预处理操作
image = vis_processors["eval"](raw_image).unsqueeze(0).to(device)

# 采用核函数采样生成多个标题
model.generate({"image": image}, use_nucleus_sampling=True, num_captions=3)

BLIP可视化

# 加载预训练模型
# model, vis_processors, text_processors = load_model_and_preprocess("blip_image_text_matching", "base", device=device, is_eval=True)
model, vis_processors, text_processors = load_model_and_preprocess("blip_image_text_matching", "large", device=device, is_eval=True)

# 准备操作
from matplotlib import pyplot as plt
from lavis.common.gradcam import getAttMap
from lavis.models.blip_models.blip_image_text_matching import compute_gradcam
import numpy as np

dst_w = 720
w, h = raw_image.size
scaling_factor = dst_w / w

resized_img = raw_image.resize((int(w * scaling_factor), int(h * scaling_factor)))
norm_img = np.float32(resized_img) / 255

# 分别处理图像和文本
img = vis_processors["eval"](raw_image).unsqueeze(0).to(device)
txt = text_processors["eval"](caption)

# 计算梯度
txt_tokens = model.tokenizer(txt, return_tensors="pt").to(device)
gradcam, _ = compute_gradcam(model, img, txt, txt_tokens, block_num=7)

# 计算整个图像的梯度并且可视化
avg_gradcam = getAttMap(norm_img, gradcam[0][1].numpy(), blur=True)
# fig, ax = plt.subplots(num_image, 1, figsize=(15,5*num_image))
fig, ax = plt.subplots(1, 1, figsize=(10, 10))
ax.imshow(avg_gradcam)

# 计算每一个token的梯度并且可视化
num_image = len(txt_tokens.input_ids[0]) - 2
fig, ax = plt.subplots(num_image, 1, figsize=(15, 5 * num_image))

gradcam_iter = iter(gradcam[0][2:-1].numpy())
token_id_iter = iter(txt_tokens.input_ids[0][1:-1])

for i, (gradcam, token_id) in enumerate(zip(gradcam_iter, token_id_iter)):
    word = model.tokenizer.decode([token_id])
    gradcam_image = getAttMap(norm_img, gradcam, blur=True)
    ax[i].imshow(gradcam_image)
    ax[i].set_yticks([])
    ax[i].set_xticks([])
    ax[i].set_xlabel(word)

部署方式

# 创建环境
conda create -n lavis python=3.8
conda activate lavis
pip install salesforce-lavis
# 进阶版包含源码
git clone https://github.com/salesforce/LAVIS.git
cd LAVIS
pip install -e .

🫓总结

综上，我们基本了解了“一项全新的技术啦” :lollipop: ~~

恭喜你的内功又双叒叕得到了提高！！！

感谢你们的阅读:satisfied:

后续还会继续更新:heartbeat:，欢迎持续关注:pushpin:哟~

:dizzy:如果有错误❌，欢迎指正呀:dizzy:

:sparkles:如果觉得收获满满，可以点点赞👍支持一下哟~:sparkles:

【传知科技 -- 了解更多新知识】

⌈ 传知代码 ⌋ 【BLIP】VLP任务的新框架

💡本章重点

🍞一. 概述

🍞二. CapFilt

🍞三. 演示效果

🍞四. 核心逻辑

🫓总结