《深入浅出多模态》（二）：多模态任务及数据集介绍本文为《深入浅出多模态》系列第二章，《多模态任务介绍与背景》主要介绍多模

在这里插入图片描述

✨专栏介绍： 本作者推出全新系列《深入浅出多模态》专栏，具体章节如导图所示（导图后续更新），将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍，欢迎大家关注。

💙作者主页: GoAI |💚 公众号: GoAI的学习小屋 | 💛交流群: 704932595 |💜个人简介： 掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等，专注大数据与AI 知识分享。

💻文章目录

《深入浅出多模态》（一）：多模态模型论文最全总结《深入浅出多模态》（二）：多模态任务应用与背景（本篇）《深入浅出多模态》（三）：多模态任务前言知识

👨‍💻导读： 本文为《深入浅出多模态》系列第二章，《多模态任务介绍与背景》主要介绍多模态模型的概念、技术难点、下游任务（Visual Grounding、VQA、image/Video Captioning等）及各类应用方向数据集展开介绍，本专栏适合从事多模态小白及爱好者学习，欢迎大家关注，如有侵权请联系删除！

《深入浅出多模态》（二）：多模态任务介绍与背景

一、多模态的概念与应用

多模态大模型在许多领域都有广泛的应用，例如自然语言处理、计算机视觉、音频处理等。可以用于文本和图像的语义理解、视频的分类和识别、音频的情感分析和语音识别等任务。通过多模态大模型，可以更好地理解和处理复杂的多模态数据，提高人工智能的应用性能。

二、多模态主要技术难点

表征概念

如何挖掘模态间的互补性或独立性以表征多模态数据。

表征学习是多模态任务的基础，其中包含了一些开放性问题，例如：如何结合来源不同的异质数据，如何处理不同模态的不同噪声等级，测试样本的某种模态缺失怎么办。

原理介绍

现有多模态表征学习可分为两类：Joint(联合，也称为单塔结构)和Coordinated(协作，双塔结构)。下图分别为.Joint representation(单塔)与Coordinated representation(双塔)。

Joint结构注重捕捉多模态的互补性，融合多个输入模态 x1, x2 ，获得多模态表征 x**m= f( x1 , x2 ) ,进而使用 x**m 完成某种预测任务。网络优化目标是某种预测任务的性能。
Coordinated结构并不寻求融合而是建模多种模态数据间的相关性，它将多个(通常是两个)模态映射到协作空间，表示为：f( x1 )～g( x2 ) ，其中～表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性，即最小化cosine距离等度量)。

在测试阶段，由于Coordinated结构保留了两个模态的表示空间，它适合仅有一个模态作为输入的应用，如跨模态检索，翻译，grounding和zero-shot learning。但是Joint结构学习到的 x_m 只适用于多模态作为输入，例如视听语音识别，VQA，情感识别等。

讨论

相较于多模态，基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前，不同模态所适用的最佳表征学习模型不同，例如，CNN广泛适用CV领域，LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征，之后采用Joint或Coordinated结构进行训练。近几年来，基于Transformer的多模态预训练模型喷涌而出，如LXMERT[5], Oscar[6], UNITER[7]属于Joint结构，CLIP[8], BriVL[9] 属于Coordinated结构。

三、多模态下游任务：

在这里插入图片描述 跨模态定位和关系识别任务

Visual Grounding：给定一个图像与一段文本，定位到文本所描述的物体。
Temporal Language Localization: 给定一个视频与一段文本，定位到文本所描述的动作(预测起止时间)。
Video Summarization from Text Query：给定一段话(query)与一个视频，根据这段话的内容进行视频摘要，预测视频关键帧(或关键片段)组合为一个短的摘要视频。
Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频，分割得到query所指示的物体。
Video-Language Inference: 给定视频(包括视频的一些字幕信息)，还有一段文本假设(hypothesis)，判断二者是否存在语义蕴含(二分类)，即判断视频内容是否包含这段文本的语义。
Object Tracking from Natural Language Query: 给定一段视频和一些文本，追踪视频中文本所描述的对象。
Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本)，自动进行图像/视频的编辑。

跨模态生成任务

Vision-Language
- Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。
- Image/Video Captioning(图像/视频描述)：给定一个图像/视频，生成文本描述其主要内容。
- Visual Question Answering(视觉问答)：给定一个图像/视频与一个问题，预测答案。
- Image/Video Generation from Text：给定文本，生成相应的图像或视频。
- Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言。
- Vision-and-Language Navigation(视觉-语言导航)：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog(多模态对话)：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答。
Language-Audio
- Text-to-Speech Synthesis: 给定文本，生成一段对应的声音。
- Audio Captioning：给定一段语音，生成一句话总结并描述主要内容。(不是语音识别)
Vision-Audio
- Audio-Visual Speech Recognition(视听语音识别)：给定某人的视频及语音进行语音识别。
- Video Sound Separation(视频声源分离)：给定视频和声音信号(包含多个声源)，进行声源定位与分离。
- Image Generation from Audio: 给定声音，生成与其相关的图像。
- Speech-conditioned Face generation：给定一段话，生成说话人的视频。
- Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画。

四、多模态数据集总结：

在这里插入图片描述 常见数据集：CC+COCO+SBU+Flickr30k+VQA

1. Image Caption

1.1 概念介绍

该任务是给图像生成描述，一般输入 prompt 为：“ a picture of {}”

模型的回答为：girls holding umbrellas.

在这里插入图片描述

1.2 常用数据集介绍

Microsoft COCO Captions

COCO Captions更关注场景的所有重要部分，而不描述重要细节，COCO Captions对于关注的对象更突出。

164,062张图像，包括：82,783个训练图像、40,504个验证图像、40,775个测试图像、995,684个captions，平均每张图片6个captions，描述这个场景的所有重要部分；不描述不重要的细节；不描述在未来或过去可能发生的事情；不描述一个人可能会说什么；不提供专有的人名；这些句子应该至少包含8个单词。（人物动作，交通工具等）

数据集：cocodataset.org/#home

paper：arxiv.org/pdf/1504.00…

SBU Captions

SBU Captions数据集最初将图像字幕作为一个检索任务，包含 100 万个图片网址 + 标题对。（数据来源于Flickr）

网站：huggingface.co/datasets/sb…

paper：tamaraberg.com/papers/gene…

image_url: Static URL for downloading the image associated with the post.
caption: Textual description of the image.
user_id: Author of caption.

2.Visual Grounding

Visual Grounding任务常用的数据集有五个：RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

RefCOCO、RefCOCO+、RefCOCOg

参考下方介绍。

ReferItGame

该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。

Flickr30K Entities

Flickr30K Entities有31,783张图像，包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。

3.Referring Expression Comprehension（REC）

3.1 概念介绍

这个任务是框出文本中提到的一个特定目标，如输入文本为 “穿红短袖且背球拍的人”，则输出就会框出一个目标 person

在这里插入图片描述

3.2 常用数据集介绍

Refcoco 论文：Modeling Context in Referring Expressions

标注文件下载：github.com/lichengunc/…

RefCOCO, RefCOCO+, RefCOCOg：

是三个从 MSCOCO 中选取图像得到的数据集，数据集中对所有的 phrase 都有 bbox 的标注
RefCOCO 有19,994幅图像，包含142,210个引用表达式，包含50,000个对象实例。
RefCOCO+ 共有19,992幅图像，包含 49,856 个对象实例的 141,564 个引用表达式。
Ref COCOg 有25,799幅图像，指称表达式 95,010 个，对象实例 49,822个。

在这里插入图片描述

下图是论文中的一个图，每个图的 caption 描述在图片正下方，绿色是根据下面的 caption 标注的 gt，蓝色是预测正确的框，红色是预测错误的框。

testA中的图像包含多人，testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词，如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集，RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +：RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。

在这里插入图片描述

4. Visual Question Answer（VQA）

4.1 概念介绍

该任务是输入问题和图像，输出模型的回答

如输入 “左侧女孩手里拿的是什么”，模型会回答 “雨伞”

在这里插入图片描述

参考：

多模态大模型训练数据集汇总介绍_refcoco-CSDN博客

【多模态】1、几种多模态 vision-language 任务和数据集介绍_多模态数据集-CSDN博客