《深入浅出多模态》(二):多模态任务及数据集介绍

1,350 阅读9分钟

在这里插入图片描述

专栏介绍: 本作者推出全新系列《深入浅出多模态》专栏,具体章节如导图所示(导图后续更新),将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍,欢迎大家关注。

💙作者主页: GoAI |💚 公众号: GoAI的学习小屋 | 💛交流群: 704932595 |💜个人简介 : 掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等,专注大数据与AI 知识分享。

💻文章目录

《深入浅出多模态》(一):多模态模型论文最全总结 《深入浅出多模态》(二):多模态任务应用与背景(本篇) 《深入浅出多模态》(三):多模态任务前言知识


👨‍💻导读: 本文为《深入浅出多模态》系列第二章,《多模态任务介绍与背景》主要介绍多模态模型的概念、技术难点、下游任务(Visual Grounding、VQA、image/Video Captioning等)及各类应用方向数据集展开介绍,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!

《深入浅出多模态》(二):多模态任务介绍与背景

一、多模态的概念与应用

多模态大模型在许多领域都有广泛的应用,例如自然语言处理、计算机视觉、音频处理等。可以用于文本和图像的语义理解、视频的分类和识别、音频的情感分析和语音识别等任务。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。

二、多模态主要技术难点

表征概念

如何挖掘模态间的互补性或独立性以表征多模态数据。

表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。

原理介绍

现有多模态表征学习可分为两类:Joint(联合,也称为单塔结构)和Coordinated(协作,双塔结构)。下图分别为.Joint representation(单塔)与Coordinated representation(双塔)。

图片

  • Joint结构注重捕捉多模态的互补性,融合多个输入模态 x1, x2 ,获得多模态表征 x**m= f( x1 , x2 ) ,进而使用 x**m 完成某种预测任务。网络优化目标是某种预测任务的性能。
  • Coordinated结构并不寻求融合而是建模多种模态数据间的相关性,它将多个(通常是两个)模态映射到协作空间,表示为:f( x1 )~g( x2 ) ,其中~表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性,即最小化cosine距离等度量)。

在测试阶段,由于Coordinated结构保留了两个模态的表示空间,它适合仅有一个模态作为输入的应用,如跨模态检索,翻译,grounding和zero-shot learning。但是Joint结构学习到的 x_m 只适用于多模态作为输入,例如视听语音识别,VQA,情感识别等。

讨论

相较于多模态,基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。近几年来,基于Transformer的多模态预训练模型喷涌而出,如LXMERT[5], Oscar[6], UNITER[7]属于Joint结构,CLIP[8], BriVL[9] 属于Coordinated结构。

三、多模态下游任务:

在这里插入图片描述 跨模态定位和关系识别任务

  • Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。
  • Temporal Language Localization: 给定一个视频与一段文本,定位到文本所描述的动作(预测起止时间)。
  • Video Summarization from Text Query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。
  • Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。
  • Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。
  • Object Tracking from Natural Language Query: 给定一段视频和一些文本,追踪视频中文本所描述的对象。
  • Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。

跨模态生成任务

  • Vision-Language

    • Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。
    • Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。
    • Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。
    • Image/Video Generation from Text:给定文本,生成相应的图像或视频。
    • Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
    • Vision-and-Language Navigation(视觉-语言导航):给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
    • Multimodal Dialog(多模态对话):给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。
  • Language-Audio

    • Text-to-Speech Synthesis: 给定文本,生成一段对应的声音。
    • Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)
  • Vision-Audio

    • Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。
    • Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。
    • Image Generation from Audio: 给定声音,生成与其相关的图像。
    • Speech-conditioned Face generation:给定一段话,生成说话人的视频。
    • Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。

四、多模态数据集总结:

在这里插入图片描述 常见数据集:CC+COCO+SBU+Flickr30k+VQA 在这里插入图片描述

1. Image Caption

1.1 概念介绍

该任务是给图像生成描述,一般输入 prompt 为:“ a picture of {}”

模型的回答为:girls holding umbrellas.

在这里插入图片描述

1.2 常用数据集介绍

Microsoft COCO Captions

COCO Captions更关注场景的所有重要部分,而不描述重要细节,COCO Captions对于关注的对象更突出。

164,062张图像,包括:82,783个训练图像、40,504个验证图像、40,775个测试图像、995,684个captions,平均每张图片6个captions,描述这个场景的所有重要部分;不描述不重要的细节;不描述在未来或过去可能发生的事情;不描述一个人可能会说什么;不提供专有的人名;这些句子应该至少包含8个单词。(人物动作,交通工具等)

数据集:cocodataset.org/#home

paper:arxiv.org/pdf/1504.00…

SBU Captions

SBU Captions数据集最初将图像字幕作为一个检索任务,包含 100 万个图片网址 + 标题对。(数据来源于Flickr)

网站:huggingface.co/datasets/sb…

paper:tamaraberg.com/papers/gene…

  • image_url: Static URL for downloading the image associated with the post.
  • caption: Textual description of the image.
  • user_id: Author of caption.

2.Visual Grounding

Visual Grounding任务常用的数据集有五个:RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities

RefCOCO、RefCOCO+、RefCOCOg

参考下方介绍。

ReferItGame

该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。

Flickr30K Entities

Flickr30K Entities有31,783张图像,包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。

3.Referring Expression Comprehension(REC)

3.1 概念介绍

这个任务是框出文本中提到的一个特定目标,如输入文本为 “穿红短袖且背球拍的人”,则输出就会框出一个目标 person

在这里插入图片描述

3.2 常用数据集介绍

Refcoco 论文:Modeling Context in Referring Expressions

标注文件下载:github.com/lichengunc/…

RefCOCO, RefCOCO+, RefCOCOg:

  • 是三个从 MSCOCO 中选取图像得到的数据集,数据集中对所有的 phrase 都有 bbox 的标注
  • RefCOCO 有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
  • RefCOCO+ 共有19,992幅图像,包含 49,856 个对象实例的 141,564 个引用表达式。
  • Ref COCOg 有25,799幅图像,指称表达式 95,010 个,对象实例 49,822个。

在这里插入图片描述

下图是论文中的一个图,每个图的 caption 描述在图片正下方,绿色是根据下面的 caption 标注的 gt,蓝色是预测正确的框,红色是预测错误的框。

testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词,如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集,RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +:RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。

在这里插入图片描述

在这里插入图片描述

4. Visual Question Answer(VQA)

4.1 概念介绍

该任务是输入问题和图像,输出模型的回答

如输入 “左侧女孩手里拿的是什么”,模型会回答 “雨伞”

在这里插入图片描述

参考:

多模态大模型训练数据集汇总介绍_refcoco-CSDN博客

【多模态】1、几种多模态 vision-language 任务和数据集介绍_多模态数据集-CSDN博客