✨专栏介绍: 本作者推出全新系列《深入浅出多模态》专栏,具体章节如导图所示(导图后续更新),将分别从各个多模态模型的概念、经典模型、创新点、论文综述、发展方向、数据集等各种角度展开详细介绍,欢迎大家关注。
💙作者主页: GoAI |💚 公众号: GoAI的学习小屋 | 💛交流群: 704932595 |💜个人简介 : 掘金签约作者、百度飞桨PPDE、领航团团长、开源特训营导师、CSDN、阿里云社区人工智能领域博客专家、新星计划计算机视觉方向导师等,专注大数据与AI 知识分享。
💻文章目录
《深入浅出多模态》(一):多模态模型论文最全总结 《深入浅出多模态》(二):多模态任务应用与背景(本篇) 《深入浅出多模态》(三):多模态任务前言知识
👨💻导读: 本文为《深入浅出多模态》系列第二章,《多模态任务介绍与背景》主要介绍多模态模型的概念、技术难点、下游任务(Visual Grounding、VQA、image/Video Captioning等)及各类应用方向数据集展开介绍,本专栏适合从事多模态小白及爱好者学习,欢迎大家关注,如有侵权请联系删除!
《深入浅出多模态》(二):多模态任务介绍与背景
一、多模态的概念与应用
多模态大模型在许多领域都有广泛的应用,例如自然语言处理、计算机视觉、音频处理等。可以用于文本和图像的语义理解、视频的分类和识别、音频的情感分析和语音识别等任务。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。
二、多模态主要技术难点
表征概念
如何挖掘模态间的互补性或独立性以表征多模态数据。
表征学习是多模态任务的基础,其中包含了一些开放性问题,例如:如何结合来源不同的异质数据,如何处理不同模态的不同噪声等级,测试样本的某种模态缺失怎么办。
原理介绍
现有多模态表征学习可分为两类:Joint(联合,也称为单塔结构)和Coordinated(协作,双塔结构)。下图分别为.Joint representation(单塔)与Coordinated representation(双塔)。
- Joint结构注重捕捉多模态的互补性,融合多个输入模态 x1, x2 ,获得多模态表征 x**m= f( x1 , x2 ) ,进而使用 x**m 完成某种预测任务。网络优化目标是某种预测任务的性能。
- Coordinated结构并不寻求融合而是建模多种模态数据间的相关性,它将多个(通常是两个)模态映射到协作空间,表示为:f( x1 )~g( x2 ) ,其中~表示一种协作关系。网络的优化目标是这种协作关系(通常是相似性,即最小化cosine距离等度量)。
在测试阶段,由于Coordinated结构保留了两个模态的表示空间,它适合仅有一个模态作为输入的应用,如跨模态检索,翻译,grounding和zero-shot learning。但是Joint结构学习到的 x_m 只适用于多模态作为输入,例如视听语音识别,VQA,情感识别等。
讨论
相较于多模态,基于单模态的表征学习已被广泛且深入地研究。在Transformer出现之前,不同模态所适用的最佳表征学习模型不同,例如,CNN广泛适用CV领域,LSTM占领NLP领域。较多的多模态工作仍旧局限在使用N个异质网络单独提取N个模态的特征,之后采用Joint或Coordinated结构进行训练。近几年来,基于Transformer的多模态预训练模型喷涌而出,如LXMERT[5], Oscar[6], UNITER[7]属于Joint结构,CLIP[8], BriVL[9] 属于Coordinated结构。
三、多模态下游任务:
跨模态定位和关系识别任务
- Visual Grounding:给定一个图像与一段文本,定位到文本所描述的物体。
- Temporal Language Localization: 给定一个视频与一段文本,定位到文本所描述的动作(预测起止时间)。
- Video Summarization from Text Query:给定一段话(query)与一个视频,根据这段话的内容进行视频摘要,预测视频关键帧(或关键片段)组合为一个短的摘要视频。
- Video Segmentation from Natural Language Query: 给定一段话(query)与一个视频,分割得到query所指示的物体。
- Video-Language Inference: 给定视频(包括视频的一些字幕信息),还有一段文本假设(hypothesis),判断二者是否存在语义蕴含(二分类),即判断视频内容是否包含这段文本的语义。
- Object Tracking from Natural Language Query: 给定一段视频和一些文本,追踪视频中文本所描述的对象。
- Language-guided Image/Video Editing: 一句话自动修图。给定一段指令(文本),自动进行图像/视频的编辑。
跨模态生成任务
-
Vision-Language
-
- Image/Video-Text Retrieval (图(视频)文检索): 图像/视频<-->文本的相互检索。
- Image/Video Captioning(图像/视频描述):给定一个图像/视频,生成文本描述其主要内容。
- Visual Question Answering(视觉问答):给定一个图像/视频与一个问题,预测答案。
- Image/Video Generation from Text:给定文本,生成相应的图像或视频。
- Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言。
- Vision-and-Language Navigation(视觉-语言导航):给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog(多模态对话):给定图像,历史对话,以及与图像相关的问题,预测该问题的回答。
-
Language-Audio
-
- Text-to-Speech Synthesis: 给定文本,生成一段对应的声音。
- Audio Captioning:给定一段语音,生成一句话总结并描述主要内容。(不是语音识别)
-
Vision-Audio
-
- Audio-Visual Speech Recognition(视听语音识别):给定某人的视频及语音进行语音识别。
- Video Sound Separation(视频声源分离):给定视频和声音信号(包含多个声源),进行声源定位与分离。
- Image Generation from Audio: 给定声音,生成与其相关的图像。
- Speech-conditioned Face generation:给定一段话,生成说话人的视频。
- Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画。
四、多模态数据集总结:
常见数据集:CC+COCO+SBU+Flickr30k+VQA
1. Image Caption
1.1 概念介绍
该任务是给图像生成描述,一般输入 prompt 为:“ a picture of {}”
模型的回答为:girls holding umbrellas.
1.2 常用数据集介绍
Microsoft COCO Captions
COCO Captions更关注场景的所有重要部分,而不描述重要细节,COCO Captions对于关注的对象更突出。
164,062张图像,包括:82,783个训练图像、40,504个验证图像、40,775个测试图像、995,684个captions,平均每张图片6个captions,描述这个场景的所有重要部分;不描述不重要的细节;不描述在未来或过去可能发生的事情;不描述一个人可能会说什么;不提供专有的人名;这些句子应该至少包含8个单词。(人物动作,交通工具等)
paper:arxiv.org/pdf/1504.00…
SBU Captions
SBU Captions数据集最初将图像字幕作为一个检索任务,包含 100 万个图片网址 + 标题对。(数据来源于Flickr)
网站:huggingface.co/datasets/sb…
paper:tamaraberg.com/papers/gene…
image_url: Static URL for downloading the image associated with the post.caption: Textual description of the image.user_id: Author of caption.
2.Visual Grounding
Visual Grounding任务常用的数据集有五个:RefCOCO、RefCOCO+、RefCOCOg、ReferItGame和Flickr30K Entities
RefCOCO、RefCOCO+、RefCOCOg
参考下方介绍。
ReferItGame
该数据集有来自SAIAPR12的20000张图像。它在训练集、验证集和测试集中分别有54,127 / 5,842 / 60,103个引用表达式。
Flickr30K Entities
Flickr30K Entities有31,783张图像,包含427K个实体。Flickr30K Entities中的查询多为短名词短语.。
3.Referring Expression Comprehension(REC)
3.1 概念介绍
这个任务是框出文本中提到的一个特定目标,如输入文本为 “穿红短袖且背球拍的人”,则输出就会框出一个目标 person
3.2 常用数据集介绍
Refcoco 论文:Modeling Context in Referring Expressions
标注文件下载:github.com/lichengunc/…
RefCOCO, RefCOCO+, RefCOCOg:
- 是三个从 MSCOCO 中选取图像得到的数据集,数据集中对所有的 phrase 都有 bbox 的标注
- RefCOCO 有19,994幅图像,包含142,210个引用表达式,包含50,000个对象实例。
- RefCOCO+ 共有19,992幅图像,包含 49,856 个对象实例的 141,564 个引用表达式。
- Ref COCOg 有25,799幅图像,指称表达式 95,010 个,对象实例 49,822个。
下图是论文中的一个图,每个图的 caption 描述在图片正下方,绿色是根据下面的 caption 标注的 gt,蓝色是预测正确的框,红色是预测错误的框。
testA中的图像包含多人,testB中的图像包含所有其他对象。RefCOCO +中的查询不包含绝对的方位词,如描述对象在图像中位置的右边。RefCOCOg在在非交互场景中收集,RefCOCOg的查询长度普遍大于RefCOCO和RefCOCO +:RefCOCO、RefCOCO +、RefCOCOg的平均长度分别为3.61、3.53、8.43。
4. Visual Question Answer(VQA)
4.1 概念介绍
该任务是输入问题和图像,输出模型的回答
如输入 “左侧女孩手里拿的是什么”,模型会回答 “雨伞”
参考: