针对图文理解任务,其中输入为图像和文本,输出为文本的相关基准,以下是一些知名的基准测试和数据集,它们可以用于训练和评估多模态理解模型:
1. Microsoft COCO Captioning
- 描述:COCO是一个广泛用于图像标注和识别的数据集,其中包含大量的图像和对应的描述句子。
- 任务:给定一张图像,生成描述该图像内容的文本。
- 输出:文本描述。
2. Flickr30k
- 描述:包含30,000张图像的数据集,每张图像都有5个不同的描述句子。
- 任务:图像到文本的生成,图像文本匹配。
- 输出:文本描述或匹配分数。
3. Visual Genome
- 描述:包含超过10万个图像,每个图像都有丰富的注释,包括区域描述、关系和问题答案。
- 任务:图像到文本的生成,视觉问答。
- 输出:文本描述或答案。
4. VQA (Visual Question Answering)
- 描述:数据集包含图像和与图像相关的问题,需要模型生成答案。
- 任务:给定一张图像和一个关于图像的问题,生成答案。
- 输入:图像 + 文本(问题)
- 输出:文本(答案)
5. VizWiz
- 描述:由视力受限的用户提出的问题和相应的图像组成的数据集。
- 任务:视觉问答。
- 输入:图像 + 文本(问题)
- 输出:文本(答案)
6. NLVR (Natural Language for Visual Reasoning)
- 描述:包含自然语言描述和图像对的数据集,描述是对图像内容的真假判断。
- 任务:给定图像和描述,判断描述的真假。
- 输入:图像 + 文本(描述)
- 输出:文本(真/假)
7. SNLI-VE (Stanford Natural Language Inference with Visual Entailment)
- 描述:结合了自然语言推理和视觉内容的任务,要求模型理解图像和句子的关系。
- 任务:给定图像和句子,判断句子是否是对图像的正确描述。
- 输入:图像 + 文本(句子)
- 输出:文本(蕴含/矛盾/中立)
评估指标:
- BLEU:用于评估生成文本的准确性。
- METEOR:考虑了单词的准确性和顺序,比BLEU更灵活。
- ROUGE:用于评估生成文本的召回率。
- CIDEr:结合了多种指标,用于评估图像描述的质量。
- SPICE:基于语义解析的指标,用于评估描述的精确性。 在构建自己的基准时,可以从这些现有的数据集和任务中获得灵感,并根据特定领域的需求进行调整。例如,针对民航领域,可以创建一个数据集,其中包含机场、飞机、乘客、工作人员等相关的图像,并要求模型根据图像和给定的文本描述生成相关的回答或描述。