图文理解任务,其中输入为图像和文本,输出为文本的相关基准

98 阅读2分钟

针对图文理解任务,其中输入为图像和文本,输出为文本的相关基准,以下是一些知名的基准测试和数据集,它们可以用于训练和评估多模态理解模型:

1. Microsoft COCO Captioning

  • 描述:COCO是一个广泛用于图像标注和识别的数据集,其中包含大量的图像和对应的描述句子。
  • 任务:给定一张图像,生成描述该图像内容的文本。
  • 输出:文本描述。

2. Flickr30k

  • 描述:包含30,000张图像的数据集,每张图像都有5个不同的描述句子。
  • 任务:图像到文本的生成,图像文本匹配。
  • 输出:文本描述或匹配分数。

3. Visual Genome

  • 描述:包含超过10万个图像,每个图像都有丰富的注释,包括区域描述、关系和问题答案。
  • 任务:图像到文本的生成,视觉问答。
  • 输出:文本描述或答案。

4. VQA (Visual Question Answering)

  • 描述:数据集包含图像和与图像相关的问题,需要模型生成答案。
  • 任务:给定一张图像和一个关于图像的问题,生成答案。
  • 输入:图像 + 文本(问题)
  • 输出:文本(答案)

5. VizWiz

  • 描述:由视力受限的用户提出的问题和相应的图像组成的数据集。
  • 任务:视觉问答。
  • 输入:图像 + 文本(问题)
  • 输出:文本(答案)

6. NLVR (Natural Language for Visual Reasoning)

  • 描述:包含自然语言描述和图像对的数据集,描述是对图像内容的真假判断。
  • 任务:给定图像和描述,判断描述的真假。
  • 输入:图像 + 文本(描述)
  • 输出:文本(真/假)

7. SNLI-VE (Stanford Natural Language Inference with Visual Entailment)

  • 描述:结合了自然语言推理和视觉内容的任务,要求模型理解图像和句子的关系。
  • 任务:给定图像和句子,判断句子是否是对图像的正确描述。
  • 输入:图像 + 文本(句子)
  • 输出:文本(蕴含/矛盾/中立)

评估指标:

  • BLEU:用于评估生成文本的准确性。
  • METEOR:考虑了单词的准确性和顺序,比BLEU更灵活。
  • ROUGE:用于评估生成文本的召回率。
  • CIDEr:结合了多种指标,用于评估图像描述的质量。
  • SPICE:基于语义解析的指标,用于评估描述的精确性。 在构建自己的基准时,可以从这些现有的数据集和任务中获得灵感,并根据特定领域的需求进行调整。例如,针对民航领域,可以创建一个数据集,其中包含机场、飞机、乘客、工作人员等相关的图像,并要求模型根据图像和给定的文本描述生成相关的回答或描述。