图文理解任务，其中输入为图像和文本，输出为文本的相关基准

2024-09-25 98 阅读2分钟

针对图文理解任务，其中输入为图像和文本，输出为文本的相关基准，以下是一些知名的基准测试和数据集，它们可以用于训练和评估多模态理解模型：

1. Microsoft COCO Captioning

描述：COCO是一个广泛用于图像标注和识别的数据集，其中包含大量的图像和对应的描述句子。
任务：给定一张图像，生成描述该图像内容的文本。
输出：文本描述。

2. Flickr30k

描述：包含30,000张图像的数据集，每张图像都有5个不同的描述句子。
任务：图像到文本的生成，图像文本匹配。
输出：文本描述或匹配分数。

3. Visual Genome

描述：包含超过10万个图像，每个图像都有丰富的注释，包括区域描述、关系和问题答案。
任务：图像到文本的生成，视觉问答。
输出：文本描述或答案。

4. VQA (Visual Question Answering)

描述：数据集包含图像和与图像相关的问题，需要模型生成答案。
任务：给定一张图像和一个关于图像的问题，生成答案。
输入：图像 + 文本（问题）
输出：文本（答案）

5. VizWiz

描述：由视力受限的用户提出的问题和相应的图像组成的数据集。
任务：视觉问答。
输入：图像 + 文本（问题）
输出：文本（答案）

6. NLVR (Natural Language for Visual Reasoning)

描述：包含自然语言描述和图像对的数据集，描述是对图像内容的真假判断。
任务：给定图像和描述，判断描述的真假。
输入：图像 + 文本（描述）
输出：文本（真/假）

7. SNLI-VE (Stanford Natural Language Inference with Visual Entailment)

描述：结合了自然语言推理和视觉内容的任务，要求模型理解图像和句子的关系。
任务：给定图像和句子，判断句子是否是对图像的正确描述。
输入：图像 + 文本（句子）
输出：文本（蕴含/矛盾/中立）

评估指标：

BLEU：用于评估生成文本的准确性。
METEOR：考虑了单词的准确性和顺序，比BLEU更灵活。
ROUGE：用于评估生成文本的召回率。
CIDEr：结合了多种指标，用于评估图像描述的质量。
SPICE：基于语义解析的指标，用于评估描述的精确性。在构建自己的基准时，可以从这些现有的数据集和任务中获得灵感，并根据特定领域的需求进行调整。例如，针对民航领域，可以创建一个数据集，其中包含机场、飞机、乘客、工作人员等相关的图像，并要求模型根据图像和给定的文本描述生成相关的回答或描述。