本篇主要总结跨模态图文检索常用数据集以及在各数据集上不同算法的对比。
常用数据集
优秀的数据集可以使神经网络充分学习潜在知识,同时避免过拟合等问题。
NUS-WIDE
由新加坡国立大学多媒体检索实验 室 创 建 的 网 络 图 像 数 据 集 ,其 图 像 主 要 来 源 于Flickr 网站。该数据集包括了 269 648 幅图像,平均每 幅 图 像 带 有 2~5 个 标 签 语 句 ,其 中 独 立 标 签 共 有5 018 个。该数据集只局限于图像和文本两种模态,常用于跨模态哈希中。基于这个数据集,可以探索有关于网络图像注释和检索的研究问题。(下载地址:NUS-WIDE Homepage)
MSCOCO
该数据集以场景理解为目标,其图像内容主要从复杂的日常场景中截取而来。该数据集是一个大规模基于句子的图像描述数据集,包含了 123 287 幅图像,且每幅图像至少包含 5 句对应的语句描述。数据集中的图像来自 91 个不同类别,包含了 328 000 种影像和2 500 000 个标签。虽然 COCO 数据集比 ImageNet 类别少,但是各类别包含的图像多,有利于获得更多不同类别中的特定场景。(此处应是COCO 2014 数据集,用于字幕生成任务中,下载地址:MSCOCO 也可以通过API直接下载)
Flickr30k
Flickr 数据集由雅虎发布,由 1 亿幅图像和 70 万个视频的统一资源定位器(URL)以及与之相关的元数据(标题、描述、标签)组成,其焦点是人或动物执行的一些动作。其中 Flickr30k数据集采集于 Flickr 网站,包含 31 783 张日常场景、活动和事件的图像,图像与 158 915 个标题相关联,每一张都用 5 个句子注释。该数据集常用于图像-句子检索中。
Wikipedia
Wikipedia 数据集采集于维基百科,是跨模态检索研究使用最多的数据集,由带有相关图像文本对的文档语料库组成。该数据集包含 2 866 个图像/文本数据对,共 10 个不同的语义类。该数据集所囊括的样本和语义类别相对较少且模态类型相对有限,且也只包含图像和文本两种模态。