文本-图像
多模态理解和生成评估挑战榜(MUGE)
官网地址:tianchi.aliyun.com/muge ;Github:github.com/MUGE-2021
MUGE 包括: 多模态理解和生成任务的基准,包括电子商务图像字幕、文本到图像生成和多模态图文检索任务,供研究人员跟踪其模型性能的公共排行榜。
可用的任务包括:
- 电商图像描述生成:根据一张图像生成相应的文字描述,要求生成的描述须如实反映图中的物体以及关键细节
- 电商文本到图像生成:根据一段文本描述,生成符合相应描述的图像,同时要求图像清晰且逼真
- 电商图文检索:模型根据自然语言形式的检索query,从给定的商品图片池中检索出相关图片,衡量模型多模态理解与匹配的能力
大规模广告创意优选数据集
链接:tianchi.aliyun.com/dataset/dat…
收集了淘宝2020年7月-8月的广告创意投放数据,包含500,827个商品样本,1,204,988张不同的创意图像(注:原文中统计数据为未去重的1,707,733张),对应超过2亿的展示量。
数据均有5列,分别代表:商品名,图片名,投放日期,展示数量和点击数量(以\t分隔)。其中投放日期已经对齐到[0,14]区间内,即所有样本都是从第0天开始投放,生命周期为5~15天不等。
微博假新闻数据集
链接:drive.google.com/file/d/14VQ…
Wikipedia Featured Articles multimodal dataset
一个包含5638篇文章和57454张图片的多模态特征文章数据集:www.kaggle.com/jacksoncrow…
包含一篇文章的文本,以及来自该文章的所有图像,以及图像标题和描述等元数据。
Multimodal Hate Speech
一个新的手工标注的多模态仇恨言论数据集,由15万条推文组成,每一条都包含文本和图像。该数据集称为MMHS150K:www.kaggle.com/victorcalle…
Cornell University's RecipeQA NLP Dataset
RecipeQA是一个烹饪菜谱的多模式理解数据集。它由超过36K的问题-答案对自动生成从大约20K独特的食谱一步一步的说明和图像。RecipeQA中的每个问题都涉及多种形式,如标题、描述或图像,为了得到答案,需要(i)对图像和文本的共同理解,(ii)捕捉事件的时间流,(iii)理解程序性知识。
multimodel commodity dataset
多模态商品数据集包括商品及描述文本
图像-图像
LLVIP: 可见光和红外配对数据(多模态图像数据)
Dataset Main Page: bupt-ai-cz.github.io/LLVIP/
可见光和红外配对数据(多模态图像数据),用于暗光场景的计算机视觉任务:图像融合;目标检测;图像翻译和生成。
Berkeley Multimodal Human Action Database
伯克利多模态人体动作数据库(MHAD)包含11项动作,由7名男性和5名女性进行,年龄范围为23-30岁,除了一名老年受试者。
AAU雨雪交通监控数据集
使用传统的RGB彩色相机和热红外相机采集数据,集中收集了降雨和降雪情况下的交通监控视频,从7个不同的交通路口捕获了22个5分钟的视频。景物的光照从大白天到黄昏和黑夜都有变化。这些场景包括汽车前灯的强光,水坑的反光,以及镜头前雨滴的模糊。
GeoNRW
该数据集由正校航拍照片、激光雷达衍生的数字高程模型和10类分割地图组成。
Depth Person detection database (GFPD)
深度人检测数据库(GFPD-UAH)是一个多模态数据库(深度和红外数据),基于位于头顶位置的深度摄像头(包括深度摄像头和红外摄像头)生成的数据,对人员检测、头饰配饰识别和人体活动检测算法进行评估。
框架
Cornac
Cornac: A Comparative Framework for Multimodal Recommender Systems