数据集搜索与资源汇总:机器学习与深度学习的宝藏
在机器学习和深度学习领域,找到合适的数据集是项目成功的关键。本文汇总了一些顶级的数据集搜索工具和常用的数据集资源,涵盖从通用数据集到特定领域的数据集,帮助研究人员和开发者快速找到所需的数据。
数据集搜索工具
数据集查找器
Google 数据集搜索:与Google 学术搜索的工作方式类似,数据集搜索可让您查找数据集,无论它们托管在何处,无论是出版商的网站、数字图书馆还是作者的网页。它是一款出色的数据集查找器,包含超过 2500 万个数据集。
Kaggle:Kaggle 提供了庞大的数据集,足以满足从爱好者到专家的需求。
UCI 机器学习库:UCI 的机器学习库为开源数据集提供了最新的资源。
VisualData:按类别发现计算机视觉数据集;它允许可搜索的查询。
CMU 图书馆 : 感谢 CMU 的 Huajin Wang 收藏,发现高质量的数据集。
Big Bad NLP 数据库:这个很酷的数据集列表包含由Quantum Stat创建和管理的各种自然语言处理任务的数据集。
常规数据集
住房数据集
波士顿住房数据集: 包含美国人口普查局收集的有关波士顿地区住房的信息。该数据集来自StatLib 档案,并在整个文献中被广泛用于对算法进行基准测试。
地理数据集
Google-Landmarks-v2: 用于地标识别和检索的改进数据集。该数据集包含来自世界各地的 20 多万个地标的 500 多万张图片,由Wiki Commons 社区提供并注释。
机器学习数据集:
商场顾客数据集 : 商场顾客数据集包含有关访问特定城市商场的人员的信息。数据集由性别、顾客 ID、年龄、年收入和消费分数等各种列组成。它通常用于根据顾客的年龄、收入和兴趣对其进行细分。
IRIS 数据集: 鸢尾花数据集是一个简单且适合初学者的数据集,其中包含有关花瓣和萼片宽度的信息。数据分为三类,每类 50 行。它通常用于分类和回归建模。
MNIST 数据集: 这是一个手写数字数据库。它包含 60,000 张训练图像和 10,000 张测试图像。这是一个完美的数据集,可以开始实施图像分类,您可以将数字从 0 分类到 9。
波士顿住房数据集: 包含美国人口普查局收集的有关波士顿地区住房的信息。该数据集来自StatLib 档案,并在整个文献中被广泛用于对算法进行基准测试。
假新闻检测数据集 : 这是一个 CSV 文件,有 7796 行和四列。有四列:新闻、标题、新闻文本、结果。
葡萄酒质量数据集 : 该数据集包含有关葡萄酒的不同化学信息。该数据集适用于分类和回归任务。
SOCR 数据——身高和体重数据集 : 这是适合初学者的基本数据集。它仅包含 25,000 名 18 岁不同人的身高和体重。该数据集可用于构建可预测人类身高或体重的模型。
泰坦尼克号数据集 : 该数据集包含训练集中 891 名乘客和测试集中 418 名乘客的姓名、年龄、性别、船上兄弟姐妹数量等信息。
信用卡欺诈检测数据集 : 该数据集包含信用卡交易;它们被标记为欺诈或真实。这对于拥有交易系统的公司建立检测欺诈活动的模型非常重要。
计算机视觉数据集
xView : xView 是目前最庞大的公开俯视图数据集之一。它包含来自世界各地复杂场景的图像,并使用边界框进行注释。
ImageNet:计算机视觉领域最大的图像数据集。它提供了一个可访问的图像数据库,该数据库按照 WordNet 进行分层组织。
Kinetics-700 : 来自 Youtube 的大规模视频 URL 数据集。包括以人为中心的动作。它包含超过 700,000 个视频。
Google 的开放图像 : 来自 Google AI 的庞大数据集,包含超过 1000 万张图像。
Cityscapes 数据集 : 这是计算机视觉项目的开源数据集。它包含在 50 条不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深度神经网络以了解城市场景。
IMDB-Wiki 数据集 : IMDB-Wiki 数据集是带有性别和年龄标记的面部图像最广泛的开源数据集之一。图像来自 IMDB 和 Wikipedia。它有五百万多张带标签的图像。
颜色检测数据集 : 该数据集包含一个 CSV 文件,其中包含 865 个颜色名称及其对应的颜色 RGB(红、绿、蓝)值。它还具有颜色的十六进制值。
斯坦福狗数据集: ****包含 20,580 张图像和 120 个不同的狗品种类别。
情绪分析数据集
Lexicoder 情感词典 : 该数据集专门用于情感分析。该数据集包含 3000 多个负面情绪词和 2000 多个正面情绪词。
IMDB 评论:来自 Kaggle 的一个有趣的数据集,包含超过 50,000 条电影评论。
斯坦福情绪树库:带有情绪注释的标准情绪数据集。
Twitter 美国航空公司情绪 : 2015 年 2 月美国航空公司的 Twitter 数据,分为正面、负面和中性推文
自然语言处理 (NLP) 数据集
Big Bad NLP 数据库:这个很酷的数据集列表包含由Quantum Stat创建和管理的各种自然语言处理任务的数据集。
HotspotQA 数据集:以自然、多跳问题为特色的问答数据集,通过对支持事实的严格监督,实现更易于解释的问答系统。
亚马逊评论:来自亚马逊的庞大数据集,包含超过 4500 万条亚马逊评论。
烂番茄评论:档案超过 480,000 条评论(新鲜或糟糕)。
英文短信垃圾信息集合:包含 5,574 条英文短信垃圾信息组成的数据集。
安然电子邮件数据集 : 包含超过 150 名用户的约 50 万封电子邮件。
推荐系统数据集 : 它包含来自热门网站的各种数据集,如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。
UCI Spambase 数据集 : 将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍且有用的任务。该数据集包含 4601 封电子邮件和 57 条有关电子邮件的元信息。您可以构建模型来过滤掉垃圾邮件。
IMDB 评论 : 大型电影评论数据集包括来自 IMDB 网站的电影评论,其中有超过 25,000 条评论用于训练,25,000 条评论用于测试集。
自动驾驶数据集
Waymo Open Dataset : 这是 Waymo 团队提供的出色数据集资源。其中包括大量自动驾驶数据集,足以从零开始训练深度网络。
伯克利 DeepDrive BDD100k:自动驾驶汽车最大的数据集之一,包含纽约和加利福尼亚州超过 2000 小时的驾驶经验。
博世小型交通灯数据集:用于深度学习的小型交通灯数据集。
LaRa 交通灯识别:另一个交通灯数据集。该数据集来自巴黎。
WPI 数据集:交通灯、行人和车道检测的数据集。
Comma.ai : 包含汽车速度、加速度、转向角度和 GPS 坐标等详细信息。
MIT AGE 实验室 : AgeLab 收集的 1,000 多个小时的多传感器驾驶数据集样本。
LISA:加州大学圣地亚哥分校智能与安全汽车实验室数据集 : 该数据集包括交通标志、车辆检测、交通灯和轨迹模式。
城市景观数据集 : 这是一个包含 50 个不同城市的街道场景的广泛数据集。
临床数据集
MaskedFace-Net : MaskedFace-Net 是一个真实的数据集,其中包含佩戴正确和错误口罩的人脸。它包含超过 137k 张基于Flick-Faces-HQ 数据集[21] 的图像。有关该数据集及其用途的更多详细信息,请访问Github 上的文档。
COVID-19 数据集:艾伦人工智能研究所发布了包含超过 45,000 篇有关 COVID-19 的学术文章的庞大研究数据集。
MIMIC-III:麻省理工学院计算生理学实验室开发的公开数据集,包含与约 40,000 名重症监护患者相关的去识别健康数据。它包括人口统计数据、生命体征、实验室测试、药物等。
推荐系统的数据集
MovieLens : 它包含来自 MovieLens 网站的评级数据集。
Jester : 它包含来自 73,421 位用户的 100 个笑话的 410 万个连续评分(-10.00 到 +10.00)。它主要用于协同过滤。
百万歌曲数据集 : 它既可用于协同过滤,也可用于基于内容的过滤。
笔记:
如果您知道其他高质量的免费数据集,并希望将其推荐给人们用于机器学习、深度学习、数据科学等的研究和应用,请在下方评论中提出建议,或直接发送微信至:t_esign 。