2025年机器学习和数据科学的最佳公共数据集

1,602 阅读9分钟

数据集搜索与资源汇总:机器学习与深度学习的宝藏

在机器学习和深度学习领域,找到合适的数据集是项目成功的关键。本文汇总了一些顶级的数据集搜索工具和常用的数据集资源,涵盖从通用数据集到特定领域的数据集,帮助研究人员和开发者快速找到所需的数据。

数据集搜索工具

数据集查找器

Google 数据集搜索:与Google 学术搜索的工作方式类似,数据集搜索可让您查找数据集,无论它们托管在何处,无论是出版商的网站、数字图书馆还是作者的网页。它是一款出色的数据集查找器,包含超过 2500 万个数据集。

Kaggle:Kaggle 提供了庞大的数据集,足以满足从爱好者到专家的需求。

UCI 机器学习库:UCI 的机器学习库为开源数据集提供了最新的资源。

VisualData:按类别发现计算机视觉数据集;它允许可搜索的查询。

CMU 图书馆 感谢 CMU 的 Huajin Wang 收藏,发现高质量的数据集。

Big Bad NLP 数据库:这个很酷的数据集列表包含由Quantum Stat创建和管理的各种自然语言处理任务的数据集。

常规数据集

住房数据集

波士顿住房数据集: 包含美国人口普查局收集的有关波士顿地区住房的信息。该数据集来自StatLib 档案,并在整个文献中被广泛用于对算法进行基准测试。

地理数据集

Google-Landmarks-v2: 用于地标识别和检索的改进数据集。该数据集包含来自世界各地的 20 多万个地标的 500 多万张图片,由Wiki Commons 社区提供并注释。

机器学习数据集:

商场顾客数据集 商场顾客数据集包含有关访问特定城市商场的人员的信息。数据集由性别、顾客 ID、年龄、年收入和消费分数等各种列组成。它通常用于根据顾客的年龄、收入和兴趣对其进行细分。

IRIS 数据集: 鸢尾花数据集是一个简单且适合初学者的数据集,其中包含有关花瓣和萼片宽度的信息。数据分为三类,每类 50 行。它通常用于分类和回归建模。

MNIST 数据集: 这是一个手写数字数据库。它包含 60,000 张训练图像和 10,000 张测试图像。这是一个完美的数据集,可以开始实施图像分类,您可以将数字从 0 分类到 9。

波士顿住房数据集: 包含美国人口普查局收集的有关波士顿地区住房的信息。该数据集来自StatLib 档案,并在整个文献中被广泛用于对算法进行基准测试。

假新闻检测数据集 这是一个 CSV 文件,有 7796 行和四列。有四列:新闻、标题、新闻文本、结果。

葡萄酒质量数据集 该数据集包含有关葡萄酒的不同化学信息。该数据集适用于分类和回归任务。

SOCR 数据——身高和体重数据集 这是适合初学者的基本数据集。它仅包含 25,000 名 18 岁不同人的身高和体重。该数据集可用于构建可预测人类身高或体重的模型。

泰坦尼克号数据集 该数据集包含训练集中 891 名乘客和测试集中 418 名乘客的姓名、年龄、性别、船上兄弟姐妹数量等信息。

信用卡欺诈检测数据集 该数据集包含信用卡交易;它们被标记为欺诈或真实。这对于拥有交易系统的公司建立检测欺诈活动的模型非常重要。

计算机视觉数据集

xView  xView 是目前最庞大的公开俯视图数据集之一。它包含来自世界各地复杂场景的图像,并使用边界框进行注释。

ImageNet:计算机视觉领域最大的图像数据集。它提供了一个可访问的图像数据库,该数据库按照 WordNet 进行分层组织。

Kinetics-700 来自 Youtube 的大规模视频 URL 数据集。包括以人为中心的动作。它包含超过 700,000 个视频。

Google 的开放图像 来自 Google AI 的庞大数据集,包含超过 1000 万张图像。

Cityscapes 数据集 这是计算机视觉项目的开源数据集。它包含在 50 条不同城市街道拍摄的视频序列的高质量像素级注释。该数据集可用于语义分割和训练深度神经网络以了解城市场景。

IMDB-Wiki 数据集  IMDB-Wiki 数据集是带有性别和年龄标记的面部图像最广泛的开源数据集之一。图像来自 IMDB 和 Wikipedia。它有五百万多张带标签的图像。

颜色检测数据集 该数据集包含一个 CSV 文件,其中包含 865 个颜色名称及其对应的颜色 RGB(红、绿、蓝)值。它还具有颜色的十六进制值。

斯坦福狗数据集: ****包含 20,580 张图像和 120 个不同的狗品种类别。

情绪分析数据集

Lexicoder 情感词典 该数据集专门用于情感分析。该数据集包含 3000 多个负面情绪词和 2000 多个正面情绪词。

IMDB 评论:来自 Kaggle 的一个有趣的数据集,包含超过 50,000 条电影评论。

斯坦福情绪树库:带有情绪注释的标准情绪数据集。

Twitter 美国航空公司情绪  2015 年 2 月美国航空公司的 Twitter 数据,分为正面、负面和中性推文

自然语言处理 (NLP) 数据集

Big Bad NLP 数据库:这个很酷的数据集列表包含由Quantum Stat创建和管理的各种自然语言处理任务的数据集。

HotspotQA 数据集:以自然、多跳问题为特色的问答数据集,通过对支持事实的严格监督,实现更易于解释的问答系统。

亚马逊评论来自亚马逊的庞大数据集,包含超过 4500 万条亚马逊评论。

烂番茄评论档案超过 480,000 条评论(新鲜或糟糕)。

英文短信垃圾信息集合:包含 5,574 条英文短信垃圾信息组成的数据集。

安然电子邮件数据集 包含超过 150 名用户的约 50 万封电子邮件。

推荐系统数据集 它包含来自热门网站的各种数据集,如 Goodreads 书评、亚马逊产品评论、调酒数据、社交媒体数据以及其他用于构建推荐系统的数据集。

UCI Spambase 数据集 将电子邮件分类为垃圾邮件或非垃圾邮件是一项普遍且有用的任务。该数据集包含 4601 封电子邮件和 57 条有关电子邮件的元信息。您可以构建模型来过滤掉垃圾邮件。

IMDB 评论 大型电影评论数据集包括来自 IMDB 网站的电影评论,其中有超过 25,000 条评论用于训练,25,000 条评论用于测试集。

自动驾驶数据集

Waymo Open Dataset 这是 Waymo 团队提供的出色数据集资源。其中包括大量自动驾驶数据集,足以从零开始训练深度网络。

伯克利 DeepDrive BDD100k自动驾驶汽车最大的数据集之一,包含纽约和加利福尼亚州超过 2000 小时的驾驶经验。

博世小型交通灯数据集:用于深度学习的小型交通灯数据集。

LaRa 交通灯识别:另一个交通灯数据集。该数据集来自巴黎。

WPI 数据集:交通灯、行人和车道检测的数据集。

Comma.ai 包含汽车速度、加速度、转向角度和 GPS 坐标等详细信息。

MIT AGE 实验室  AgeLab 收集的 1,000 多个小时的多传感器驾驶数据集样本。

LISA:加州大学圣地亚哥分校智能与安全汽车实验室数据集 该数据集包括交通标志、车辆检测、交通灯和轨迹模式。

城市景观数据集 这是一个包含 50 个不同城市的街道场景的广泛数据集。

临床数据集

MaskedFace-Net  MaskedFace-Net 是一个真实的数据集,其中包含佩戴正确和错误口罩的人脸。它包含超过 137k 张基于Flick-Faces-HQ 数据集[21] 的图像。有关该数据集及其用途的更多详细信息,请访问Github 上的文档

COVID-19 数据集:艾伦人工智能研究所发布了包含超过 45,000 篇有关 COVID-19 的学术文章的庞大研究数据集。

MIMIC-III:麻省理工学院计算生理学实验室开发的公开数据集,包含与约 40,000 名重症监护患者相关的去识别健康数据。它包括人口统计数据、生命体征、实验室测试、药物等。

推荐系统的数据集

MovieLens 它包含来自 MovieLens 网站的评级数据集。

Jester 它包含来自 73,421 位用户的 100 个笑话的 410 万个连续评分(-10.00 到 +10.00)。它主要用于协同过滤。

百万歌曲数据集 它既可用于协同过滤,也可用于基于内容的过滤。

笔记:

如果您知道其他高质量的免费数据集,并希望将其推荐给人们用于机器学习、深度学习、数据科学等的研究和应用,请在下方评论中提出建议,或直接发送微信至:t_esign