数据科学项目 为你在这个领域的深入研究提供了一个基础 。通过实际应用 ,你 不仅 可以 学习数据科学, 也能够写在简历中提升你的资历 。 在这上边花费的时间越多,你学到的知识就越多。
本文精选了24 个数据科学项目,并囊括了各个领域和各种不同大小的数据集。 另外,所有的数据集都是开源、可免费获取的。
初级—— 这部分的数据集很容易处理,使用基础的回归 / 分类算法就可以处理这些数据集。并且,这些数据集有足够的教程供你学习。
中级—— 略微有点难度。包含了需要使用有点难度的模式识别技能来处理的大中型数据集。另外,特征工程在这里可以发挥作用了。
高级—— 包括神经网络、深度学习、推荐系统及高维数据等。
初级
1.Iris Data数据集(花的类别识别)
Iris Data Set 可能是模式识别领域 学习分类技术 最 基本 入门 级的数据集,适合初学者 。 该数据集 里面包含了150 行 4 列 个 数据。
问题:
根据已有特征
预测花的类别
。
资源:
数据
集 |
教程
2.Loan Prediction 数据集(贷款预测)
它 是保险领域最常引用的一个数据集。利用 这个数据集 ,你可以 充分体验到 如何 处理保险公司的数据 , 包括 会遇到哪些挑战 、 需要什么策略 、 哪些变量会影响结果等 。这是一个分类问题 , 数据集包含615 行 13 列 个数据 。
问题:
预测一个贷款是否能够被批准。
资源:
数据集 |
教程
3. Bigmart Sales 数据集(零售业销售)

零售业是另一个充分利用
数据
分析优化商业流程的行业。
我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理
。
该数据集包含了商店的交易数据,是一个回归问题,共包含8523
行
12
列
个数据。
问题: 预测销量。
4.Boston Housing 数据集(波士顿房屋)

这是另一个 模式识别领域较为 常见的数据集 ,来 自于波士顿的房地产业 , 是一个回归问题 , 数据集有506 行 14 列 个数据 。 这个数据集并不大,你可以尝试使用任何技术,而不用担心笔记本的内存不够。
问题: 预测业主拥有房屋数量的中间值。
5. Time Series Analysis 数据集(时间序列分析)
时间序列是数据科学中最常用的技术之一 , 具有广泛的应用 :预测 天气预报 、 预测销售额 、 分析逐年趋势等。该数据集特定于时间序列,这里面临的挑战是预测交通方式。
问题: 预测新的交通工具的交通。
6. Wine Quality 数据集(酒质量)
这是初学者最常用 的数据集之一, 分成了2 个数据集。 在这个数据集上可以同时执行回归和分类任务—— 异常值检测、 特征选择和不平衡数据。该数据集有4898 行和 12 列个数据 。
问题:预测酒的质量。
7.Turkiye Student Evaluation 数据集(学生课程评估)
该数据集基于学生填写不同课程的评估表,拥有 不同的属性,包括出勤率、 难度、分数 等, 是一个无监督学习问题。该数据集有5820 行 33 列个数据 。
问题:使用分类和聚类解决问题。
8.Heights and Weights 数据集(身高体重预测)
这是一个相当直接的回归 问题,非常适合新手 。该 数据集有25,000 行 3 列(索引、 高度和权重 )个数据 。
问题:预测一个人的身高或体重。
中级
1. Black Friday 数据集(黑色星期五)
这是一个包含 零售商店记录的 销售交易的 经典数据集,可以扩展特征工程的技能,并从每天的购物经验中对其进行理解, 是一个回归问题。该数据集有550,069 行 12 列个数据 。
问题:预测购买力。
2. Human Activity Recognition 数据集(人类活动识别)
该数据集通过带有嵌入式惯性传感器的 智能手收集了30 个实验者 的记录,可用于分类问题。 数据集有10,299 行 561 列个数据 。
问题:预测人类活动的类别。
3. Text Mining 数据集(文本挖掘)

该数据集最初来自于2007 年 Siam 文本挖掘竞赛, 包括描述某些发生故障的航班的 航空安全报告, 是一个多分类和高维度问题。该数据集 有21,519 行 30,438 列个数据 。
问题:根据文本标签对文本进行分类。
4. Trip History 数据集(旅行历史)

此数据集来自美国的共享 自行车服务。该 数据集需要使用 专业的 数据处理技术,该数据集种的 数据是从2010 年第四季度 开始按季度记录 的。每个文件有7 列是一个分类问题。
问题:预测用户的类别。
5. Million Song 数据集(预测歌曲发行时间)
你知道数据科学现在也用于娱乐行业吗? 这个数据集提出了一个回归任务, 由515,345 个观察值和 90 个变量组成。但是,这仅仅是原始数据库(约一百万首歌曲) 中的一小部分。
问题:预测歌曲的发行时间。
6.Census Income 数据集(预测人口收入)
这是一个经典的 不平衡分类机器学习问题。现在, 机器学习广泛应用于 正被广泛用于解决不平衡问题,如癌症检测、 欺诈检测等。该 数据集有48,842 行 14 列个数据 。
问题:预测美国人的收入水平。
7. Movie Lens 数据集(电影推荐系统)
用于构建推荐系统,该数据集是数据科学行业中最受欢迎的“数据集”之一,有不同大小的数据集。这里有一个较小的数据集,包含 4,000 部电影, 6000 个用户的 100 万个收视率。
问题:为用户推荐电影。
8. Twitter Classification 数据集(预测推文)
Twitter 数据已成为情感分析不可分割的一部分。该数据集大小为 3MB ,包含 31,962 条推文。
问题:预测哪些推文是令人讨厌的,哪些不是。
高级
1. 识别数字的数据集

用于研究、分析和识别图像中的元素,这就是使用相机识别面部的技术,属于 数字识别问题。该 数据集有28,000 个 28*28 大小的图像,总计 31MB 。
问题:从图像中识别数字。
2. 城市声音分类
该项目旨 在介绍常用的音频分类问题 。该数据集由10 个类别(包含来自8,732 个城市声音的记录) 组成。
问题:对音频进行分类。
3. Vox 名人数据集

音频处理正迅速成为深度学习的重要领域,因此这是另一个具有挑战性的问题。此数据集收集了 大型演讲者的演讲 ,并 从YouTube 中提取的名人的讲话 。对于语音识别来说,这是一个很 有趣的项目 。该数据集 包含1,251 位名人发表的 100,000 条言论 。
问题:找出声音属于哪个名人。
4. ImageNet数据集

ImageNet 提供了各种各样的问题,包括对象检测、 定位、 分类和屏幕分析。 所有的图像都是免费的,你 可以搜索任何类型的图像来 构建项目。截至目前,该数据集 拥有超过1500 万张图片,大小超过140GB 。
问题:要解决的问题会受下载图像的类型影响。
5. 芝加哥犯罪数据集
现在,每个数据科学家都希望能够处理大型数据集, 是一个多分类问题。该 数据集在本地提供了 处理大型数据集所需的实践经验。问题很简单,但数据管理是关键!这个数据集有6,000,000 个观测值。
问题:预测犯罪类型。
6. 印度演员年龄检测
对于任何深度学习爱好者来说,这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像,用来预测其年龄 。所有图像都是人工手动从视频帧中选取 的,这就 导致了 尺度、 姿势、 表情、照明、 年龄、 分辨率、 遮挡和化妆等 的高度可变性。训练集中有19,906 幅图像,测试集中有 6,636 幅图像。
问题:预测演员的年龄。
7. 推荐引擎数据集

这是一项高级推荐系统挑战赛 。在这个项目 中,你会得到以前解决的程序和数据,以及解决特定问题的时间。作为一名数据科学家,你 构建的模型将协助 在线评委决定向用户推荐的下一级问题。
问题:根据用户的当前状态,预测解决问题所需要的时间。
资源:数据库
8. VisualQA数据集
VisualQA 是一个包含图像的开放式问题数据集。这些问题需要理解计算机视觉和语言,这些问题 有一个自动评估指标。数据集包含265,016 张图片,每张图片 3 个问题,且 每个问题有10个标记好的答案。
问题:使用深度学习回答有关图像的开放式问题。
总结
在上面列出的24 个数据集中,你 应该首先找到与自身 技能相匹配的数据集进行实践和练习 。比如说,假如你是一位 初学者,请先从初级数据集开始实践,而不是直接从高级数据集开始练习。
以上为译文。
本文由北邮@爱可可-爱生活 老师推荐, 阿里云云栖社区 组织翻译。
文章原标题《 24 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely) 》,译者: Mags,审校:袁虎。
文章为简译,更为详细的内容,请查看 原文。
