24个终极数据科学项目(可免费获取资源)

2018-06-22 280 阅读10分钟

原文链接： click.aliyun.com

数据科学项目为你在这个领域的深入研究提供了一个基础。通过实际应用，你不仅可以学习数据科学，也能够写在简历中提升你的资历。在这上边花费的时间越多，你学到的知识就越多。

本文精选了24 个数据科学项目，并囊括了各个领域和各种不同大小的数据集。另外，所有的数据集都是开源、可免费获取的。

171117588eed5cfb10de9a61c8679ef90508d709

初级—— 这部分的数据集很容易处理，使用基础的回归 / 分类算法就可以处理这些数据集。并且，这些数据集有足够的教程供你学习。

中级—— 略微有点难度。包含了需要使用有点难度的模式识别技能来处理的大中型数据集。另外，特征工程在这里可以发挥作用了。

高级—— 包括神经网络、深度学习、推荐系统及高维数据等。

初级

1.Iris Data数据集（花的类别识别）

a7757ce811e789e37001a1fdeaee93a2b53f0744

Iris Data Set 可能是模式识别领域学习分类技术最基本入门级的数据集，适合初学者。该数据集里面包含了150 行 4 列个数据。

问题: 根据已有特征预测花的类别。
资源：数据集 | 教程

2.Loan Prediction 数据集（贷款预测）

7331cb081d795a1deb94607caaa55d1c42c83ee2

它是保险领域最常引用的一个数据集。利用这个数据集，你可以充分体验到如何处理保险公司的数据，包括会遇到哪些挑战、需要什么策略、哪些变量会影响结果等。这是一个分类问题，数据集包含615 行 13 列个数据。

问题: 预测一个贷款是否能够被批准。
资源：数据集 | 教程

3. Bigmart Sales 数据集（零售业销售）

2ca1bd545cf04494c12b40e3bb2f5236fd065153
零售业是另一个充分利用数据分析优化商业流程的行业。我们可以利用数据科学对商品的放置、库存管理、定制供应、商品捆绑等任务进行巧妙的处理。该数据集包含了商店的交易数据，是一个回归问题，共包含8523 行 12 列个数据。

问题：预测销量。

资源：数据集 | 教程

4.Boston Housing 数据集（波士顿房屋）

6f9501f8416aa123ef6b0028b0fada38c5f1e8f4

这是另一个模式识别领域较为常见的数据集，来自于波士顿的房地产业，是一个回归问题，数据集有506 行 14 列个数据。这个数据集并不大，你可以尝试使用任何技术，而不用担心笔记本的内存不够。

问题：预测业主拥有房屋数量的中间值。

资源：数据集 | 教程

5. Time Series Analysis 数据集（时间序列分析）

77bfd82684b0d44ac2e1bffd680a6c72a9758087

时间序列是数据科学中最常用的技术之一，具有广泛的应用：预测天气预报、预测销售额、分析逐年趋势等。该数据集特定于时间序列，这里面临的挑战是预测交通方式。

问题：预测新的交通工具的交通。

资源：数据集 | 教程

6. Wine Quality 数据集（酒质量）

dd58a2d753ddc40e9c313670db73b344170fb221

这是初学者最常用的数据集之一，分成了2 个数据集。在这个数据集上可以同时执行回归和分类任务—— 异常值检测、特征选择和不平衡数据。该数据集有4898 行和 12 列个数据。

问题：预测酒的质量。

资源：数据集 | 教程

7.Turkiye Student Evaluation 数据集（学生课程评估）

f2243c8f95887b28721938fb0618f97e2635d89e

该数据集基于学生填写不同课程的评估表，拥有不同的属性，包括出勤率、难度、分数等，是一个无监督学习问题。该数据集有5820 行 33 列个数据。

问题：使用分类和聚类解决问题。

资源：数据集 | 教程

8.Heights and Weights 数据集（身高体重预测）

6cb05788f4f98b4b1a81e3108aef33746575db87

这是一个相当直接的回归问题，非常适合新手。该数据集有25,000 行 3 列（索引、高度和权重）个数据。

问题：预测一个人的身高或体重。

资源：数据集 | 教程

中级

1. Black Friday 数据集（黑色星期五）

57e837c9053e4e30121ccba3b1e50f81937e62df

这是一个包含零售商店记录的销售交易的经典数据集，可以扩展特征工程的技能，并从每天的购物经验中对其进行理解，是一个回归问题。该数据集有550,069 行 12 列个数据。

问题：预测购买力。

教程：数据集 | 教程

2. Human Activity Recognition 数据集（人类活动识别）

da0bd99bd5be296af50a5291ffa048e1248cfcea

该数据集通过带有嵌入式惯性传感器的智能手收集了30 个实验者的记录，可用于分类问题。数据集有10,299 行 561 列个数据。

问题：预测人类活动的类别。

资源：数据集 | 教程

3. Text Mining 数据集（文本挖掘）

0d3e6c3bfbc525bb86c23332487aa2d932286cbb

该数据集最初来自于2007 年 Siam 文本挖掘竞赛，包括描述某些发生故障的航班的航空安全报告，是一个多分类和高维度问题。该数据集有21,519 行 30,438 列个数据。

问题：根据文本标签对文本进行分类。

资源：数据集 | 教程

4. Trip History 数据集（旅行历史）

87d08646c35fb80b7962758100f68b6d23511002

此数据集来自美国的共享自行车服务。该数据集需要使用专业的数据处理技术，该数据集种的数据是从2010 年第四季度开始按季度记录的。每个文件有7 列是一个分类问题。

问题：预测用户的类别。

资源：数据集 | 教程

5. Million Song 数据集（预测歌曲发行时间）

76aad3db427dfdc5095f1848edd5a73565ea0a5a

你知道数据科学现在也用于娱乐行业吗？这个数据集提出了一个回归任务，由515,345 个观察值和 90 个变量组成。但是，这仅仅是原始数据库（约一百万首歌曲）中的一小部分。

问题：预测歌曲的发行时间。

资源：数据集 | 教程

6.Census Income 数据集（预测人口收入）

这是一个经典的不平衡分类机器学习问题。现在，机器学习广泛应用于正被广泛用于解决不平衡问题，如癌症检测、欺诈检测等。该数据集有48,842 行 14 列个数据。

问题：预测美国人的收入水平。

资源：数据集 | 教程

7. Movie Lens 数据集（电影推荐系统）

5195fb95f50a143ff2865364406407dd18e8868b

用于构建推荐系统，该数据集是数据科学行业中最受欢迎的“数据集”之一，有不同大小的数据集。这里有一个较小的数据集，包含 4,000 部电影， 6000 个用户的 100 万个收视率。

问题：为用户推荐电影。

资源：数据集 | 教程

8. Twitter Classification 数据集（预测推文）

cf7e750b6eb735a7df38e8eab1718f96f21026a6

Twitter 数据已成为情感分析不可分割的一部分。该数据集大小为 3MB ，包含 31,962 条推文。

问题：预测哪些推文是令人讨厌的，哪些不是。

资源：数据集 | 教程

高级

1. 识别数字的数据集

5694b58c18a15a42a40c9bfa5d75887b3272bf72

用于研究、分析和识别图像中的元素，这就是使用相机识别面部的技术，属于数字识别问题。该数据集有28,000 个 28*28 大小的图像，总计 31MB 。

问题：从图像中识别数字。

资源：数据集 | 教程

2. 城市声音分类

3b5c4ad1ac9547652e49b4eb79513ab261fa44ea

该项目旨在介绍常用的音频分类问题。该数据集由10 个类别（包含来自8,732 个城市声音的记录）组成。

问题：对音频进行分类。

资源：数据集 | 教程

3. Vox 名人数据集

00d95b28f885bbee68208608b3aca605a9d6832d

音频处理正迅速成为深度学习的重要领域，因此这是另一个具有挑战性的问题。此数据集收集了大型演讲者的演讲，并从YouTube 中提取的名人的讲话。对于语音识别来说，这是一个很有趣的项目。该数据集包含1,251 位名人发表的 100,000 条言论。

问题：找出声音属于哪个名人。

资源：数据集 | 教程

4. ImageNet数据集

de8ec35315c2a4457c5e56275b70e790cf28005c

ImageNet 提供了各种各样的问题，包括对象检测、定位、分类和屏幕分析。所有的图像都是免费的，你可以搜索任何类型的图像来构建项目。截至目前，该数据集拥有超过1500 万张图片，大小超过140GB 。

问题：要解决的问题会受下载图像的类型影响。

资源：数据集 | 教程

5. 芝加哥犯罪数据集

813984080206a4a94d5e1865556010a10e787ad5

现在，每个数据科学家都希望能够处理大型数据集，是一个多分类问题。该数据集在本地提供了处理大型数据集所需的实践经验。问题很简单，但数据管理是关键！这个数据集有6,000,000 个观测值。

问题：预测犯罪类型。

资源：数据集 | 教程

6. 印度演员年龄检测

da0f23ca3da3f7cae8863226da8d4385caea5d06

对于任何深度学习爱好者来说，这是一个令人着迷的挑战。该数据集包含数千个印度演员的图像，用来预测其年龄。所有图像都是人工手动从视频帧中选取的，这就导致了尺度、姿势、表情、照明、年龄、分辨率、遮挡和化妆等的高度可变性。训练集中有19,906 幅图像，测试集中有 6,636 幅图像。

问题：预测演员的年龄。

资源：数据集 | 教程

7. 推荐引擎数据集

a1d996abd4e34d3821ba006623d5f948e112df62

这是一项高级推荐系统挑战赛。在这个项目中，你会得到以前解决的程序和数据，以及解决特定问题的时间。作为一名数据科学家，你构建的模型将协助在线评委决定向用户推荐的下一级问题。

问题：根据用户的当前状态，预测解决问题所需要的时间。

资源：数据库

8. VisualQA数据集

768366e1c47f6cc4d6b8725590d9ce06de0c834e

VisualQA 是一个包含图像的开放式问题数据集。这些问题需要理解计算机视觉和语言，这些问题有一个自动评估指标。数据集包含265,016 张图片，每张图片 3 个问题，且每个问题有10个标记好的答案。

问题：使用深度学习回答有关图像的开放式问题。

资源：数据集 | 教程

总结

在上面列出的24 个数据集中，你应该首先找到与自身技能相匹配的数据集进行实践和练习。比如说，假如你是一位初学者，请先从初级数据集开始实践，而不是直接从高级数据集开始练习。

数十款阿里云产品限时折扣中，赶紧点击领劵开始云上实践吧！

以上为译文。

本文由北邮@爱可可-爱生活老师推荐，阿里云云栖社区组织翻译。

文章原标题《 24 Ultimate Data Science Projects To Boost Your Knowledge and Skills (& can be accessed freely) 》，译者： Mags，审校：袁虎。

文章为简译，更为详细的内容，请查看原文。