【机器学习课程】第二章数据准备 1.数据获取

147 阅读2分钟

本文已参与「新人创作礼」活动,一起开启掘金创作之路

真正的教育是把学校学的东西都忘掉后剩下的。——爱因斯坦

第二章 数据准备 1.数据获取

1.数据获取

1.1 非技术手段获取方法。

可以通过线下访谈,头脑风暴,调查问卷的方法获取数据。

1.2 技术手段获取方法。

通过爬虫手段,在线上收集数据资源,爬取图片,文本,微博,股票等数据。

1.3 数据集下载

机构门户网站数据集下载:
609748c10a41320b39dd76380f37ce3d.png

中国国家统计局

美国政府公开数据

印度政府公开数据

世界银行公开数据

联合国数据

竞赛平台与企业平台数据获取

机器学习最著名的数据存储库:

UC-Machine-Learning-Repository 
afcc23d208729132af674b69080af6f5.png

Kaggle-全球最大的数据竞赛平台:

Kaggle
78e92f094626fe028bf319d76bfc1feb.png

天池-阿里旗下数据科学竞赛平台:

天池
6c757550070f0f2e53e5567c40a89f35.png

DataCastle-专业的数据科学竞赛平台DataCastle

亚马逊数据集

微软数据集

机器学习数据集:

The MNIST Database
最流行的图像识别数据集,使用手写数字。它包括6万个示例和1万个示例的测试集。这通常是第一个进行图像识别的数据集。
6e66a962f5dc0839d50e05be34673af7.png

Chars74K
这里是下一阶段的进化,如果你已经通过了手写的数字。该数据集包括自然图像中的字符识别。数据集包含74,000个图像,因此数据集的名称。

Frontal Face Images
如果你已经完成了前两个项目,并且能够识别数字和字符,这是图像识别中的下一个挑战级别——正面人脸图像。这些图像是由CMU & MIT收集的,排列在四个文件夹中。

ImageNet
通用物品识别数据集。根据WordNet层次结构组织的图像数据库(目前仅为名词)。层次结构的每个节点都由数百个图像描述。目前,该集合平均每个节点有超过500个图像(而且还在增加)。
af9e9a89b4abd67a3c18f8bd4ffebf6d.png
dbe5ccae4791dc6403142b10090bcc7f.png

Spam – Non Spam
区分短信是否为垃圾邮件是一个有趣的问题。你需要构建一个分类器将短信进行分类。

Twitter Sentiment Analysis该数据集包含 1578627 个分类推文,每行被标记为1的积极情绪,0位负面情绪。数据依次基于 Kaggle 比赛和 Nick Sanders 的分析。

Movie Review Data
这个网站提供了一系列的电影评论文件,这些文件标注了他们的总体情绪极性(正面或负面)或主观评价(例如,“两个半明星”)和对其主观性地位(主观或客观)或极性的标签。