1.2 数据获取【斯坦福21秋季:实用机器学习中文版】

311 阅读2分钟

数据获取

本文已参与「新人创作礼」活动,一起开启掘金创作之路。

引言:这一讲主要讲在没有现成的数据情况下,如何去找数据集,并对三类数据集进行优缺点进行比较。
以及当找不到数据集时,如何获得数据集。
出处:https://www.bilibili.com/video/BV1Lf4y1n7LN?spm_id_from=333.999.0.0
参考:bilibili.com/read/cv13696681?from=note

一、获取数据集的途径

  • 首先寻找 现有数据集,现成的数据需要根据情况稍加处理,比如清洗、融合。
  • 如果没有现成的数据,那就要考虑 生成数据,制造一批合理的数据。
    这里的数据集(dataset)指的是已经被人清洗处理过的,能直接拿来用的。

二、常见的数据集及网站

1.常见的数据集

2.数据集的网站

三、数据集融合

数据通常放在数据库不同的表内,可以通过mysql数据库中join命令来把多个表合并(join)相互关联,“融合”成一个表。 分开存储灵活,key可以帮助关联。

四、生成数据集

如果实在找不到数据集的时候,可以尝试生成数据。 例如:利用GAN来生成图像,有一个外文网站可以生成人脸。 利用数据增强 Data augmentation,以一张图片为蓝本生成一系列相似但又有差别的图片。