数据获取
本文已参与「新人创作礼」活动,一起开启掘金创作之路。
引言:这一讲主要讲在没有现成的数据情况下,如何去找数据集,并对三类数据集进行优缺点进行比较。
以及当找不到数据集时,如何获得数据集。
出处:https://www.bilibili.com/video/BV1Lf4y1n7LN?spm_id_from=333.999.0.0
参考:bilibili.com/read/cv13696681?from=note
一、获取数据集的途径
- 首先寻找 现有数据集,现成的数据需要根据情况稍加处理,比如清洗、融合。
- 如果没有现成的数据,那就要考虑 生成数据,制造一批合理的数据。
这里的数据集(dataset)指的是已经被人清洗处理过的,能直接拿来用的。
二、常见的数据集及网站
1.常见的数据集
- 维基百科中关于数据集的列表 en.wikipedia.org/wiki/List_o… 中收录了一系列的数据集
- MNIST: 手写数字数据集 yann.lecun.com/exdb/mnist/
- imageNet : 大规模图片数据集 www.image-net.org/
- AudioSet: 油管的声音片段数据 research.google.com/audioset/
- Kinetic : 油管人类动作视频片段 deepmind.com/research/op…
- KITTI : 无人驾驶数据集 www.cvlibs.net/datasets/ki…
- Amazon Review: 亚马逊用户评价数据 s3.amazonaws.com/amazon-revi…
- SQuAD: 维基百科问答 rajpurkar.github.io/SQuAD-explo…
- LibriSpeech : 有声书数据集 www.tensorflow.org/datasets/ca…
2.数据集的网站
- Paperwithcode 网址 paperswithcode.com/
- Kaggle 网址 www.kaggle.com/
- google 网址 datasetsearch.research.google.com/
三、数据集融合
数据通常放在数据库不同的表内,可以通过mysql数据库中join命令来把多个表合并(join)相互关联,“融合”成一个表。 分开存储灵活,key可以帮助关联。
四、生成数据集
如果实在找不到数据集的时候,可以尝试生成数据。 例如:利用GAN来生成图像,有一个外文网站可以生成人脸。 利用数据增强 Data augmentation,以一张图片为蓝本生成一系列相似但又有差别的图片。