一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第22天,点击查看活动详情。
今天深度学习的发展是离不开大数据,互联网的出现,特别是移动互联网的出现,让我们随时就可以拿起收集进行拍照,而且随着 4G 网络的普及,我们不在通过文字来描述生活,而是用图像和视频来记录我们的生活,这是因为现在数据采集成本的降低才出现百万级以上图像数据集。而且现在每一天、每一秒都产生海量数据,正式基于这些海量数据才能够训练出 resNet101 甚至今天 GPT3 这样具有上亿参数的大模型。
个人工作更多专注于计算机视觉方面的工作,所以接触用于计算机视觉任务的数据集比较多、例如 COCO VOC ,最近工作比较比较接近无人驾驶所以接触了 cityScape 这样用于无人驾驶的数据集。当然数据集一定还是要有自己的数据集,这是因为很多数据集并不是适合你的任务、而且因为 clience 会有许多限制。
我们今天采用数据集不仅是便于训练出一个好的模型,同时也是为模型设定了一个目标。所以数据集设计显得至关重要,只有方向对了才能够走的更远。
对于无人驾驶会用到语义分割这样数据集,而且需要具有一定精度,这样就带来大量标注任务。我们收集数据的目的是帮助训练,而且大家都知道数据集对提升模型能力具有。
那么我们看一看,通过什么属性来定义一个数据集。首先数据集大小,深度学习是一个需要海量数据,所以衡量一个数据集能力往往通过数据数量来表示数据集的能力。
数据集的大小
首先采集通常都是按公里数据,或者视频采集多少小时,标注数量、类别数量,可以对类别进行进一步分类。
数据集多场景
数据集规模不仅仅是图片多少来衡量,而且这里大也表示覆盖更多场景、天气状况、采集时段,采集图片覆盖那些省市。
数据集评估
- 数据集评估指标,对于语义分割来说我们通常需要 IoU、Acc 等指标作为基于该数据集的指标,便于使用数据集进行训练模型的横向对比。
- 通过多个模型进行评估,希望模型在数据集跑出来指标符合其在当下主流数据集上跑出来指标。
数据集工具集
- 提供一些格式转换工具,以弥补数据集对于其他模型对数据要求格式不支持的不足。