一起养成写作习惯!这是我参与「掘金日新计划 · 4 月更文挑战」的第24天,点击查看活动详情。
先说一些自己,自己到现在从事目标检测、语义分割也有一段时间了,数据集采集和标注其实是摆在所有深度学习开发人员第一个问题,因为这些都是比较消耗时间和成本的。而且数据集对于我们要训练的模型定义了一个天花板。而且许多对深度学习不算了解的人,可能会忽视这个环节的重要性
概要
数据集对深度学习以及机器学习的重要性,这里就不言而喻了。不过我们在实际工作中往往更看重模型结构设计,而忽略数据集的设计。
FiftyOne 提供对数据集的可视化的功能,让你可以快速地数据集有一个全面的了解,从提供机器学习工作流程。
提升模型性能主要由两个方面来提升,一个模型本身,难度比较大,第二个就是数据,对于一个好的数据集是可以推动提升模型的准确度的。
核心功能
学习策略
机器学习工程,使用 fiftyOne 的主要作用功能更容易导入和操作数据集。
评估模型
通过使用 fiftyOne 对于机器学习模型,在实际中,
可视化嵌入
可以分析你的数据和模型,也就是将数据嵌入到一个低维空间,通过降维方式来可视化数据,挖掘出一下一些样本之间差异性,
支持地理信息显式
许多数据集都有位置元数据,但基于位置的数据集的可视化,如果我们想要空间维度来观察这些数据分布,无需在云上来观察这些数据,fiftyOne 支持在本地来基于数据集元数据来可视化
自动发现标注错误
一直一来我们都可以将数据看做模型天花板,标注错误可能数据,给模型带来的伤害可想而知。然而通过人工去搜索数据对于大型数据集来说显然是不可行的。fiftyOne 提供自动识别数据集中可能的标注错误。这个功能还是让人毕竟惊叹,也给自己
移除重复图像
在模型训练过程中,在特定数据上进行训练时,删除重复或比较接近的图像,并从原始数据提供多样化的训练数据集