如何制作一份高质量带标签口罩数据集,口罩数据集简单总结

496 阅读4分钟

「这是我参与2022首次更文挑战的第27天,活动详情查看:2022首次更文挑战

  • 🎉 声明: 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • 1-0

    ❤️专栏:AI 领域数据资源整理❤️ 之【有效拒绝假数据】


    👋 Follow me 👋,一起 Get 更多有趣 AI、冲冲冲 🚀 🚀


    基础目标检测数据集总结如下:


    小的目标检测数据集下载链接:

    当前最好的开源口罩数据集:


    如何制作一份高质量带标签口罩数据集


    口罩数据集样本--带标签(口罩数据 100 + 人脸数据 100)

    • 带标签口罩数据集–maskSet4k Sample

    • 口罩数据集:

      因为国内口罩类型种类繁多,因此这里把凡是类似口罩形状能够完全掩面的图片均标注为带了口罩(mask)。

    • 原始数据主要来源:

      SCUT-FBP5500_v2.1--亚洲人脸;

      明星工作照片(机场、发布会、运动场地)多为爬虫所得;

      整合其他一些没有 labels 的口罩数据集;

    • 重新制作一份高质量带标签口罩数据集

    • 我所做的主要工作(数据打标+精选)如下

       一:使用pytorch 版本 yolov5 进行二分类 mask 检测,首次模型训练15天,对数据打标;
      
       二:数据+标签,人工筛选
       
       三:打标数据更新数据集再次训练,提升模型精度
      
       四:二三步骤反复迭代 三次,最终得到 准确率(accuracy)高达 0.995 ,召回率 0.99 的检测模型;
      
       五:对数据标签的再次人工筛选,整理得到 maskSet4k 数据集;
      

    maskSet4k 口罩数据集,主要包含内容如下:


    下载压缩包之后,解压内容如下:

    1

    不带口罩数据,示例如下:

    2

    带口罩数据,示例如下:

    3


    该数据集主要特点如下:


    • 训练数据量 4k, mask 和 unmak 比例 1:1
    • 标注准确率极高,因为模型迭代训练一个月的过程中,自己做人工检测和数据标签修正花费2个周末
    • 对于一个图片中存在多张人脸,会有部分人脸没有标签,因为模型检测不到(或者无法判断),那这样的人脸就是没有标签的;但是对于模型训练而言,这样的数据是没有影响的;
    • 现有公开口罩数据集特点:数据量小,不带标签或者标签很不准确,本数据集有质量保证
    • 网上下载的口罩数据集,通常需要花费精力整理和筛选才能够真正使用
    • 该数据为真实场景佩戴的口罩(非模拟)
    • 仅适用于二分类(戴口罩 0 与 不戴 1),口罩检测

    🚀🚀目前掘金平台已经创作的经典博文如下🚀🚀


    计算机视觉领域、经典博文

    AI 学习、深度学习环境搭建 : 一文读懂


    🚀🚀 墨理学AI


  • 🎉 作为全网 AI 领域 干货最多的博主之一,❤️ 不负光阴不负卿 ❤️
  • ❤️ 如果文章对你有帮助、点赞、评论鼓励博主的每一分认真创作
  • 声明:博主所分享数据集,可自行研究使用、学术、工业皆可,请勿在互联网途径传播;


    更多计算机视觉数据集、请关注博客同名公众号@墨理学AI