Defect Spectrum数据集:最多样化、语义最丰富和最精确的制造基准数据集

166 阅读5分钟

2023-10-26,由香港科技大学(广州)和SmartMore联合创建Defect Spectrum,目的是针对工业缺陷检测提供精确、语义丰富的大规模注释。

一、背景

工业制造是现代社会的基石。在微小的缺陷可能导致重大故障的环境中,确保一流的质量势在必行。制造主要依赖于闭环系统,在“生产制造-缺陷检测-工艺优化-生产制造”的链条中,基于AI的智能缺陷检测扮演着“把关者”的角色。但这个把关者长期以来却缺少一个称手的工具——样本量大、精度高、语义丰富的缺陷数据集。

目前工业缺陷检测领域遇到的困难和挑战:

1、现有数据集的局限性:

  • 现有的缺陷检测数据集通常缺乏实际应用所需的精确度和语义细节。例如,一些数据集只提供像素级的二进制掩码,而没有提供缺陷的具体类型和位置信息。

2、缺陷样本数量有限:

  • 在实际的工业应用中,获取大量的真实缺陷样本是非常困难的,这限制了模型训练和性能提升。

3、缺陷检测的精度和召回率:

  • 在工业生产中,精确地识别出产品缺陷并正确分类对于保证产品质量至关重要。现有方法可能在召回率(即正确识别出所有缺陷的能力)和误报率(即错误地将无缺陷产品标记为有缺陷的能力)之间难以取得平衡。

数据集地址:Defect Spectrum|工业缺陷检测数据集|视觉语言模型数据集

二、让我们一起来看一下Defect Spectrum数据集:

数据集是为了解决工业缺陷检测领域中存在的问题而提出的一个大规模、精确且语义丰富的数据集

1、精确的注释:

  • Defect Spectrum提供了精确的像素级注释,能够清晰地区分和标识出图像中的缺陷轮廓和类别。

2、丰富的语义细节

  • 与传统的只提供二进制掩码的缺陷数据集不同,Defect Spectrum在单个图像中能够识别和注释多种不同类型的缺陷,提供了更丰富的语义信息。

3、大规模数据集:

  • Defect Spectrum建立在四个关键的工业基准测试之上,通过重新评估和细化现有的缺陷注释,确保了全面的表示,并且引入了丰富的语义细节。

4、多样化的缺陷类型:

  • 数据集中包含了125种不同的缺陷类别,能够覆盖工业生产中遇到的各种缺陷情况。

5、描述性标题:

  • 为了配合视觉语言模型(VLMs)的使用,数据集中的每个样本都配备了详尽的描述性标题,这有助于提供更好的上下文理解。

6、增加缺陷样本的数量和多样性:

  • Defect-Gen是一个两阶段的基于扩散的生成器,即使在有限的真实缺陷数据情况下,也能够创建高质量和多样化的缺陷图像,有效扩充了训练数据集,增加了样本的多样性。

7、提高模型性能:

  • 使用Defect Spectrum数据集训练的模型在召回率上实现了显著提升,同时大幅降低了误报率。这表明数据集改进了模型在实际工业环境中的表现,有助于更准确地进行缺陷检测。

三、展望一下Defect Spectrum数据集应用

比如,我是纺织厂的老板,我们厂主要生产高档丝绸和精细面料的那种。

这些丝绸面料是用于制作高级成衣的,所以对质量的要求特别高。在没有自动化质检之前,检查面料上的瑕疵,比如小洞、抽丝、色差或者图案不齐,都得靠工人用放大镜仔细检查。这工作不仅费时费力,而且由于人眼的局限性,很难保证100%的检测准确率。

这件事情让我非常头疼,因为一旦有瑕疵的面料流到市场上,不仅会损害品牌声誉,还可能面临大额的退货和赔偿。而且,随着订单量的增加,依靠人工检查的方法已经跟不上生产节奏了,严重影响了交货时间。

使用基于Defect Spectrum数据集训练的AI质检系统

这个系统就像是给质检部门装了一双“火眼金睛”,它能够识别出面料上的任何微小瑕疵,而且速度极快,准确率极高。

现在,每当一批新面料生产出来,这个AI系统就会立即对每一块面料进行全面扫描,任何微小的瑕疵都逃不过它的“眼睛”。如果发现了问题,系统会自动标记出来,然后工人只需要对这些标记的地方进行复检和处理,大大减少了工作量。

这样一来,质检的效率和准确度都大大提升了。生产线可以全速运转,产能上去了,而且因为瑕疵品少了,品牌声誉和客户满意度也跟着提升了。我看着每个月的销售报告和客户反馈,心里乐开了花。过年也可以给大家多发点年终奖了。

更多开源的数据集,请打开:遇见数据集

www.selectdataset.com/