大规模视觉缺陷检测新基准数据集发布某中心发布名为Kaputt的大规模视觉缺陷检测数据集，包含超过23.8万张图像，涵盖4

新型"Kaputt"数据集为大规模视觉缺陷检测设立新基准

某中心发布了名为Kaputt的大规模视觉缺陷检测数据集，该数据集专为零售物流场景设计，将在国际计算机视觉会议（ICCV 2025）上展示。该数据集包含238,421张高分辨率图像，涵盖48,376个独特商品，其中包含29,316个缺陷实例，规模达到当前最先进基准数据集的40倍。

自动化缺陷检测的挑战

零售物流中开发稳健的视觉缺陷检测系统面临重大挑战。现有基准主要集中于制造业，且已达到饱和状态，AUROC性能超过99.9%。与制造业专注于高度标准化的物品姿态和有限种类不同，零售物流处理数百万种独特商品，其中大多数商品仅见过少数几次。没有足够数据，AI系统很难在如此多样化的商品中学习"正常"与"缺陷"的区别。

面向实际应用的新型数据集

该数据集的结构反映了这些实际挑战和机遇。对于每个查询图像，提供最多三个参考图像，显示商品的"正常"状态（缺陷可能性低于1%），模拟人类检查员比较物品以确定缺陷的方式。数据集还包含七种不同类型缺陷及其严重程度的详细标注，承认了缺陷评估的主观性。

模型性能分析

通过对多种领先方法的全面评估，揭示了任务的复杂性和当前技术限制。测试了四种不同方法：使用通用视觉模型的零样本方法、利用参考图像的少样本方法、监督学习以及结合多种技术的混合方法。

结果令人惊讶：虽然使用完整数据集的监督模型在缺陷检测上达到94.27%的AUROC，但在更现实的训练样本有限场景中，其性能下降至74.4%。最先进的零样本方法表现更差，最高不超过56.96%的AUROC——仅比随机猜测略好。

通过定性分析，识别出这些方法面临的几个关键挑战：模型难以处理细微异常、罕见缺陷类型和参考依赖型缺陷（如缺失单元），经常错误分类可变形物品或具有类似损伤设计的物品。视觉语言模型可以检测明显缺陷，但无法捕捉可变形物品中的细微缺陷或贴纸、污垢等微小异常。

超越零售运营的影响

改进视觉缺陷检测的影响远超出运营效率范畴。早期检测缺陷物品有助于减少浪费、劳动力和资源消耗，防止缺陷产品进一步在供应链中流动，最终支持可持续发展目标。同时确保客户收到完好订单，减少退货和重新发货，进而减少运输产生的碳排放。

潜在应用还超越零售领域。该数据集解决的挑战——处理多样化对象、处理每个实例的有限数据以及管理显著姿态变化——与车辆损伤质量检测、基础设施检查甚至医学成像相关。通过共享此数据集，期望加速这些领域的进展。

Kaputt数据集现已可供下载。鼓励计算机视觉研究人员利用此资源开发解决这一挑战性问题的新方法。期待与研究社区互动，看到从这项工作中产生的创新解决方案。