CVPR 2026|一张缺陷图变一百张:O2MAG免训练注意力嫁接生成高保真工业异常样本

0 阅读9分钟

导读

工业异常检测长期面临一个核心瓶颈:正常样本充足,异常样本稀缺。为每种缺陷类型收集大量标注数据既耗时又昂贵,而现有的异常图像合成方法往往依赖针对性训练,动辄数百小时的GPU成本。如果只有一张缺陷参考图,能否在不做任何训练的前提下,合成大量高保真异常样本?

南京大学联合中国移动紫金创新研究院与山东科技大学提出的O2MAG给出了肯定回答。该方法通过三分支注意力嫁接(Tri-branch Attention Grafting, TriAG),将参考异常图像的self-attention"移植"到目标图像上,实现前景异常与背景正常区域的精准解耦合成。配合文本嵌入优化(AGO)和双注意力增强(DAE)两个辅助模块,O2MAG在MVTec-AD上取得像素级AP 86.3、F1-max 80.8,分别超越此前方法DualAnoDiff +1.8和+2.0;分类准确率达到82.35%,超越AnoDiff +12.1个百分点。三个数据集使用完全相同的超参数,推理速度28秒/张,比同为免训练的AnomalyAny快约4.3倍。


论文信息

  • 标题:One-to-More: High-Fidelity Training-Free Anomaly Generation with Attention Control
  • 作者:Haoxiang Rao, Zhao Wang, Chenyang Si, Yan LYU, Yuanyi Duan, Fang Zhao, Caifeng Shan
  • 机构:南京大学、中国移动紫金创新研究院、山东科技大学
  • 发表:CVPR 2026

一、为什么一张缺陷图就够了?

工业场景中异常样本的稀缺性是异常检测性能的主要瓶颈。以MVTec-AD数据集为例,15个产品类别中每类最多包含8种异常类型,每种异常类型的真实样本往往只有个位数到十几张。训练一个可靠的异常分割模型,通常需要几十倍于此的数据量。

近年来的异常图像合成方法可以大致分为四类:基于GAN的方法(如DFMGAN)、基于扩散模型的训练型方法(如AnomalyDiffusion、DualAnoDiff、SeaS),以及免训练方法(如AnomalyAny)。训练型方法的代价不容忽视,例如DFMGAN需要464小时训练时间,即便最快的SeaS也需要124小时。AnomalyAny虽然免训练,但推理速度为120秒/张,且生成质量不够理想。

O2MAG的核心洞察来自扩散模型中self-attention的一个特性:在去噪过程中,self-attention map天然能将异常前景区域与正常背景区域分离。如果一张图上有裂纹,self-attention会在裂纹区域形成独立的注意力聚类。这意味着,只要有一张参考异常图像和它的掩码(Mask),就可以把异常区域的注意力特征"嫁接"到任意正常图像上,生成新的异常样本。整个过程不需要训练或微调模型,直接使用冻结的Stable Diffusion v1.5完成。

图片

图片来源于原论文


二、三大核心模块:TriAG、AGO、DAE

O2MAG的方法框架围绕三个模块构建,三者协同工作,分别解决异常合成流程中的不同问题。

TriAG:三分支注意力嫁接

TriAG是O2MAG的核心架构。它同时运行三条并行的扩散去噪过程:

  • 参考异常分支(Reference-anomaly) :对参考异常图像进行DDIM反转,得到其噪声图,在去噪过程中提供异常区域的self-attention特征。
  • 正常图像分支(Normal-image) :对目标正常图像进行DDIM反转,去噪过程中提供正常背景的self-attention特征。
  • 目标异常分支(Target-anomaly) :初始化时继承正常图像分支的噪声图,在去噪过程中接收来自前两个分支的注意力信息。

关键机制在于self-attention的嫁接方式:目标分支的Query同时attend参考分支和正常分支的Key/Value,但通过异常掩码进行解耦。具体来说,目标掩码区域内的像素只从参考异常分支获取前景异常特征,掩码区域外的像素只从正常分支获取背景特征。最终合成的注意力表示为:

Attn = M_T x Attn_fg + (1 - M_T) x Attn_bg

其中M_T是目标异常掩码,Attn_fg来自参考异常分支,Attn_bg来自正常分支。注意力嫁接从去噪的第5步开始(此时物体结构已基本形成),作用于U-Net解码器的第9到16层。

AGO:异常引导的文本嵌入优化

Stable Diffusion的预训练数据(LAION-5B)中几乎不包含工业缺陷图像,因此用简单文本模板"A photo of a [类别] with a [异常类型]"难以准确表达异常语义。AGO通过冻结CLIP文本编码器、直接用Adam优化器优化text embedding来解决这个问题。

优化目标是最小化重建损失(Reconstruction Loss),使用参考异常图像的DDIM反转噪声图作为优化信号,在64x64扩散阶段进行500步优化,学习率为3x10^-3。同时配合负面提示(Negative Prompts),如"intact shell""no crack""smooth surface"等,通过分类器无关引导(Classifier-Free Guidance, CFG)进一步约束生成方向。

DAE:双注意力增强

即便有了TriAG和AGO,生成的异常有时仍未完全填充掩码区域,出现"异常偏淡"的问题。DAE从self-attention和cross-attention两个层面强化异常信号:

  • Self-attention增强:对前景掩码区域的像素添加logit偏置(gamma=1.1)和温度缩放(tau_fg=0.7),放大这些像素对异常特征的注意力权重。
  • Cross-attention增强:将异常类型token的cross-attention在掩码区域内放大100倍,确保文本指导的异常语义集中在目标区域。

值得注意的是,所有超参数(包括gamma、tau_fg、放大因子C=100、注意力嫁接的时间步范围等)在MVTec-AD、VisA和Real-IAD三个数据集上完全相同,无需逐数据集调参。

图片

图片来源于原论文


三、三个数据集实验:同一套超参数通吃

O2MAG在三个主流工业异常检测数据集上进行了验证,对比方法覆盖训练型(DFMGAN、AnomalyDiffusion、DualAnoDiff、SeaS)和免训练型(AnomalyAny、TF^2)。实验协议统一为:前1/3异常图像作为参考,每个类别每种异常类型合成1000张异常图像,下游使用U-Net分割模型和ResNet-34分类模型评测。

MVTec-AD:像素级检测与分类全面领先

MVTec-AD是工业异常检测领域最常用的基准,包含15个产品类别。O2MAG的核心结果如下:

像素级异常检测与定位(U-Net分割模型):

方法AUROCAPF1-max
DFMGAN90.062.762.1
AnomalyDiffusion99.181.476.3
DualAnoDiff99.184.578.8
SeaS98.783.178.1
O2MAG99.286.380.8

O2MAG在AP和F1-max两项核心指标上分别超越次优方法DualAnoDiff +1.8和+2.0。

异常分类准确率(ResNet-34):

方法类型平均准确率
DFMGAN训练型49.61%
TF^2免训练61.88%
DualAnoDiff训练型65.55%
AnomalyDiffusion训练型70.25%
O2MAG免训练82.35%

分类准确率82.35%,超越此前最高的AnomalyDiffusion(70.25%)+12.1个百分点,超越同为免训练的TF^2(61.88%)+20.47个百分点。

生成质量(KID,越低越好):

方法KID
AnomalyDiffusion102.67
DualAnoDiff103.87
SeaS125.67
DFMGAN63.82
O2MAG45.55

O2MAG的KID为45.55,显著低于所有对比方法,说明生成图像与真实异常的分布最为接近。

VisA:跨领域泛化

VisA包含12个物体类别、涵盖从表面瑕疵到逻辑异常的多种缺陷类型。O2MAG的生成质量优势更为明显:

方法KID
AnomalyDiffusion108.04
DualAnoDiff96.99
SeaS63.22
O2MAG23.10

KID从次优方法SeaS的63.22大幅降低至23.10。与AnomalyAny的对比中,O2MAG在像素级P-F1上达到64.6,超越AnomalyAny的50.4(+14.2个百分点)。

Real-IAD:大规模数据集验证

Real-IAD是更大规模的工业数据集,包含30个类别、111种异常类型。O2MAG同样使用完全相同的超参数:

方法AP-IAP-PF1-P
DualAnoDiff77.825.731.9
SeaS80.431.136.5
O2MAG84.037.341.9

效率对比:免训练且推理更快

方法训练总时间推理时间/张
DFMGAN464小时0.9秒
AnomalyDiffusion310小时7.4秒
DualAnoDiff197小时32.4秒
SeaS124小时10.7秒
AnomalyAny0小时120秒
O2MAG0小时28秒

O2MAG无需训练,推理速度28秒/张,比同为免训练的AnomalyAny快约4.3倍。


四、消融实验:三个模块各贡献多少?

消融实验在MVTec-AD上进行,使用像素级AUROC、AP和F1-max评估各模块的贡献。

组件消融

TriAGDAEAGOAUROCAPF1-max
--99.081.977.6
-99.083.377.9
-99.182.777.7
99.286.380.8

从基线TriAG(AP 81.9)出发:

  • 单独加入DAE,AP从81.9提升到83.3(+1.4),说明注意力增强能有效改善异常对掩码区域的填充。
  • 单独加入AGO,AP从81.9提升到82.7(+0.8),说明文本嵌入优化对异常语义对齐有帮助。
  • 三者联合时AP达到86.3(+4.4),F1-max达到80.8(+3.2) ,增益明显超过单独累加,表明DAE和AGO之间存在协同效应。

零样本跨类别生成

O2MAG还验证了零样本场景——用一类的异常参考去生成另一类的异常。在hazelnut-hole子集上,零样本O2MAG的像素级F1-P达到80.2,超越AnomalyAny的75.0(+5.2)和SeaS-zero的73.7(+6.5)。

掩码来源鲁棒性

论文在hazelnut-crack子集上测试了四种不同的掩码来源(Perlin noise、Nano Banana、AnomalyDiffusion、SeaS),所有来源的图像级检测均达到100,像素级AP波动范围为94.8~97.3,说明O2MAG对掩码来源并不敏感。

图片

图片来源于原论文


五、总结与思考

O2MAG提出了一种免训练的少样本工业异常图像生成框架,核心思路是利用扩散模型self-attention对异常前景和正常背景的天然区分能力,通过三分支注意力嫁接将参考异常"移植"到目标图像上。配合文本嵌入优化和双注意力增强,在MVTec-AD、VisA和Real-IAD三个数据集上均取得了当前最优的生成质量和下游检测性能,且三个数据集共用同一组超参数。

在此基础上,有几点值得进一步关注。首先,O2MAG依赖异常掩码作为输入,掩码的质量会直接影响生成效果,实际部署时掩码的获取方式(人工标注或自动生成)需要纳入工程考量。其次,论文也坦承两个局限:对需要空间推理的逻辑异常(如cable-cable_swap、transistor-misplaced)和面积极小的微缺陷,self-attention的区分能力不足,生成效果有待改进。最后,代码目前尚未公开,方法的可复现性需要等待后续代码发布后验证。