导读
工业异常检测长期面临一个核心瓶颈:正常样本充足,异常样本稀缺。为每种缺陷类型收集大量标注数据既耗时又昂贵,而现有的异常图像合成方法往往依赖针对性训练,动辄数百小时的GPU成本。如果只有一张缺陷参考图,能否在不做任何训练的前提下,合成大量高保真异常样本?
南京大学联合中国移动紫金创新研究院与山东科技大学提出的O2MAG给出了肯定回答。该方法通过三分支注意力嫁接(Tri-branch Attention Grafting, TriAG),将参考异常图像的self-attention"移植"到目标图像上,实现前景异常与背景正常区域的精准解耦合成。配合文本嵌入优化(AGO)和双注意力增强(DAE)两个辅助模块,O2MAG在MVTec-AD上取得像素级AP 86.3、F1-max 80.8,分别超越此前方法DualAnoDiff +1.8和+2.0;分类准确率达到82.35%,超越AnoDiff +12.1个百分点。三个数据集使用完全相同的超参数,推理速度28秒/张,比同为免训练的AnomalyAny快约4.3倍。
论文信息
- 标题:One-to-More: High-Fidelity Training-Free Anomaly Generation with Attention Control
- 作者:Haoxiang Rao, Zhao Wang, Chenyang Si, Yan LYU, Yuanyi Duan, Fang Zhao, Caifeng Shan
- 机构:南京大学、中国移动紫金创新研究院、山东科技大学
- 发表:CVPR 2026
一、为什么一张缺陷图就够了?
工业场景中异常样本的稀缺性是异常检测性能的主要瓶颈。以MVTec-AD数据集为例,15个产品类别中每类最多包含8种异常类型,每种异常类型的真实样本往往只有个位数到十几张。训练一个可靠的异常分割模型,通常需要几十倍于此的数据量。
近年来的异常图像合成方法可以大致分为四类:基于GAN的方法(如DFMGAN)、基于扩散模型的训练型方法(如AnomalyDiffusion、DualAnoDiff、SeaS),以及免训练方法(如AnomalyAny)。训练型方法的代价不容忽视,例如DFMGAN需要464小时训练时间,即便最快的SeaS也需要124小时。AnomalyAny虽然免训练,但推理速度为120秒/张,且生成质量不够理想。
O2MAG的核心洞察来自扩散模型中self-attention的一个特性:在去噪过程中,self-attention map天然能将异常前景区域与正常背景区域分离。如果一张图上有裂纹,self-attention会在裂纹区域形成独立的注意力聚类。这意味着,只要有一张参考异常图像和它的掩码(Mask),就可以把异常区域的注意力特征"嫁接"到任意正常图像上,生成新的异常样本。整个过程不需要训练或微调模型,直接使用冻结的Stable Diffusion v1.5完成。
图片来源于原论文
二、三大核心模块:TriAG、AGO、DAE
O2MAG的方法框架围绕三个模块构建,三者协同工作,分别解决异常合成流程中的不同问题。
TriAG:三分支注意力嫁接
TriAG是O2MAG的核心架构。它同时运行三条并行的扩散去噪过程:
- 参考异常分支(Reference-anomaly) :对参考异常图像进行DDIM反转,得到其噪声图,在去噪过程中提供异常区域的self-attention特征。
- 正常图像分支(Normal-image) :对目标正常图像进行DDIM反转,去噪过程中提供正常背景的self-attention特征。
- 目标异常分支(Target-anomaly) :初始化时继承正常图像分支的噪声图,在去噪过程中接收来自前两个分支的注意力信息。
关键机制在于self-attention的嫁接方式:目标分支的Query同时attend参考分支和正常分支的Key/Value,但通过异常掩码进行解耦。具体来说,目标掩码区域内的像素只从参考异常分支获取前景异常特征,掩码区域外的像素只从正常分支获取背景特征。最终合成的注意力表示为:
Attn = M_T x Attn_fg + (1 - M_T) x Attn_bg
其中M_T是目标异常掩码,Attn_fg来自参考异常分支,Attn_bg来自正常分支。注意力嫁接从去噪的第5步开始(此时物体结构已基本形成),作用于U-Net解码器的第9到16层。
AGO:异常引导的文本嵌入优化
Stable Diffusion的预训练数据(LAION-5B)中几乎不包含工业缺陷图像,因此用简单文本模板"A photo of a [类别] with a [异常类型]"难以准确表达异常语义。AGO通过冻结CLIP文本编码器、直接用Adam优化器优化text embedding来解决这个问题。
优化目标是最小化重建损失(Reconstruction Loss),使用参考异常图像的DDIM反转噪声图作为优化信号,在64x64扩散阶段进行500步优化,学习率为3x10^-3。同时配合负面提示(Negative Prompts),如"intact shell""no crack""smooth surface"等,通过分类器无关引导(Classifier-Free Guidance, CFG)进一步约束生成方向。
DAE:双注意力增强
即便有了TriAG和AGO,生成的异常有时仍未完全填充掩码区域,出现"异常偏淡"的问题。DAE从self-attention和cross-attention两个层面强化异常信号:
- Self-attention增强:对前景掩码区域的像素添加logit偏置(gamma=1.1)和温度缩放(tau_fg=0.7),放大这些像素对异常特征的注意力权重。
- Cross-attention增强:将异常类型token的cross-attention在掩码区域内放大100倍,确保文本指导的异常语义集中在目标区域。
值得注意的是,所有超参数(包括gamma、tau_fg、放大因子C=100、注意力嫁接的时间步范围等)在MVTec-AD、VisA和Real-IAD三个数据集上完全相同,无需逐数据集调参。
图片来源于原论文
三、三个数据集实验:同一套超参数通吃
O2MAG在三个主流工业异常检测数据集上进行了验证,对比方法覆盖训练型(DFMGAN、AnomalyDiffusion、DualAnoDiff、SeaS)和免训练型(AnomalyAny、TF^2)。实验协议统一为:前1/3异常图像作为参考,每个类别每种异常类型合成1000张异常图像,下游使用U-Net分割模型和ResNet-34分类模型评测。
MVTec-AD:像素级检测与分类全面领先
MVTec-AD是工业异常检测领域最常用的基准,包含15个产品类别。O2MAG的核心结果如下:
像素级异常检测与定位(U-Net分割模型):
| 方法 | AUROC | AP | F1-max |
|---|---|---|---|
| DFMGAN | 90.0 | 62.7 | 62.1 |
| AnomalyDiffusion | 99.1 | 81.4 | 76.3 |
| DualAnoDiff | 99.1 | 84.5 | 78.8 |
| SeaS | 98.7 | 83.1 | 78.1 |
| O2MAG | 99.2 | 86.3 | 80.8 |
O2MAG在AP和F1-max两项核心指标上分别超越次优方法DualAnoDiff +1.8和+2.0。
异常分类准确率(ResNet-34):
| 方法 | 类型 | 平均准确率 |
|---|---|---|
| DFMGAN | 训练型 | 49.61% |
| TF^2 | 免训练 | 61.88% |
| DualAnoDiff | 训练型 | 65.55% |
| AnomalyDiffusion | 训练型 | 70.25% |
| O2MAG | 免训练 | 82.35% |
分类准确率82.35%,超越此前最高的AnomalyDiffusion(70.25%)+12.1个百分点,超越同为免训练的TF^2(61.88%)+20.47个百分点。
生成质量(KID,越低越好):
| 方法 | KID |
|---|---|
| AnomalyDiffusion | 102.67 |
| DualAnoDiff | 103.87 |
| SeaS | 125.67 |
| DFMGAN | 63.82 |
| O2MAG | 45.55 |
O2MAG的KID为45.55,显著低于所有对比方法,说明生成图像与真实异常的分布最为接近。
VisA:跨领域泛化
VisA包含12个物体类别、涵盖从表面瑕疵到逻辑异常的多种缺陷类型。O2MAG的生成质量优势更为明显:
| 方法 | KID |
|---|---|
| AnomalyDiffusion | 108.04 |
| DualAnoDiff | 96.99 |
| SeaS | 63.22 |
| O2MAG | 23.10 |
KID从次优方法SeaS的63.22大幅降低至23.10。与AnomalyAny的对比中,O2MAG在像素级P-F1上达到64.6,超越AnomalyAny的50.4(+14.2个百分点)。
Real-IAD:大规模数据集验证
Real-IAD是更大规模的工业数据集,包含30个类别、111种异常类型。O2MAG同样使用完全相同的超参数:
| 方法 | AP-I | AP-P | F1-P |
|---|---|---|---|
| DualAnoDiff | 77.8 | 25.7 | 31.9 |
| SeaS | 80.4 | 31.1 | 36.5 |
| O2MAG | 84.0 | 37.3 | 41.9 |
效率对比:免训练且推理更快
| 方法 | 训练总时间 | 推理时间/张 |
|---|---|---|
| DFMGAN | 464小时 | 0.9秒 |
| AnomalyDiffusion | 310小时 | 7.4秒 |
| DualAnoDiff | 197小时 | 32.4秒 |
| SeaS | 124小时 | 10.7秒 |
| AnomalyAny | 0小时 | 120秒 |
| O2MAG | 0小时 | 28秒 |
O2MAG无需训练,推理速度28秒/张,比同为免训练的AnomalyAny快约4.3倍。
四、消融实验:三个模块各贡献多少?
消融实验在MVTec-AD上进行,使用像素级AUROC、AP和F1-max评估各模块的贡献。
组件消融
| TriAG | DAE | AGO | AUROC | AP | F1-max |
|---|---|---|---|---|---|
| 有 | - | - | 99.0 | 81.9 | 77.6 |
| 有 | 有 | - | 99.0 | 83.3 | 77.9 |
| 有 | - | 有 | 99.1 | 82.7 | 77.7 |
| 有 | 有 | 有 | 99.2 | 86.3 | 80.8 |
从基线TriAG(AP 81.9)出发:
- 单独加入DAE,AP从81.9提升到83.3(+1.4),说明注意力增强能有效改善异常对掩码区域的填充。
- 单独加入AGO,AP从81.9提升到82.7(+0.8),说明文本嵌入优化对异常语义对齐有帮助。
- 三者联合时AP达到86.3(+4.4),F1-max达到80.8(+3.2) ,增益明显超过单独累加,表明DAE和AGO之间存在协同效应。
零样本跨类别生成
O2MAG还验证了零样本场景——用一类的异常参考去生成另一类的异常。在hazelnut-hole子集上,零样本O2MAG的像素级F1-P达到80.2,超越AnomalyAny的75.0(+5.2)和SeaS-zero的73.7(+6.5)。
掩码来源鲁棒性
论文在hazelnut-crack子集上测试了四种不同的掩码来源(Perlin noise、Nano Banana、AnomalyDiffusion、SeaS),所有来源的图像级检测均达到100,像素级AP波动范围为94.8~97.3,说明O2MAG对掩码来源并不敏感。
图片来源于原论文
五、总结与思考
O2MAG提出了一种免训练的少样本工业异常图像生成框架,核心思路是利用扩散模型self-attention对异常前景和正常背景的天然区分能力,通过三分支注意力嫁接将参考异常"移植"到目标图像上。配合文本嵌入优化和双注意力增强,在MVTec-AD、VisA和Real-IAD三个数据集上均取得了当前最优的生成质量和下游检测性能,且三个数据集共用同一组超参数。
在此基础上,有几点值得进一步关注。首先,O2MAG依赖异常掩码作为输入,掩码的质量会直接影响生成效果,实际部署时掩码的获取方式(人工标注或自动生成)需要纳入工程考量。其次,论文也坦承两个局限:对需要空间推理的逻辑异常(如cable-cable_swap、transistor-misplaced)和面积极小的微缺陷,self-attention的区分能力不足,生成效果有待改进。最后,代码目前尚未公开,方法的可复现性需要等待后续代码发布后验证。