导读
少样本异常检测(Few-Shot Anomaly Detection)是工业质检领域的核心需求——在仅有极少量正常样本的条件下,模型需要准确识别并定位缺陷。现有方法大多依赖CLIP等视觉-语言模型的文本提示来引导检测,这在实际部署中增加了额外的设计成本。
慕尼黑工业大学(TUM)联合慕尼黑机器学习中心(MCML)与MVTec Software在ICLR 2026上发表了FoundAD,提出了一个关键发现:在大规模自然图像上预训练的基础视觉编码器,已经隐含地学习到了"自然图像流形",图像中异常区域的大小与其在嵌入空间中的距离直接相关。
基于这一观察,FoundAD通过学习一个非线性流形投影算子,在完全不需要文本提示的条件下,以仅11.8M可训练参数,在1-shot设置下于MVTec-AD上取得了96.1%的图像级AUROC,显著优于依赖文本的同类方法。
-
开源代码链接:
-
主要内容:
FoundAD/ 核心代码、训练/推理脚本、预训练权重下载链接
团 队背景
本文作者 Nassir Navab 是慕尼黑工大 CAMP 实验室主任、欧洲科学院院士,同时affiliated于约翰霍普金斯大学,曾16次获得 MICCAI 论文奖。合作方 MVTec Software 是工业机器视觉领域的标杆企业,其创建的 MVTec AD 数据集(CVPR 2019)已成为异常检测领域的标准基准,几乎所有 AD 论文都在该数据集上评测。
一、从未训练过异常检测,为何能检测异常?
工业异常检测的实际场景中,获取大量标注数据往往成本高昂,因此少样本异常检测(Few-Shot AD)成为近年来的研究热点。该任务要求模型仅凭1张或少量正常参考图像,就能判断测试图像是否存在异常,并精确定位异常区域。
当前主流方法可以分为两类:一类是基于视觉-语言模型(如CLIP)的方法,包括WinCLIP、PromptAD、IIPAD等,它们通过精心设计的文本提示(text prompt)来描述"正常"和"异常"的语义,从而引导检测。这些方法虽然有效,但文本提示的设计高度依赖人工经验,且不同场景下的最优提示差异较大。另一类是基于纯视觉编码器的方法,如SPADE、PatchCore、FastRecon等,它们通常需要较多的训练样本或针对每个类别单独建模。
FoundAD的核心动机源于一个直观而重要的观察:在大规模自然图像数据集上训练的基础视觉编码器(Foundation Visual Encoder),已经在其特征空间中编码了一个"自然图像流形"(Natural Image Manifold)。正常图像的特征分布在这个流形上,而包含异常的图像则偏离该流形——并且偏离程度与异常区域面积呈正相关。这一发现意味着,仅利用纯视觉编码器的特征空间,无需引入文本信息,就可以实现高质量的异常检测。
图片来源于原论文
基于这一认识,FoundAD提出学习一个非线性流形投影算子(Manifold Projector),将异常图像的特征投影回正常流形,通过投影前后的特征差异来度量异常程度。整个方法在潜在空间中操作,无需像素级重建,同时采用多类别单模型(Multi-Class-One-Model)的设置,一个模型即可处理所有产品类别。
二、冻结编码器 + 轻量投影器:FoundAD 如何工作
图片来源于原论文
FoundAD的整体架构简洁而高效,由三个核心组件构成:异常感知编码器(Anomaly-Aware Encoder)、参考编码器(Reference Encoder)和流形投影器(Manifold Projector)。
2.1 双编码器结构
FoundAD使用两个结构完全相同的冻结基础视觉编码器(论文中最优配置为DINOv3 ViT-B):
- 异常感知编码器:接收可能包含异常的输入图像,提取其patch级别的特征表示。在训练阶段,输入图像通过CutPaste策略合成人工异常;在推理阶段则直接处理待检测图像。
- 参考编码器:接收正常参考图像,提取对应的正常特征表示,作为流形上的"锚点"。
两个编码器在整个训练和推理过程中参数保持冻结,不参与梯度更新,这保证了基础编码器预训练知识的完整保留。
图片来源于原论文
2.2 流形投影器
流形投影器是FoundAD中唯一需要训练的模块,其结构为一个6层Vision Transformer(ViT)。它的功能是将异常感知编码器输出的特征(可能偏离正常流形)映射回正常图像流形上。
选择ViT而非MLP作为投影器的关键原因在于:ViT中的自注意力机制能够捕捉patch之间的空间交互关系,从而更有效地理解局部异常在全局上下文中的含义。后续消融实验也验证了这一设计选择的合理性。
2.3 训练与推理
训练阶段:通过CutPaste在正常图像上合成异常样本,将合成后的异常图像送入异常感知编码器,原始正常图像送入参考编码器。训练目标是最小化流形投影器输出特征与参考编码器正常特征之间的L2距离。这一损失函数简单直接——投影器学会了将异常特征"拉回"正常流形。
推理阶段:对于每个待检测图像,计算投影后特征与参考正常特征之间的patch级异常分数。像素级定位直接由patch级分数上采样得到。图像级异常分数则通过聚合Top-K个最高异常分数的patch获得,避免了少数高分patch被大量低分patch稀释的问题。
整个方法的一个显著特点是:所有计算均在潜在特征空间中完成,不涉及像素级图像重建,这大幅降低了计算开销。
三、纯视觉特征已经足够:无需文本提示的检测性能
3.1 多类别单模型·少样本设置(主实验)
FoundAD在多类别单模型(Multi-Class-One-Model)设置下,与WinCLIP、PromptAD、IIPAD等需要文本提示的方法进行了对比。结果如下:
MVTec-AD数据集:
| 设置 | I-AUROC | AUPR | P-AUROC | PRO |
|---|---|---|---|---|
| 1-shot | 96.1% | 97.9% | 96.8% | 92.8% |
| 4-shot | 97.1% | 98.6% | 97.2% | 93.5% |
VisA数据集:
| 设置 | I-AUROC | AUPR | P-AUROC | PRO |
|---|---|---|---|---|
| 1-shot | 92.6% | 92.0% | 99.7% | 98.0% |
| 4-shot | 94.4% | 94.0% | 99.7% | 98.4% |
与表现第二好的IIPAD相比,FoundAD在不使用文本提示的条件下实现了全面超越:
- 1-shot MVTec-AD:I-AUROC从94.2%提升至96.1%(+1.9%),PRO从89.8%提升至92.8%(+3.0%)
- 1-shot VisA:P-AUROC从96.9%提升至99.7%(+2.8%)
值得注意的是,WinCLIP、PromptAD、IIPAD均需要文本提示辅助,而FoundAD完全不依赖文本信息,仅靠纯视觉特征即达到了更优的性能。
3.2 与单类别专用模型方法的对比
FoundAD还与在更简单的单类别单模型(One-Class-One-Model)设置下训练的专用方法进行了对比。需要强调的是,FoundAD使用的是更具挑战性的多类别单模型设置——即一个模型同时处理所有类别。
在VisA数据集上,FoundAD 1-shot对比LogSAD:P-AUROC从97.5%提升至99.7%(+2.2%),PRO从88.2%提升至98.0%(+9.8%),后者的提升幅度接近10个百分点。在MVTec-AD 4-shot设置下,LogSAD的P-AUROC为97.5%,略高于FoundAD的97.2%,但FoundAD是以多类别单模型的更难设置达成的。
3.3 效率对比
FoundAD在模型规模和推理效率方面具有明显优势:
| 指标 | FoundAD | LogSAD | IIPAD |
|---|---|---|---|
| 总参数量 | 97.8M | ~1.3B | ~1.0B |
| 可训练参数 | 11.8M | — | — |
| 推理速度 | 128.7ms/张 | — | — |
| 显存占用 | 1386 MiB | — | — |
FoundAD的总参数量仅为LogSAD的约1/13、IIPAD的约1/10,在RTX 3090上可达到约7.8张/秒的推理速度,显存占用仅1386 MiB,具备良好的实际部署条件。
四、消融实验:哪个编码器最适合?ViT 还是 MLP?
4.1 基础编码器的选择
论文在1-shot MVTec-AD设置下对比了不同基础编码器的性能:
| 编码器 | I-AUROC | PRO |
|---|---|---|
| DINOv3 | 96.1% | 92.8% |
| DINOv2 | 95.2% | 92.5% |
| DINO | 88.3% | 87.8% |
| CLIP | 79.0% | 70.9% |
这组结果揭示了两个重要发现:
第一,纯视觉编码器(DINO系列)在异常检测任务上显著优于视觉-语言对齐的CLIP编码器。CLIP的I-AUROC仅为79.0%,远低于DINOv3的96.1%。论文指出CLIP缺乏像素级信息,在细粒度异常定位上表现较弱,而纯视觉自监督训练反而更有利于捕捉异常模式。
第二,编码器的性能随预训练规模和方法的演进而稳步提升(DINO→DINOv2→DINOv3),验证了FoundAD的核心假设:更强的基础视觉编码器学习到了更精确的自然图像流形,从而实现更好的异常检测。
4.2 流形投影器的结构设计
论文对比了不同投影器架构在1-shot MVTec-AD上的表现:
| 投影器结构 | I-AUROC |
|---|---|
| ViT-6层 | 96.1% |
| MLP-6层 | 92.1% |
ViT-6层相比MLP-6层的I-AUROC高出4.0个百分点。这一差距验证了自注意力机制在流形投影中的重要性:patch之间的空间交互信息对于准确建模正常流形至关重要。MLP独立处理每个patch,缺乏全局上下文感知能力,因此在异常定位上表现较弱。
4.3 核心观察:异常面积与特征距离的相关性
FoundAD方法的理论基础在于论文中通过实验验证的一个关键观察:图像中异常区域的面积与该图像在基础编码器嵌入空间中偏离正常分布的距离呈正相关。这意味着基础视觉编码器虽然从未被显式训练用于异常检测,但其学习到的特征空间天然具有区分正常与异常的能力。流形投影器所做的,是将这种隐含能力转化为可量化的异常度量。
五、总结与讨论
FoundAD提出了一个简洁有效的少样本异常检测框架,其核心贡献可以概括为以下几点:
理论层面,论文揭示了基础视觉编码器中隐含的异常检测能力——预训练过程中学习到的自然图像流形可以直接服务于异常检测任务,无需文本提示的辅助。这一发现为异常检测的研究提供了新的视角。
方法层面,FoundAD通过冻结编码器+轻量级ViT投影器的设计,仅需训练11.8M参数,总模型规模97.8M,远小于同类方法(LogSAD约1.3B、IIPAD约1.0B)。同时,多类别单模型的设置降低了实际部署中的模型管理成本。
性能层面,在不使用任何文本提示的条件下,FoundAD在MVTec-AD和VisA两个标准基准上均取得了领先的少样本检测性能,1-shot设置下MVTec-AD的I-AUROC达到96.1%,VisA的P-AUROC达到99.7%。
该方法也存在一定的局限性。论文在Figure 7中展示了部分失败案例,说明在某些特定类型的异常上,纯基于特征距离的检测策略仍有提升空间。此外,方法的性能上限受限于基础编码器的质量,随着未来更强的视觉基础模型的出现,FoundAD的性能有望进一步提升。
论文信息:
- 标题:FoundAD: Foundation Visual Encoders Are Secretly Few-Shot Anomaly Detectors
- 作者:Guangyao Zhai, Yue Zhou, Xinyan Deng, Lars Heckler, Nassir Navab, Benjamin Busam
- 机构:Technical University of Munich (TUM), Munich Center for Machine Learning (MCML), MVTec Software GmbH
- 发表:ICLR 2026