大道至简:腾讯优图只用纯视觉模型,4张图超越全量训练SOTA

0 阅读6分钟

近年来,计算机视觉领域掀起了一股“视觉-语言大模型”的浪潮。从CLIP到各种多模态模型,研究者们似乎默认:解决复杂视觉任务必须依赖语言模型的加持。

但在工业质检、医疗影像分析等高度依赖视觉信息的异常检测任务上,这种范式真的必要吗?

今天,来自腾讯优图实验室的研究者们提出了一个颠覆性的观点:纯视觉基础模型足以解决通用视觉异常检测问题。

他们的工作UniADet(Universal vision Anomaly Detection)以“简单到令人尴尬”的方式,彻底摆脱了对语言模型的依赖,仅用纯视觉基础模型,就在14个真实的工业和医疗异常检测基准上,大幅超越了现有的零样本/少样本SOTA方法。

更令人惊讶的是,在某些情况下,仅用4张正常样本就首次超越了全样本训练的SOTA模型。

图片1.png

项目主页:arxiv.org/abs/2601.05…

论文链接:github.com/gaobb/UniAD…

传统方法之困:被语言模型“绑架”的异常检测

在UniADet之前,零样本和少样本异常检测的主流方法严重依赖像CLIP这样的视觉-语言模型。基本流程是:通过输入“正常”和“异常”等文本提示,让语言编码器生成用于区分正常与异常的分类权重。

图片2.png

这种方法虽然有效,但存在明显缺陷:

  • 复杂的提示工程: 为了让模型理解什么是“异常”,研究者需要精心设计文本提示,这本身就成为一门“玄学”
  • 模型通用性受限: 方法被“锁死”在视觉-语言模型上,无法利用DINOv2、DINOv3等强大的纯视觉自监督模型
  • 策略臃肿复杂: 各种适配器模块和训练技巧层出不穷,使得整个框架越来越复杂

腾讯优图的研究团队敏锐地抓住了一个根本问题:语言编码器的唯一作用只是生成决策权重,那么为什么不直接学习这个权重呢?

UniADet的极简之道:双重解耦设计

UniADet被设计为一个完全“语言无关”的框架。其核心思想可以用两个字概括:解耦。

图片3.png

  • 解耦分类与分割:各司其职

传统方法通常用同一组权重同时执行分类(判断整图是否异常)和分割(定位异常区域)两个任务。但研究者通过可视化发现,代表全局图像的特征与代表局部区域的特征,它们的分布存在巨大差异。

图片4.png

用同一把“尺子”去衡量两个不同的东西,效果自然打折扣。

UniADet的创新之处在于:为分类任务和分割任务分别学习独立的权重。这样,两个任务就有了各自专属的决策边界,解决了因特征分布不一致而导致的学习冲突。

  • 解耦层级特征:多尺度优化

同样地,来自骨干网络不同深度的特征,其语义信息也不同。浅层特征更关注纹理细节,深层特征更关注整体结构。

UniADet将解耦进行到底:为每一个用到的特征层级,都学习其独立的分类和分割权重。这就保证了模型在每个尺度上都能以最优的方式进行决策。

通过这两个简单的解耦操作,UniADet彻底摆脱了语言模型的束缚,变成了一个仅需学习极少量线性权重的、极其轻量且高效的框架。

少样本推理:轻量级内存增强机制

除了零样本能力,UniADet还针对少样本场景设计了巧妙的解决方案。它引入了一个受PatchCore启发的内存增强机制:将少量正常样本的局部特征存储起来,构建一个多尺度的正常特征记忆库。

推理时,通过计算查询图片特征与记忆库中最近邻特征的距离,得到少样本异常分数,并最终与零样本的预测结果进行融合。这种方法有效识别了那些需要与正常样本进行对比才能发现的异常。

性能表现:简单方法的强大实力

UniADet在多个基准测试中的表现证明了一个道理:大道至简。

  • 零样本性能对比
  • 工业领域: UniADet平均Image-AUROC达到91.6%,显著高于依赖语言的AdaptCLIP(89.6%)
  • 医学领域: UniADet平均像素级P-AUROC达到91.7%,显著高于Bayes-PFL(87.7%)和AnomalyCLIP(83.5%)

图片5.png

图片6.png

  • 参数效率与推理速度

最令人印象深刻的是UniADet的超高效率:

  • 参数量: 仅0.0015M(1.5e-3M),比动辄几M甚至几十M参数的SOTA方法降低了数千甚至上万倍
  • 推理速度: 仅需15.7ms,是目前最快的解决方案之一

图片7.png

  • 少样本学习的突破

在Real-IAD这个具有代表性的大规模数据集上,UniADet仅用4张正常样本就达到了90.3%的Image-AUROC,超越了全样本训练的SOTA模型Dinomaly(89.3%)。

这是首次有方法在如此少的样本下超越全量训练模型,标志着少样本异常检测的一个重要里程碑。

图片8.png

可视化结果:精准的异常定位

无论是工业瑕疵还是医疗病灶,UniADet都能准确定位:

  • 工业产品: 准确识别划痕、凹陷、污染等各种缺陷
  • 医疗影像: 精确定位肿瘤、病变区域,为医疗诊断提供可靠支持

可视化结果显示,UniADet生成的分割图边界清晰、噪声少,与真实标注高度一致。

图片9.png

思考与启示:回归视觉本质

UniADet这篇工作带给我们的不仅是一个高效的异常检测工具,更是一种研究思路上的启发。

在AI领域,我们似乎习惯了用更强、更大、更复杂的模型去“暴力”解决问题。但UniADet提醒我们,深入理解问题的本质,有时候能让我们找到更优雅、更高效的解法。

当视觉问题可以用纯粹的视觉模型解决时,或许我们真的不需要强行引入其他模态。这种“回归本源”的思路,对于降低AI应用门槛、提高模型可解释性具有重要意义。

结语

UniADet为通用异常检测领域树立了一个新的、极具竞争力的基准。它证明了在特定任务上,简洁优雅的设计往往比复杂的多模态模型更加有效。

期待作者开源代码后,社区能在此基础上迸发出更多创新火花。这一工作也提醒我们:在追求模型复杂度的同时,不应忽视对问题本质的深入思考。

有时候,最简单的方案,往往是最强大的。