前言 近日,来自苹果公司和马里兰大学的研究团队发表了一篇引人注目的论文,题为《Stable Diffusion Models are Secretly Good at Visual In-Context Learning》。该研究发现,所熟知的预训练文本到图像生成模型——Stable Diffusion,无需任何额外的微调,就“秘密”地具备了强大的视觉上下文学习(Visual In-Context Learning, V-ICL)能力。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
本文转载自我爱计算机视觉
仅用于学术分享,若侵权请联系删除
招聘高光谱图像、语义分割、diffusion等方向论文指导老师
研究团队提出了一种创新的“就地注意力重新计算”方法,直接在Stable Diffusion的U-Net架构内部修改注意力机制,从而使其能够理解并执行基于少数几个示例(few-shot examples)的复杂视觉任务。实验结果惊人,该方法在前景分割、目标检测、边缘检测、上色等六种不同的视觉任务上都表现出色,在部分任务上的性能甚至超越了需要专门训练的现有方法。例如,在Pascal-5i数据集的前景分割任务上,其mIoU指标比Visual Prompting和IMProv等近期成果分别高出 8.9% 和 3.2% 。这一发现揭示了扩散模型尚未被充分挖掘的“涌现能力”,为计算机视觉领域的少样本学习开辟了新的道路。
- 论文标题:Stable Diffusion Models are Secretly Good at Visual In-Context Learning
- 作者:Trevine Oorloff, Vishwanath Sindagi, Wele Gedara Chaminda Bandara, Ali Shafahi, Amin Ghiasi, Charan Prakash, Reza Ardekani
- 机构:苹果公司、马里兰大学
- 论文地址:arxiv.org/pdf/2508.09…
- 会议录用:Accepted to ICCV 2025
研究背景与意义
上下文学习(In-Context Learning, ICL)是大型语言模型(LLM)的核心能力之一,它允许模型通过几个输入示例(“in-context” examples)来快速适应新任务,而无需更新模型参数。这一能力极大地提升了LLM的通用性和易用性。
研究者们一直希望将这种强大的学习范式迁移到计算机视觉领域,即视觉上下文学习(V-ICL)。然而,现有的V-ICL方法通常面临两大挑战:
- 需要专门训练:大多数方法需要在大规模、精心组织的“上下文-目标”图像对数据集上进行专门的预训练,这增加了实现的复杂性。
- 泛化性受限:专门的训练可能导致模型在训练数据分布之外的任务上泛化能力不足。
现有V-ICL方法(上)通常需要专门的训练,而本文方法(下)直接利用“开箱即用”的Stable Diffusion模型,无需额外训练。
本文的突破之处在于,它证明了像Stable Diffusion这样的预训练生成模型,其内部已经蕴含了执行V-ICL的潜在能力。研究者要做的不是从头训练一个新模型,而是设计一种巧妙的方法来“解锁”并引导这种能力。这不仅大大简化了V-ICL的实现流程,也为利用现有的大规模预训练模型解决新问题提供了全新的视角。
核心方法:就地注意力重新计算
为了在不微调模型的前提下实现V-ICL,作者提出了一种名为 就地注意力重新计算(in-place attention re-computation) 的核心机制。该机制直接作用于Stable Diffusion U-Net去噪网络中的自注意力层。
自注意力机制通过计算查询(Query)、键(Key)和值(Value)之间的关系来更新特征表示。本文方法巧妙地重新定义了这三者的来源:
- 查询 (Query) :来自需要处理的 查询图像C 的特征。
- 键 (Key) :来自示例 提示图像A 的特征。
- 值 (Value) :来自示例 提示图像的真值B (例如,分割掩码)的特征。
通过这种方式,模型在处理查询图像C的每个部分时,都会去参考提示图像A与真值B之间的“映射关系”。例如,在分割任务中,模型会学习“在A中这个样子的像素,在B中对应的是前景”,然后将这个“知识”应用到C上,从而预测出最终的分割结果D。
方法流程图:在去噪过程的每一步,通过修改自注意力层的计算,将示例提示(A和B)中的上下文信息注入到查询图像(C)的处理过程中,最终生成预测结果(D)。
整个过程在标准的DDIM逆向和去噪采样流程中进行,无需对模型权重进行任何修改。这种“即插即用”的特性是该方法最大的亮点之一。
实验设计与结果分析
为了验证方法的有效性和通用性,研究团队在六个差异巨大的视觉任务上进行了广泛的实验,包括:
- 前景分割
- 单目标检测
- 语义分割
- 关键点检测
- 边缘检测
- 上色
定性结果
从可视化的结果来看,该方法生成的预测图在各种任务上都展现了很高的质量,其结果在视觉上通常优于需要专门训练的Visual Prompting和IMProv等基线模型。
在六种不同任务上的定性比较,本文方法(最右列)的结果在视觉上更优越。
定量结果
在定量评估中,该方法同样表现出色。下表展示了与多个基线模型的性能对比。特别是在前景分割和单目标检测任务上,本文方法取得了目前最优的性能。
在六大任务上的定量比较,本文方法在多项指标上领先。
此外,研究还发现,通过集成多个提示(prompt-ensembling),可以进一步稳定和提升模型的性能。如下图所示,使用5个提示示例通常能比单个提示带来更显著的性能增益,尽管这会牺牲一些推理速度。
增加提示数量(左图)和去噪步数(右图)对模型性能和推理速度的影响。
论文贡献与价值
CV君认为,这篇论文的核心贡献在于:
- 新发现:首次系统性地证明了“开箱即用”的预训练扩散模型(Stable Diffusion)内部就存在强大的视觉上下文学习(V-ICL)能力,打破了V-ICL必须依赖专门训练的传统认知。
- 新方法:提出了一种简单而有效的“就地注意力重新计算”机制,作为一种“即插即用”的模块,无需微调即可解锁和引导扩散模型的V-ICL能力,极大地降低了技术门槛。
- 卓越的性能:在多个基准测试中取得了SOTA或具有竞争力的结果,展示了该方法在多种视觉任务上的通用性和有效性。
- 新的研究方向:该工作为计算机视觉领域开辟了一个激动人心的新方向——探索和利用大规模预训练生成模型中尚未被发现的“涌现能力”,而不是仅仅将其用作数据生成器。这启发社区重新思考如何利用现有的基础模型来解决更广泛的视觉问题。
总而言之,这项研究不仅为视觉上下文学习提供了一个简洁、高效且强大的新范式,也深刻地揭示了大规模生成模型背后隐藏的巨大潜力。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT
ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出
ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香
1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4
SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!
GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星
CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!