前言 本文提出了一种用于图像恢复的双域条带注意力机制(Dual-domain strip attention mechanism),通过增强表示学习来提升图像恢复任务的性能。该机制由空间条带注意力单元和频率条带注意力单元组成,能够有效处理不同尺寸的退化问题,并在12个不同数据集上实现了四种图像恢复任务(图像去雾、图像去雪、图像去噪和图像失焦模糊去除)的最新性能。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
本文转载自AI缝合术
仅用于学术分享,若侵权请联系删除
招聘高光谱图像、语义分割、diffusion等方向论文指导老师
本文主要介绍我们最近被ICLR2025接收的工作:Accessing Vision Foundation Models via ImageNet-1K
一、论文信息
论文题目:Dual-domain strip attention for image restoration中文题目:双域条带注意力用于图像恢复论文链接:doi.org/10.1016/j.n…
所属单位:德国慕尼黑工业大学计算、信息与技术学院
二、论文概要
Highlight
图 4. 在 SOTS-Indoor (Li et al., 2018) 数据集上的图像去雾效果对比。
图6. 在DPDD(Abuolaim & Brown, 2020)数据集上进行单图像离焦去模糊的比较。
图5. 在CSD(陈,方等,2021)数据集上进行图像去雪效果对比。
1. 研究背景:
- **研究问题:**图像恢复旨在从退化的观测图像中重建出潜在的高质量图像,这对于监控、遥感和医学成像等领域至关重要。然而,由于问题的不适定性,传统的基于假设和手工特征的方法无法在复杂现实场景中生成准确的结果。
- **研究难点:**尽管卷积神经网络(CNNs)通过学习大规模数据集中的泛化先验在图像恢复方面取得了进展,但它们在处理空间变化模糊和大尺度退化时存在局限性。Transformer模型虽然在高级视觉任务中成功应用,但其自注意力机制的二次复杂度使得在图像恢复任务中难以应用。此外,如何有效利用干净图像与退化图像对之间的巨大光谱差异也是图像恢复中的一个挑战。
- **文献综述:**文章提到了一些旨在提高图像恢复效率的方法,例如在小窗口内计算自注意力、将自注意力应用于通道维度以及开发基于条带的自注意力机制。这些方法虽然降低了复杂度,但仍然保留了自注意力的二次复杂度特性。本文提出的双域条带注意力机制旨在解决这些问题,通过在空间和频率域中执行双域双向注意力,以较低的计算成本增强多尺度表示学习。
2. 本文贡献:
-
双域条纹注意力网络(DSANet):提出了一种双域条纹注意力机制(DSAM),该机制通过增强表示学习来实现图像恢复。DSAM由空间条纹注意力单元(SSA)和频率条纹注意力单元(FSA)组成,分别在空间域和频率域进行特征提取和信息聚合。
-
空间条纹注意力:SSA通过简单的卷积分支学习权重,对每个像素从相邻位置聚合上下文信息。该单元通过水平和垂直方向的条纹注意力操作,隐式地扩大了网络的感受野。(本推文讲解重点)
-
频率条纹注意力:FSA通过条形池化技术分离特征到不同的频率组件,并通过轻量级的注意力权重进行调制,以细化频谱。该单元利用条形池化工具将特征分离到两个方向的频率组件中,并通过学习的注意力权重进行调制。
三、创新方法
图2:空间条纹注意力Spatial Strip Attention Unit (SSA)。
图3. 不同的集成范式。(a) 水平条形注意力。(b) 垂直条形注意力。(c) 空间条形注意力单元(SSA)。
SSA 包括垂直和水平方向的条带注意力操作,以水平方向的条带注意力操作为例:
1. 输入特征处理:对于给定的输入特征 X ∈ RC×H×W,SSA 不再生成查询(Q)、键(K)和值(V)张量,而是直接通过一个轻量级的分支生成注意力权重。这个分支包括全局平均池化(GAP)、1 × 1 卷积和 Sigmoid 函数。注意力权重的生成过程可以表示为:A = (W1×1(GAP(X))) ∈ RK,其中 W1×1 表示 1 × 1 卷积,Sigmoid 函数用于生成注意力权重,K 表示水平条带的长度。
2. 特征聚合:通过卷积风格的整合方法获得细化的特征。
3. 条带注意力操作:水平方向的条带注意力操作通过两个方向的信息整合来实现。对于任意输入特征,水平方向的条带注意力操作通过计算不同位置的注意力权重来整合信息。
4. 序列操作:通过顺序使用水平和垂直条带注意力操作,SSA 可以隐式地扩大网络的接收场。例如,通过水平和垂直操作的组合,中心像素可以感知由 K × K 确定的整个区域的上下文。
四、实验分析
**1. 训练与测试:**DSANet采用编码器-解码器架构,包含三个尺度,每个编码器和解码器子网络中有三个ResGroup。训练时使用了256×256的图像块,批量大小为8。根据任务复杂性,网络规模通过设置不同的N值进行调整。使用PSNR和SSIM作为评估指标,对DSANet在不同数据集上的性能进行了评估。
**2. 图像去雾:**DSANet在SOTS-Indoor和SOTS-Outdoor数据集上分别以0.96 dB和0.54 dB PSNR的优势超越了SANet,并且在四个真实世界数据集上也取得了最佳性能。
表1:在SOTS-Indoor (Li et al., 2018)和SOTS-Outdoor (Li et al., 2018)上进行的图像去雾效果对比。
表2:在四个真实世界数据集上的图像去雾效果对比:NH-HAZE(Ancuti等人,2020年)、NH-HAZE2(Ancuti等人,2021年)、O-Haze(Ancuti等人,2018年)和Dense-Haze(Ancuti等人,2019年)。
**3. 图像除雪:**DSANet在CSD、SRRS和Snow100K三个数据集上均取得了最佳性能,特别是在CSD数据集上,DSANet比FocalNet在PSNR上高出0.91 dB。
**4. 图像失焦去模糊:**DSANet在DPDD数据集上对单图像失焦去模糊任务进行了测试,结果表明DSANet在大多数指标上优于其他方法。
**5. 图像去噪:**DSANet在BSD68数据集上对高斯灰度图像去噪任务进行了测试,结果表明DSANet在所有噪声水平上均优于Restormer。
五、结论
-
**研究发现:**提出的双域条纹注意力网络(DSANet)在图像恢复任务中取得了最先进的性能。DSANet通过空间和频率条纹注意力单元的结合,有效地提升了网络在多尺度上的表示学习能力,从而在图像去雾、图像除雪、图像离焦模糊和图像去噪等任务中均表现出色。
-
**解释与分析:**DSANet通过在空间域和频率域同时进行特征提取和信息聚合,能够更好地处理各种尺度的退化问题。此外,DSANet在保持较低计算复杂度的同时,通过简单的卷积操作实现了高效的注意力权重生成和特征整合,这使得DSANet在图像恢复任务中具有较高的实用价值。
-
**意外发现:**尽管DSANet在合成数据集上训练,但其在真实世界图像上的应用也显示出了良好的泛化能力,这表明DSANet具有处理真实世界退化图像的潜力。
欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。
【技术文档】《从零搭建pytorch模型教程》122页PDF下载
QQ交流群:470899183。群内有大佬负责解答大家的日常学习、科研、代码问题。
其它文章
LSKA注意力 | 重新思考和设计大卷积核注意力,性能优于ConvNeXt、SWin、RepLKNet以及VAN
CVPR 2023 | TinyMIM:微软亚洲研究院用知识蒸馏改进小型ViT
ICCV2023|涨点神器!目标检测蒸馏学习新方法,浙大、海康威视等提出
ICCV 2023 Oral | 突破性图像融合与分割研究:全时多模态基准与多交互特征学习
HDRUNet | 深圳先进院董超团队提出带降噪与反量化功能的单帧HDR重建算法
南科大提出ORCTrack | 解决DeepSORT等跟踪方法的遮挡问题,即插即用真的很香
1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4
SAM-Med2D:打破自然图像与医学图像的领域鸿沟,医疗版 SAM 开源了!
GhostSR|针对图像超分的特征冗余,华为诺亚&北大联合提出GhostSR
Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星
CSUNet | 完美缝合Transformer和CNN,性能达到UNet家族的巅峰!