YOLO11/12/26/DEIM/RTDETR:DHOGSA 通过方向梯度直方图引导注意力排序,有效抑制背景噪声干扰,提升复杂场景下的检测召回率。

0 阅读8分钟

一、DHOGSA 研究背景

        DHOGSA 全称 Dynamic HOG-aware Self-Attention(动态 HOG 感知自注意力),是面向 一体化图像修复任务设计的核心注意力模块,设计灵感来源于方向梯度直方图(HOG)对图像退化特征强区分性的特点,结合 Transformer 自注意力长距离建模能力构建而成。当前一体化图像修复主流方案存在诸多短板:传统自注意力机制采用固定窗口 / 固定结构建模,无法适配雨、雪、雾、模糊、低光等空间分布不均的各类图像退化模式;现有基于隐式先验的条件引导方案可解释性差,易出现特征纠缠,复杂退化与未知场景泛化能力不足;混合专家(MoE)等方案虽灵活性强,但计算开销大,难以轻量化部署;部分依托直方图、文本提示的引导模块,对不同退化类型的区分能力有限。针对以上问题,研究者充分挖掘经典 HOG 特征可区分各类图像退化、显式表征梯度幅值与方向的优势,提出 DHOGSA 模块,将可学习的 HOG 梯度先验融入自注意力流程,在不引入额外繁重计算的前提下,实现基于退化特征的动态注意力建模,弥补现有模块在多类型图像修复任务中的缺陷。

二、DHOGSA 核心原理

        DHOGSA 整体围绕HOG 退化特征引导、双分支直方图重塑、像素 - 补丁双层动态排序三大核心逻辑,结合图像修复任务特性展开说明:

        第一,HOG 梯度先验引导 = 退化特征精准识别。不同图像退化会形成独有的梯度分布特征:雨水对应纵向梯度条纹、积雪呈现大范围均匀梯度、模糊图像梯度幅值整体偏弱。DHOGSA 借助 Sobel 算子逐像素计算梯度幅值与方向,提取可微 HOG 描述子,以此作为退化判别依据,替代传统隐式先验。模块利用 HOG 特征区分不同退化类型,让注意力机制主动感知雨、雪、雾、噪声等不同失真区域,实现注意力权重的动态调制,从梯度维度筛选有效特征,抑制退化带来的干扰信息。

        第二,像素 - 补丁双层排序 = 按退化模式聚类建模。借鉴同类退化区域拥有相似 HOG 响应的特性,DHOGSA 分别在补丁级像素级完成特征排序。补丁级排序搭配局部动态范围卷积(LDRConv),将梯度特征相近的区域聚合,保留图像整体结构与语义信息;像素级排序依据 HOG 特征统一对齐查询、键、值特征,把受同种退化影响的像素聚类,让自注意力聚焦在同质退化区域,解决传统注意力无法匹配空间非均匀退化的问题。

        第三,双分支直方图重塑 = 多尺度退化特征提取。模块设计并行的分箱直方图重塑(BHOGR)频域直方图重塑(FHOGR)两大分支互补建模:BHOGR 将排序后像素划分为固定区间,捕捉雾、整体偏暗等大尺度全域退化;FHOGR 聚类 HOG 取值相近像素,专注提取雨纹、细小噪点等细粒度重复退化。两支特征融合后,可全面覆盖多尺度、多形态的图像失真模式,适配复杂混合退化场景。整套模块依托纯特征运算完成动态注意力调控,无需额外复杂分支与大开销先验提取,兼顾效果与效率。

三、DHOGSA 模块内部结构

        DHOGSA 作为 HOG Transformer Block(HOGTB)的核心单元,采用前置 LDRConv 增强 + HOG 特征计算 + 双层排序 + 双分支注意力计算 + 特征融合的串行结构,整体嵌入 Transformer 编码流程,与后续 DIFF 模块形成标准残差范式,模块化设计可直接替换传统自注意力单元。

  1. 局部动态范围卷积(LDRConv):作为前置增强单元,完成补丁级 HOG 排序与可学习 HOG 先验调制,强化局部退化结构特征,同时保证图像全局空间结构不被破坏;

  2. HOG 特征求解:通过 Sobel 算子计算梯度幅值、方向,生成逐像素 HOG 描述子,作为后续排序与注意力调制的依据;

  3. 像素级排序与特征重排列:依据 HOG 特征生成排序索引,对 Q/K/V 特征统一重排,完成同质退化像素聚类;

  4. 双分支直方图重塑与注意力求解:分别执行 BHOGR、FHOGR 两种重塑操作,并行计算两组注意力矩阵;

  5. 多分支特征融合:通过哈达玛积融合双分支注意力输出,得到最终经 HOG 引导的注意力特征,输入下一模块。

四、横向对比现有主流注意力 / 特征模块

        相较于传统窗口自注意力、Prompt 提示注意力、直方图引导注意力、MoE 混合专家等主流模块:传统自注意力结构固定,无法感知退化差异,对非均匀失真建模能力弱;Prompt 类、多模态引导模块依赖隐式条件,可解释性差,特征易纠缠;直方图引导模块区分退化能力不足,难以分辨梯度特征差异明显的失真类型;MoE 方案泛化性强但参数量、计算量激增,部署门槛高。而 DHOGSA 以显式 HOG 梯度先验为核心,退化区分能力更强,双层排序 + 双分支结构同时兼顾全局大尺度退化与局部细粒度失真,整体结构轻量化、可解释性突出,在多类型一体化图像修复任务中综合表现更优。

五、DHOGSA 应用在图像修复的优势

        DHOGSA 面向一体化图像修复任务,精准解决单模型处理模糊、雨雪、雾霾、低光、噪声等多类退化、混合退化、真实场景未知退化的行业痛点。依托 HOG 特征的退化判别能力,模块可动态调整注意力聚焦区域:针对雨纹、细小花雪等细粒度退化,依靠 FHOGR 分支强化局部重复失真特征建模;针对浓雾、全局低光等大范围退化,借助 BHOGR 分支捕捉全域分布规律;面对多种失真叠加的混合退化,双层排序结构可分层聚类不同退化区域,避免各类失真特征相互干扰。同时模块基于可微传统特征算子构建,相比隐式学习方案泛化性更强,在训练集之外的真实复杂场景、未知退化图像上依旧保持稳定修复效果。另外 DHOGSA 与 Transformer 架构深度适配,嵌入编码 - 解码 U 型网络后不会带来巨额计算损耗,既能满足云端高精度图像修复需求,也可适配嵌入式设备端的实时图像复原场景,有效提升模型在多退化、跨场景下的修复精度与鲁棒性。

六、DHOGSA 拓展至相关视觉任务的优势

        除核心的一体化图像修复外,DHOGSA 可迁移至图像去噪、去雾、去雨、暗光增强、图像去模糊等单任务图像复原,以及遥感影像增强、监控画面修复、户外视觉画质优化等延伸场景。其一,模块自带的梯度增强特性,可精准保留图像边缘、纹理等关键结构,有效改善修复后图像边缘模糊、细节丢失、纹理过度平滑的问题;其二,动态注意力机制能自适应不同区域失真强度,在纹理丰富区域强化细节复原,在平滑背景区域抑制噪声与伪影;其三,轻量化与高通用性的特点,使其可快速嵌入各类主流复原网络,无需大幅改动原有架构,在不显著增加显存与推理耗时的前提下,统一提升各类画质优化任务的效果。

总结

        DHOGSA 最初为一体化全场景图像修复任务设计,依托 HOG 梯度特征与动态自注意力结合的创新思路,突破了传统注意力与隐式条件引导模块的局限。该模块凭借退化可区分、多尺度建模、高泛化性、轻量化、强可解释性五大特性,不仅成为一体化图像修复的核心组件,还可广泛应用于各类单任务图像复原、户外视觉画质优化、遥感影像处理等场景。既继承了传统手工特征的先验优势,又结合深度学习注意力机制完成动态建模,是兼顾经典视觉理论与工程落地价值的新型注意力模块。

 知乎:一勺汤

公众号:AI改进工坊

哔站:一勺AI帅汤

CSDN:一勺汤
YOLO11代码:YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve

YOLO12代码:YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve

YOLO26代码:tgf123/YOLOv8_improve

    YOLO11改进介绍和代码

YOLO12改进介绍和代码

YOLO26改进介绍和代码