YOLO11/12/26/DEIM/RTDETR:DHOGSA 通过方向梯度直方图引导注意力排序,有效抑制背景噪声干扰，提升复杂场景下的检测召回率。

一、DHOGSA 研究背景

DHOGSA 全称 Dynamic HOG-aware Self-Attention（动态 HOG 感知自注意力），是面向一体化图像修复任务设计的核心注意力模块，设计灵感来源于方向梯度直方图（HOG）对图像退化特征强区分性的特点，结合 Transformer 自注意力长距离建模能力构建而成。当前一体化图像修复主流方案存在诸多短板：传统自注意力机制采用固定窗口 / 固定结构建模，无法适配雨、雪、雾、模糊、低光等空间分布不均的各类图像退化模式；现有基于隐式先验的条件引导方案可解释性差，易出现特征纠缠，复杂退化与未知场景泛化能力不足；混合专家（MoE）等方案虽灵活性强，但计算开销大，难以轻量化部署；部分依托直方图、文本提示的引导模块，对不同退化类型的区分能力有限。针对以上问题，研究者充分挖掘经典 HOG 特征可区分各类图像退化、显式表征梯度幅值与方向的优势，提出 DHOGSA 模块，将可学习的 HOG 梯度先验融入自注意力流程，在不引入额外繁重计算的前提下，实现基于退化特征的动态注意力建模，弥补现有模块在多类型图像修复任务中的缺陷。

二、DHOGSA 核心原理

DHOGSA 整体围绕HOG 退化特征引导、双分支直方图重塑、像素 - 补丁双层动态排序三大核心逻辑，结合图像修复任务特性展开说明：

第一，HOG 梯度先验引导 = 退化特征精准识别。不同图像退化会形成独有的梯度分布特征：雨水对应纵向梯度条纹、积雪呈现大范围均匀梯度、模糊图像梯度幅值整体偏弱。DHOGSA 借助 Sobel 算子逐像素计算梯度幅值与方向，提取可微 HOG 描述子，以此作为退化判别依据，替代传统隐式先验。模块利用 HOG 特征区分不同退化类型，让注意力机制主动感知雨、雪、雾、噪声等不同失真区域，实现注意力权重的动态调制，从梯度维度筛选有效特征，抑制退化带来的干扰信息。

第二，像素 - 补丁双层排序 = 按退化模式聚类建模。借鉴同类退化区域拥有相似 HOG 响应的特性，DHOGSA 分别在补丁级与像素级完成特征排序。补丁级排序搭配局部动态范围卷积（LDRConv），将梯度特征相近的区域聚合，保留图像整体结构与语义信息；像素级排序依据 HOG 特征统一对齐查询、键、值特征，把受同种退化影响的像素聚类，让自注意力聚焦在同质退化区域，解决传统注意力无法匹配空间非均匀退化的问题。

第三，双分支直方图重塑 = 多尺度退化特征提取。模块设计并行的分箱直方图重塑（BHOGR）与频域直方图重塑（FHOGR）两大分支互补建模：BHOGR 将排序后像素划分为固定区间，捕捉雾、整体偏暗等大尺度全域退化；FHOGR 聚类 HOG 取值相近像素，专注提取雨纹、细小噪点等细粒度重复退化。两支特征融合后，可全面覆盖多尺度、多形态的图像失真模式，适配复杂混合退化场景。整套模块依托纯特征运算完成动态注意力调控，无需额外复杂分支与大开销先验提取，兼顾效果与效率。

三、DHOGSA 模块内部结构

DHOGSA 作为 HOG Transformer Block（HOGTB）的核心单元，采用前置 LDRConv 增强 + HOG 特征计算 + 双层排序 + 双分支注意力计算 + 特征融合的串行结构，整体嵌入 Transformer 编码流程，与后续 DIFF 模块形成标准残差范式，模块化设计可直接替换传统自注意力单元。

局部动态范围卷积（LDRConv）：作为前置增强单元，完成补丁级 HOG 排序与可学习 HOG 先验调制，强化局部退化结构特征，同时保证图像全局空间结构不被破坏；
HOG 特征求解：通过 Sobel 算子计算梯度幅值、方向，生成逐像素 HOG 描述子，作为后续排序与注意力调制的依据；
像素级排序与特征重排列：依据 HOG 特征生成排序索引，对 Q/K/V 特征统一重排，完成同质退化像素聚类；
双分支直方图重塑与注意力求解：分别执行 BHOGR、FHOGR 两种重塑操作，并行计算两组注意力矩阵；
多分支特征融合：通过哈达玛积融合双分支注意力输出，得到最终经 HOG 引导的注意力特征，输入下一模块。

四、横向对比现有主流注意力 / 特征模块

相较于传统窗口自注意力、Prompt 提示注意力、直方图引导注意力、MoE 混合专家等主流模块：传统自注意力结构固定，无法感知退化差异，对非均匀失真建模能力弱；Prompt 类、多模态引导模块依赖隐式条件，可解释性差，特征易纠缠；直方图引导模块区分退化能力不足，难以分辨梯度特征差异明显的失真类型；MoE 方案泛化性强但参数量、计算量激增，部署门槛高。而 DHOGSA 以显式 HOG 梯度先验为核心，退化区分能力更强，双层排序 + 双分支结构同时兼顾全局大尺度退化与局部细粒度失真，整体结构轻量化、可解释性突出，在多类型一体化图像修复任务中综合表现更优。

五、DHOGSA 应用在图像修复的优势

DHOGSA 面向一体化图像修复任务，精准解决单模型处理模糊、雨雪、雾霾、低光、噪声等多类退化、混合退化、真实场景未知退化的行业痛点。依托 HOG 特征的退化判别能力，模块可动态调整注意力聚焦区域：针对雨纹、细小花雪等细粒度退化，依靠 FHOGR 分支强化局部重复失真特征建模；针对浓雾、全局低光等大范围退化，借助 BHOGR 分支捕捉全域分布规律；面对多种失真叠加的混合退化，双层排序结构可分层聚类不同退化区域，避免各类失真特征相互干扰。同时模块基于可微传统特征算子构建，相比隐式学习方案泛化性更强，在训练集之外的真实复杂场景、未知退化图像上依旧保持稳定修复效果。另外 DHOGSA 与 Transformer 架构深度适配，嵌入编码 - 解码 U 型网络后不会带来巨额计算损耗，既能满足云端高精度图像修复需求，也可适配嵌入式设备端的实时图像复原场景，有效提升模型在多退化、跨场景下的修复精度与鲁棒性。

六、DHOGSA 拓展至相关视觉任务的优势

除核心的一体化图像修复外，DHOGSA 可迁移至图像去噪、去雾、去雨、暗光增强、图像去模糊等单任务图像复原，以及遥感影像增强、监控画面修复、户外视觉画质优化等延伸场景。其一，模块自带的梯度增强特性，可精准保留图像边缘、纹理等关键结构，有效改善修复后图像边缘模糊、细节丢失、纹理过度平滑的问题；其二，动态注意力机制能自适应不同区域失真强度，在纹理丰富区域强化细节复原，在平滑背景区域抑制噪声与伪影；其三，轻量化与高通用性的特点，使其可快速嵌入各类主流复原网络，无需大幅改动原有架构，在不显著增加显存与推理耗时的前提下，统一提升各类画质优化任务的效果。

总结

DHOGSA 最初为一体化全场景图像修复任务设计，依托 HOG 梯度特征与动态自注意力结合的创新思路，突破了传统注意力与隐式条件引导模块的局限。该模块凭借退化可区分、多尺度建模、高泛化性、轻量化、强可解释性五大特性，不仅成为一体化图像修复的核心组件，还可广泛应用于各类单任务图像复原、户外视觉画质优化、遥感影像处理等场景。既继承了传统手工特征的先验优势，又结合深度学习注意力机制完成动态建模，是兼顾经典视觉理论与工程落地价值的新型注意力模块。

知乎：一勺汤

公众号：AI改进工坊

哔站：一勺AI帅汤

CSDN：一勺汤
YOLO11代码：YOLOv8_improve/YOLOv11.md at master · tgf123/YOLOv8_improve

YOLO12代码：YOLOv8_improve/YOLOV12.md at master · tgf123/YOLOv8_improve

YOLO26代码：tgf123/YOLOv8_improve

YOLO11改进介绍和代码

YOLO12改进介绍和代码

YOLO26改进介绍和代码