IEEE Sensors | 湖南大学提出KGP-YOLO:先定位风电叶片再检测缺陷,三数据集mAP均超87%

0 阅读9分钟

导读

无人机拍摄的高分辨率图像中,风电叶片只占画面的一小部分,缺陷更是仅占像素总量的0.1%~1%——传统检测器直接在全图上做推理,背景干扰大、小目标漏检多。

湖南大学Li等人在IEEE Sensors Journal上提出KGP-YOLO,采用"先过滤再检测"的两阶段架构:第一步用关键点定位网络KGP-Net自适应裁出叶片区域,第二步在YOLOv11中嵌入双层路由交叉注意力(BRCA)模块增强深层特征提取。在自建的SY-PLUS数据集和两个公开数据集DTU、Blade30上,KGP-YOLO分别达到87.3%、92.4%和88.5%的mAP50,均为同对比方法中最高,同时推理速度保持在35~43 FPS,兼顾了精度与实时性。


论文信息

  • 标题:Wind Turbine Blade Surface Defect Detection via UAV High-Resolution Images
  • 作者:Xiaobing Li, Baoyuan Deng, Yunze He, Qi Chen, Yongjie Zhang, Bei Zhang, Xiaofei Zhang
  • 机构:湖南大学电气与信息工程学院、湖南大学人工智能与机器人学院、湖南大学深圳研究院、北京航空航天大学自动化科学与电气工程系
  • 发表:IEEE Sensors Journal, Vol. 26, No. 2, January 2026
  • DOI:10.1109/JSEN.2025.3639650

一、高分辨率无人机图像中的叶片缺陷检测为何困难?

风电叶片长期暴露在盐雾腐蚀、雷击、雨蚀等恶劣环境中,表面会出现微裂纹、沙孔、涂层脱落等缺陷。这些缺陷初期面积可能不到叶片表面的0.1%,但若不及时检测,会快速扩展为穿透性裂纹,造成严重经济损失。

利用无人机搭载相机采集叶片图像并自动检测缺陷,是目前的主流方案。但这一场景面临两个核心难题:

小目标检测难:出于安全距离限制,无人机与叶片保持一定距离拍摄,导致缺陷在1920×1080高分辨率图像中仅占0.1%~1%的像素面积。在本文使用的三个数据集中,像素面积小于32×32的小缺陷占比高达39%~47%。传统方法如全局裁剪(Global Crop)会将高分辨率图像均匀切割为多个小块,但叶片在画面中呈细长形态,大量裁剪块只包含背景,不仅浪费计算资源,还可能引入噪声。

复杂缺陷识别难:涂层脱落、表面腐蚀、油污等不同类型缺陷的形态和纹理差异较大,而一些非缺陷干扰物(如保护涂层纹理、临时标记)在外观上与真实缺陷高度相似,容易导致误检和漏检。三个数据集中背景干扰比例达到30%~80%。

图片

图片来源于原论文


二、KGP-YOLO的"先过滤再检测"整体架构

针对上述两个难题,作者提出KGP-YOLO,采用  "过滤器+检测器"(Filter-then-Detect) 的两阶段架构:

第一阶段——KGP-Net过滤器:将高分辨率无人机图像输入 关键点感知几何引导预处理网络(Keypoint-aware Geometric-guided Preprocessing Network, KGP-Net) 。该网络预测叶片上的4个关键点(2个中心点和2个边界点),通过几何计算确定叶片的中轴线和宽度,然后沿中轴线自适应裁剪出仅包含叶片的子图像块。这一步的核心作用是排除大量无关背景,使后续检测器只需处理叶片区域。

第二阶段——YOLOv11+BRCA检测器:裁剪后的叶片图像块被送入集成了 双层路由交叉注意力(Bi-level Routing Cross-Attention, BRCA) 模块的YOLOv11。BRCA被嵌入YOLOv11骨干网络的最后一层,通过动态稀疏注意力机制增强网络对缺陷深层特征的提取能力。检测完成后,检测结果根据几何信息映射回原始高分辨率图像中的对应位置。

简单来说,KGP-Net负责"在哪里看",YOLOv11+BRCA负责"看到什么"。

图片

图片来源于原论文


三、两个核心模块:关键点定位裁剪与双层路由交叉注意力

KGP-Net:用关键点定位实现自适应叶片裁剪

KGP-Net以 ConvNeXt V2为骨干网络,包含4个阶段(通道数分别为96、192、384、768),每个阶段使用7×7深度可分离卷积扩大感受野,以捕获大尺度叶片在航拍图像中的空间结构。

网络的输出是4个关键点坐标:2个中心点确定叶片主轴方向,2个边界点确定叶片宽度。为消除尺度依赖,作者将关键点坐标归一化为[0,1]区间内的偏移量作为学习目标,使用 Smooth L1 Loss训练。获取关键点后,裁剪窗口的宽度设为叶片主轴长度的1/4,沿主轴生成4个采样点,产生4个裁剪块。

相比传统全局裁剪方法,KGP-Net的优势体现在精度和效率两方面(以下数据基于SY-PLUS数据集,搭配YOLOv11检测器):

裁剪方法PrecisionRecallmAP50输出图像数/输入图像数
Global Crop84.770.484.212
KGP-Net81.481.286.24

KGP-Net的mAP50比全局裁剪高2.0%,Recall高10.8%,而处理的图像数量仅为全局裁剪的1/3(4块 vs 12块),带来约3倍的效率提升。

KGP-Net的关键点定位精度通过 归一化平均误差(Normalized Mean Error, NME) 评估,以叶片宽度为归一化因子。在三个数据集的测试集上,NME分别为0.058(SY-PLUS)、0.062(DTU)和0.046(Blade30)。

BRCA:双层路由交叉注意力

BRCA模块基于 BiFormer的双层路由注意力(Bi-level Routing Attention, BRA)机制设计,被集成在YOLOv11骨干网络的最后一层。其工作流程分为三个阶段:

  • 阶段1——跨区域相关性计算:将特征图划分为S²个不重叠区域,对每个区域计算Query和Key的均值,构建区域亲和度矩阵,筛选出语义最相关的区域对
  • 阶段2——动态路由索引生成:通过Top-k操作选择每个区域最相关的k个区域,形成稀疏注意力结构
  • 阶段3——细粒度特征计算:基于路由索引从全局Key和Value中聚合token级别的键值对,计算稀疏注意力输出

这种机制的核心特点是 动态稀疏:不像全局注意力需要计算所有token之间的关系,BRCA只在语义相关的区域之间建立连接,在捕获长距离依赖的同时控制计算开销。

在架构实现上,BRCA模块首先通过1×1卷积将通道维度扩大2倍,然后分为两条支路:一条经过多个BiFormerBlock进行注意力计算并与原始特征拼接实现多尺度聚合,另一条保留原始特征用于跳跃连接。最终通过卷积层降维输出。


四、消融实验:KGP-Net和BRCA各贡献了多少?

消融实验在SY-PLUS数据集上进行,基线模型为YOLOv11:

BaselineKGPBRCAPrecisionRecallmAP50FPS
80.078.079.945.2
81.481.286.239.6
80.579.881.342.1
83.583.687.335.2

几个关键观察:

  • KGP-Net贡献最大:单独添加KGP-Net使mAP50从79.9%提升至86.2%(+6.3%),Recall从78.0%提升至81.2%(+3.2%)。去除背景干扰、让检测器专注于叶片区域,贡献了最大幅度的mAP提升
  • BRCA提供补充增益:单独添加BRCA使mAP50从79.9%提升至81.3%(+1.4%),验证了稀疏注意力对复杂缺陷特征提取的有效性
  • 两者组合效果最优:KGP-Net + BRCA使mAP50达到87.3%(相比基线+7.4%),Precision和Recall也同时提升
  • 速度代价可控:完整模型的FPS从45.2降至35.2,参数量从2.6M增至3.1M,FLOPs从6.4G增至7.2G

三个数据集上的完整对比实验结果汇总如下(对比方法包括YOLOv5~v12、Faster-RCNN、Cascade R-CNN、RT-DETR和ESOD共10种方法):

数据集KGP-YOLO mAP50vs YOLOv11基线vs 次优方法ESODFPS
SY-PLUS87.3%+7.4%+5.2%35.2
DTU92.4%+1.9%+1.4%42.6
Blade3088.5%+10.5%+5.1%41.8

在所有三个数据集上,KGP-YOLO的mAP50均高于全部对比方法。值得注意的是,在Blade30数据集上,KGP-YOLO相比YOLOv11基线提升了10.5%。Blade30数据集采集自海上和丘陵地形等多种环境,背景更复杂——KGP-Net的叶片区域裁剪在此场景下发挥了更大作用。

从可视化对比来看,在SY-PLUS数据集上,YOLOv11和ESOD均漏检了部分小涂层脱落缺陷,DETR在处理保护涂层和临时标记时产生了误检,而KGP-YOLO在这些场景中表现更稳定。在DTU和Blade30数据集上也观察到类似趋势。

图片

图片来源于原论文


五、总结与思考

本文提出的KGP-YOLO针对无人机高分辨率图像中的风电叶片缺陷检测,设计了"先过滤再检测"的两阶段方案:KGP-Net通过关键点定位和几何裁剪自适应提取叶片区域,BRCA模块通过动态稀疏注意力增强YOLOv11的深层特征提取能力。在三个数据集(1个自建 + 2个公开)上均取得了对比方法中最高的mAP50。

方法设计上的亮点

  • "过滤-检测"范式的有效性:将"定位感兴趣区域"和"区域内精细检测"解耦,是处理高分辨率图像中小目标检测问题的一种有效思路。消融实验显示,仅KGP-Net一项就带来了+6.3%的mAP提升,说明在工业检测场景中,减少背景干扰的价值可能大于单纯提升检测器本身的能力
  • 关键点描述叶片几何的效率:用4个关键点(而非bounding box)描述叶片的细长形态,裁剪效率比全局裁剪提升约3倍,这一设计充分利用了叶片的形状先验
  • BRCA的轻量化增益:在引入注意力机制的同时,参数量仅增加约0.5M,FLOPs增加约0.8G,保持了模型的轻量性

值得关注的局限

  • 作者在结论中指出,将模型部署到无人机搭载的边缘计算设备上仍面临挑战,需要进一步研究轻量化方案以在加速推理的同时保持检测精度
  • 实验硬件为RTX 2080 Ti台式工作站,实际无人机端的推理性能有待验证
  • 三个数据集的图像分辨率均为1920×1080,对于更高分辨率(如4K)场景的适用性未做讨论
  • KGP-Net的关键点标注需要人工完成(四边形标注),大规模数据集构建的标注成本值得关注