PaveSync:跨国5.2万张图像路面病害基准,7款模型横评(YOLOv8-v12+Faster R-CNN+DETR)

64 阅读8分钟

导读

路面病害检测领域长期缺乏统一的大规模基准数据集,各研究使用不同数据源、标注格式和类别定义,导致模型间难以直接比较。

本文来自北达科他州立大学(NDSU)SMART Lab团队,构建了 PaveSync数据集——整合来自 多个国家的52,747张路面图像(论文摘要称7国,但数据表实际涵盖8国),统一标注为 13类病害、135,277个边界框。在此基准上,团队对 YOLOv8至v12、Faster R-CNN和DETR共7款模型进行了全面评测(1,000 epochs,NVIDIA A100)。结果显示,YOLOv8整体最为均衡;车辙(Rutting)最易检测(YOLOv11 mAP@50达0.986);泛油(Bleeding)和 鼓包(Bumps & Sags)最难检测(最佳mAP@50分别仅0.367和0.453)。作者表示数据集将公开发布,但截至目前论文中提供的Google Drive链接尚无实际内容,可能是论文仍处于预印本阶段暂未开放,或数据仍在准备上传中,建议持续关注。

一、路面病害检测为何需要统一基准?

当前路面病害检测面临的数据困境:

  • 标注格式不统一:有的用Pascal VOC(XML),有的用COCO(JSON),有的用YOLO(TXT)
  • 类别命名不一致:同一种病害在不同数据集中名称不同(如"Alligator" vs "Alligator Cracking")
  • 类别ID冲突:相同病害在不同数据集中被分配了不同的类别编号
  • 地域覆盖偏窄:多数数据集仅涵盖单一国家,路面材质、气候条件差异导致模型跨域泛化差

这些问题使得不同研究的结果无法直接对比,也限制了模型在真实世界中的适用范围。PaveSync的目标是将多个公开数据源整合为一个统一基准,消除上述障碍。


二、PaveSync数据集:8国、13类、13.5万标注

数据来源与规模

数据集汇集了多个国家的路面图像,涵盖航拍/无人机、车载、地面拍摄等多种采集方式。需要注意的是,论文摘要称数据来自"seven countries",但Table I实际列出了 8个国家(含加纳),以下以Table I数据为准:

国家训练集验证集总计
伊朗13,4851,49814,983
中国11,3941,26612,660
日本8,1649079,071
美国6,4577177,174
印度3,3233693,692
挪威3,0383383,376
捷克1,0921211,213
加纳52058578
总计47,4735,27452,747

数据划分为90%训练 / 10%验证,按类别分层抽样。

13类病害分布

类别标注数占比
Longitudinal Cracking(纵向裂缝)33,35324.6%
Pothole(坑洞)28,63821.2%
Alligator Cracking(网状裂缝)20,67715.3%
Transverse Cracking(横向裂缝)19,45114.4%
Rutting(车辙)17,39912.9%
Patching(修补)5,1213.8%
Repair(维修)3,7002.7%
Bleeding(泛油)1,8851.4%
Edge Cracking(边缘裂缝)1,7141.3%
Shoving(推移)1,5561.1%
Bumps & Sags(鼓包与沉陷)8570.6%
Manhole(井盖)7960.6%
Block Cracking(块状裂缝)4460.3%
总计135,277

类别间分布极度不平衡:纵向裂缝(33,353标注)是块状裂缝(446标注)的 75倍

图片

图片来源于原论文

数据统一化流程

  1. 格式标准化:统一转换为Pascal VOC、COCO和YOLO三种格式
  2. 类别名称对齐:清理不一致命名和重复标签
  3. 类别ID统一:重新分配0–12的统一编号
  4. 低频类去除:样本不足的类别被移除
  5. 标注验证:分层抽样后逐图叠加标注与原图进行人工校验
  6. 图像缩放:统一至640×640
  7. 数据增强:随机裁剪(0.8)、旋转(15°)、水平翻转(50%)、亮度(1.1)、对比度(1.2)、高斯噪声(std 0.01)

图片

图片来源于原论文


三、7模型横评:哪款模型最适合路面病害?

所有模型使用统一配置训练:1,000个epoch,batch size 16,Adam优化器,学习率0.001+余弦退火,硬件为 NVIDIA A100(24GB显存) ,框架PyTorch 2.0。

各模型在13类病害上的mAP@50

类别YOLOv8YOLOv9YOLOv10YOLOv11YOLOv12F-RCNNDETR
Rutting0.9160.9120.9100.9860.9050.9200.900
Repair0.8560.8560.8410.8560.8510.8500.850
Manhole0.8340.8600.8240.8090.8060.8350.830
Edge Cracking0.8250.7760.7300.7790.7280.7600.750
Shoving0.8020.8100.7600.7910.7780.7850.780
Pothole0.7900.7610.7590.7610.7320.7600.740
Alligator Cracking0.7590.7460.7410.7430.7260.7500.740
Patching0.6900.6660.6680.6780.6430.6700.655
Transverse Cracking0.6590.6420.6380.6410.6250.6400.635
Longitudinal Cracking0.6240.5970.5840.5950.5870.6100.590
Block Cracking0.6140.6030.6330.6150.6280.6200.630
Bumps & Sags0.3790.4130.4530.4070.4050.4100.405
Bleeding0.3670.3360.3100.2960.3410.3650.350

(加粗为该类别最佳)

关键发现

易检测类别(mAP@50 > 0.80):

  • 车辙最易检测:YOLOv11达0.986,所有模型均超0.90。车辙具有规则的纵向带状特征,视觉上较为明确
  • 维修和 井盖次之:形状规则、与周围路面对比度高

难检测类别(mAP@50 < 0.50):

  • 泛油最难:最佳仅0.367(YOLOv8)。泛油表现为路面颜色深浅变化,缺乏明确的边界和形状特征
  • 鼓包与沉陷次难:最佳仅0.453(YOLOv10)。样本量仅857,且2D图像难以捕捉高度变化

模型层面:

  • YOLOv8在13类中的8类取得最优或并列最优的mAP@50,是整体最均衡的选择
  • YOLOv12虽然架构最新,但 未在任何类别上取得单独最优,在低频类别上Recall普遍偏低

图片

表格图像来源于原论文


四、消融实验:模型架构差异如何影响不同病害类型的检测?

YOLO系列内部对比

从结果可以提炼出模型架构与病害特征的对应关系:

模型架构特点优势类别论文分析
YOLOv8anchor-free + 解耦头坑洞、网状裂缝、边缘裂缝等(8类最优)特征提取适合大尺度、易识别的形变
YOLOv9GELAN + 可编程梯度井盖(0.860)、推移(0.810)即使目标不明显也能保持较高召回
YOLOv10NMS-free双分配鼓包(0.453)、块状裂缝(0.633)架构优化提升了跨类别的检测一致性
YOLOv11C3k2 + 空间注意力车辙(0.986)聚焦精细特征定位,对复杂纹理类别有优势
YOLOv12FlashAttention + 区域注意力无单独最优类别整体表现稳定,但在不规则类别上召回偏低

YOLO vs 两阶段/Transformer

  • Faster R-CNN基于区域提议的方法在多类别上提供了均衡表现,泛油检测(0.365)接近YOLOv8(0.367)
  • DETR的注意力驱动架构对具有明确形状特征的类别召回较高,但在鼓包等视觉特征不明显的类别上精度偏低
  • 整体而言,两阶段和Transformer模型在路面病害检测上与YOLO系列表现接近,未展现系统性优势

精度指标对比(以mAP@50-95计)

在更严格的mAP@50-95指标下,模型间差距更为明显。以几个代表性类别为例:

类别YOLOv8YOLOv9YOLOv10YOLOv11YOLOv12
Rutting0.7680.7580.7590.7560.747
Manhole0.6020.6200.5750.5730.569
Pothole0.5190.4740.4750.4700.431
Bleeding0.2130.1960.1850.1970.201

YOLOv8在Rutting(0.768)和Pothole(0.519)的mAP@50-95上均为YOLO系列最高;YOLOv9在Manhole上以0.620领先。


五、总结与讨论:统一基准的意义与局限

PaveSync的核心价值在于为路面病害检测提供了一个 可直接回答"该用哪个模型" 的统一基准。基于13.5万标注的评测结果,对实际工程选型有直接参考意义:

场景推荐模型理由
一般路面巡检YOLOv813类中8类最优或并列最优
车辙专项检测YOLOv11mAP@50达0.986
稀有病害关注YOLOv10鼓包、块状裂缝表现最稳定

需要注意的局限:

  • 类别不平衡:纵向裂缝(33,353标注)是块状裂缝(446标注)的75倍,低频类别的评测结论需谨慎解读
  • 难检测类别瓶颈:泛油和鼓包的mAP@50 < 0.45,现有模型在缺乏明确视觉边界的病害类型上仍有较大提升空间
  • 分辨率损失:统一缩放至640×640可能损失了部分细粒度裂缝的空间信息

作者在论文中表示将公开发布数据集,并提供了Google Drive链接,同时提供Pascal VOC、COCO和YOLO三种标注格式。但截至2026年3月,该链接尚无实际内容,数据集可能仍在准备上传中,建议关注后续更新。


论文信息

  • 标题: PaveSync: A Unified and Comprehensive Dataset for Pavement Distress Analysis and Classification
  • 作者: Blessing Agyei Kyem, Joshua Kofi Asamoah, Anthony Dontoh, Andrews Danyo, Eugene Denteh, Armstrong Aboah
  • 机构: 北达科他州立大学土木工程系SMART Lab;孟菲斯大学
  • 资助: North Dakota Economic Diversification Research Fund (EDRF)