近年来,基于Transformer的目标检测方法,尤其是DETR(DEtection TRansformer) ,因其端到端的检测框架和简洁的架构设计,受到了广泛关注。然而,DETR在训练过程中存在收敛速度慢的问题,这限制了其在实际应用中的广泛使用。为了解决这一问题,CVPR 2025上提出的DEIM(DETR with Enhanced Matching Mechanism)通过引入改进的匹配机制,显著加快了DETR的收敛速度。
核心创新点
1. 密集一对一匹配(Dense O2O)
DETR模型的慢收敛主要源于其一对一匹配策略,导致正样本稀缺。DEIM通过Mosaic数据增强技术,将单目标图片拼接成多目标图片,从而增加正样本数量。这种方法在保持一对一匹配的同时,提供了更密集的监督信号,加速了模型的收敛。
相比直接复制目标(CopyPaste),Mosaic保留了目标的上下文信息,避免了模型过拟合特定目标。此外,Dense O2O避免了O2M(One-to-Many)匹配中可能出现的低质量匹配问题,确保了训练的稳定性和匹配质量。
2. 匹配感知损失(MAL)
MAL优化了传统的Varifocal Loss(VFL),特别针对低IoU但高置信度的错误匹配(bad cases)。MAL通过去除VFL中的IoU系数,使得损失函数在低IoU高置信度的情况下更敏感,从而有效提升模型对低质量匹配的优化能力。
实验对比(左deim,右yolo,红圈标识差异):
过亮下的检测差异
过暗下的检测差异:
遮挡下的检测差异
粘连灯下的检测差异:
总结: 实验发现,DEIM检测完整性方面强于yolov5一个数量级,但类别判断稳定性有待提高,应配合其他辅助方法一起使用才能充分发挥其检测能力。