D-FINE:中科大革新之作,实时物体检测的新纪元

327 阅读2分钟

在人工智能的领域,尤其是实时物体检测技术,中科大于2024年10月18日推出的D-FINE无疑是一颗冉冉升起的新星。这款强大的实时物体检测器以其卓越的定位精度和高效的运算速度,重新定义了DETR模型中的边界框回归任务,为物体检测技术带来了革命性的进展。

D-FINE:技术革新的双子星

D-FINE的核心在于两个创新组件:细粒度分布细化(FDR)和全局最优定位自蒸馏(GO-LSD),它们共同推动了实时物体检测技术的新浪潮。

FDR:从固定坐标到概率分布的飞跃

FDR将传统的边界框预测转变为一个迭代细化的概率分布过程。这一过程不仅提供了更为精细的中间表示,而且显著提升了定位精度。FDR的工作流程包括:

  1. 初始框预测:在DETR模型的解码器第一层,基于查询生成几个初始边界框,这些框作为后续细化的基础。
  2. 细粒度分布细化:D-FINE的解码器根据初始边界框生成四个概率分布,并逐层迭代细化,微调初始边界框。

GO-LSD:自蒸馏优化策略

GO-LSD通过自蒸馏将定位知识从细化分布转移到较浅的层,同时简化了较深层的残差预测任务。这种双向优化策略使得网络层间的局部化知识得以提炼,进一步提升了D-FINE的功能。

D-FINE:性能与效率的双重突破

D-FINE在性能上的表现令人瞩目。在NVIDIA T4 GPU上,D-FINE-L / X以124 / 78 FPS的速度在COCO数据集上实现了54.0% / 55.8%的AP。当在Objects365上进行预训练时,D-FINE-L / X的AP更是达到了57.1% / 59.3%,超越了所有现有的实时检测器。

D-FINE:未来展望与挑战

尽管D-FINE已经取得了显著的成绩,但仍有改进的空间。未来的研究可以探索更先进的架构设计或新颖的训练范例,以在保持轻量级推理的同时增强较轻模型的定位能力。

如何获取D-FINE

D-FINE的代码和预训练模型已在GitHub上公开,全球的研究者和开发者都可以访问和使用这些资源,共同推动实时物体检测技术的发展。

  • 代码和预训练模型github.com/Peterande/D…
  • 论文地址:D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement

BuluAI算力平台现已震撼上线,点击进入官网详细了解吧!!!