RF-DETR:最近一个月迭代 5 个版本的实时检测+分割模型

0 阅读4分钟

导读

实时目标检测长期由 YOLO 系列主导,Transformer 架构因推理速度劣势一直难以进入实时场景。

Roboflow 推出的 RF-DETR 改变了这个局面:基于 DINOv2 骨干的检测 Transformer,在 COCO 上以 56.5 AP(L 模型,6.8ms)  超越 YOLO11 和 YOLO26 同级别模型,同时原生支持实例分割。项目开源活跃,一个月发了 5 个版本,近期新增了 PyTorch Lightning 迁移、自定义数据增强、GPU 显存监控等实用功能。

论文:  RF-DETR: Neural Architecture Search for Real-Time Detection Transformers作者:**  Isaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri发表:  ICLR 2026(arXiv: 2511.09554)代码:  github.com/roboflow/rf…**  5.9K(截至 2026.3.15)协议:  Apache 2.0(N/S/M/L),PML 1.0(XL/2XL)**


一、为什么是 Transformer 而不是 YOLO?

YOLO 系列在实时检测领域统治多年,核心优势是速度。但 RF-DETR 证明了 Transformer 架构在实时场景下也能做到更好:

screenshot_2026-03-16_11-39-03.png

图片来源于原论文

模型COCO AP₅₀:₉₅COCO AP₅₀延迟 (ms)参数量分辨率
RF-DETR-N48.467.62.330.5M384×384
RF-DETR-S53.072.13.532.1M512×512
RF-DETR-M54.773.64.433.7M576×576
RF-DETR-L56.575.16.833.9M704×704
RF-DETR-XL58.677.411.5126.4M700×700
RF-DETR-2XL60.178.517.2126.9M880×880

延迟在 NVIDIA T4 GPU 上用 TensorRT FP16 测量。

作为参照,YOLO11-S 在 COCO 上的 AP₅₀:₉₅ 为 44.4(3.2ms),YOLO11-M 为 48.6(5.1ms)。RF-DETR-N 以 48.4 AP₅₀:₉₅(2.3ms)超越 YOLO11-S,RF-DETR-S 以 53.0(3.5ms)超越 YOLO11-M——在相近延迟下精度更高。

RF-DETR 使用 DINOv2 作为视觉骨干,结合神经架构搜索(NAS)优化检测头设计,在保持实时推理速度的同时获得了更高的检测精度。

screenshot_2026-03-16_11-43-07.png

图片来源于原论文

二、检测 + 分割,统一 API

自 v1.3.0(2025 年 10 月)起,RF-DETR 新增了实例分割能力,提供统一的 API 接口:

分割模型COCO AP₅₀:₉₅COCO AP₅₀延迟 (ms)参数量
RF-DETR-Seg-N40.363.03.433.6M
RF-DETR-Seg-S43.166.24.433.7M
RF-DETR-Seg-M45.368.45.935.7M
RF-DETR-Seg-L47.170.58.836.2M
RF-DETR-Seg-XL48.872.213.538.1M
RF-DETR-Seg-2XL49.973.121.838.6M

用户可以用相同的代码接口切换检测和分割任务,降低了使用门槛。

三、6 种模型规格,覆盖从边缘到云端

RF-DETR 提供从 Nano 到 2XLarge 共 6 个规格:

  • Nano/Small(30-32M 参数,2.3-3.5ms):适合边缘设备和实时流处理
  • Medium/Large(33-34M 参数,4.4-6.8ms):平衡精度和速度
  • XLarge/2XLarge(126M+ 参数,11.5-17.2ms):追求最高精度

N/S/M/L 采用 Apache 2.0 开源协议,可自由商用。XL/2XL 采用 PML 1.0 协议。

四、近期更新:一个月 5 个版本

RF-DETR 的迭代速度很快,2026 年 1-3 月的主要更新:

v1.6.0 rc(3/13)— PyTorch Lightning 迁移

将训练框架迁移到 PyTorch Lightning,为分布式训练、混合精度等高级训练特性提供更好的支持。

v1.5.2(3/4)— GPU 显存监控

训练和评估的进度条现在实时显示 GPU 峰值显存占用(max_mem),无需额外的 profiling 工具即可掌握硬件利用情况。

v1.5.1(2/27)— 嵌套数据增强

支持 Albumentations 的 OneOf 和 Sequential 嵌套容器,增强管线的灵活性。

v1.5.0(2/23)— 自定义数据增强

通过 aug_config 参数完全控制训练增强策略,支持传入 Albumentations 字典、选择内置预设(保守/激进/无增强),或完全禁用增强。边界框和分割掩码会自动跟随变换。

from rfdetr import RFDETRSmall
model = RFDETRSmall()
model.train(dataset_dir=".", aug_config=AUG_AGGRESSIVE)

v1.4.2(2/12)— YOLO 格式支持

支持 YOLO 格式数据集直接训练,支持图片 URL 推理,允许无测试集训练。

v1.4.0(1/22)— 新预训练检查点

新增 L/XL/2XL 检测检查点和全系列(N-2XL)分割检查点,性能全面提升。同时放弃 Python 3.9 支持。

五、总结与思考

RF-DETR 的核心价值:

  • Transformer 做实时检测的可行性验证:DINOv2 骨干 + NAS 优化的检测头,在 COCO 上超越 YOLO 同级模型
  • 检测+分割统一:一套 API 覆盖两种任务
  • 迭代速度快:一个月 5 个版本,工程质量扎实(显存监控、增强管线、Lightning 迁移等)
  • 对工业场景的适用性:Nano 模型 2.3ms 延迟适合产线实时检测,自定义增强适合特定缺陷场景的微调

值得关注的点:

  • XL/2XL 模型的 PML 1.0 协议限制了部分商用场景
  • 目前 COCO AP₅₀:₉₅ 对比表中的数据来自 RF-DETR 官方,尚未有第三方独立验证
  • 生态还在早期(5.9K stars),相比 Ultralytics YOLO(54K+)的社区规模差距明显