在自动驾驶、工业质检、安防监控等需要「毫秒级反应」的应用场景中,实时目标检测始终是一条极具挑战的技术赛道。过去十年里,YOLO 系列凭借轻量高效的架构成为该领域的主流方案,从最初的 YOLO 到近年的 YOLOv11、YOLOv12,模型不断在速度与精度之间寻找新的平衡点。
不过,即便进化多次,YOLO 系列的底层机制依旧面临共同瓶颈: 要么像卷积那样只能在固定感受野内做局部聚合,要么像自注意力那样虽然能扩大感受野,却因为计算代价高昂,不得不在实际部署时被「区域化」,从而失去真正的全局视野。更关键的是,自注意力本质上仍是在建模像素两两之间的关系,只能表达「二元相关性」,很难捕捉场景中更复杂的、多对多语义结构。 这些结构对模型理解拥挤场景、细粒度物体或高度复杂的视觉关系至关重要。
*感受野:视觉通路中,视网膜上的光感受器(杆体细胞和锥体细胞)接受光信号,转换为神经信号,影响外膝状体细胞和视觉皮层中的神经节细胞,这些神经节细胞的受刺激区域就叫做感受野(receptive field),不同的感觉种类有不同的感受野性质和大小。
正因如此,传统 YOLO 架构在面对复杂场景时常会出现性能瓶颈:要么无法充分理解长程依赖,要么难以表达跨尺度的深层语义关联。
针对这一长期难题,清华大学、太原理工大学、西安交通大学等高校组成的联合研究团队提出了全新的目标检测模型——YOLOv13,将「相关性建模」从二元扩展到真正的高阶结构。 研究团队引入了一个核心组件——HyperACE(Hypergraph-based Adaptive Correlation Enhancement,基于超图的自适应相关增强机制)。HyperACE 将多尺度特征图中的像素视为顶点,并通过可学习的超边构建模块自适应地探索顶点间的高阶相关性。之后,借助一个具有线性复杂度的信息传递模块,按高阶相关性为指导,有效地汇聚多尺度特征,实现复杂场景下的视觉感知。此外, HyperACE 也同时整合了低阶相关性建模,以实现更加全面的视觉感知。
在 HyperACE 之上,YOLOv13 进一步提出了 FullPAD(Full-Pipeline Aggregation-and-Distribution,全管道聚合-分布范式): 模型先在全局尺度完成相关性增强,然后将相关增强后的特征分发至 backbone、neck、head 的各个阶段,让「高阶语义」贯穿整个检测流程,改善梯度流通并提升整体表现。此外,作者还用更轻量的深度可分卷积模块替代传统大卷积核,在保证精度的前提下降低了参数与算力开销。
最终结果显示,从小模型(N 系列)到大模型,YOLOv13 在 MS COCO 上均取得了显著提升,在参数和 FLOPs 更少的条件下达到了最先进的检测性能。 其中,YOLOv13-N 相比 YOLOv11-N 提升了 3.0% 的 mAP,相比 YOLOv12-N 提升了 1.5%。
目前,「一键部署 Yolov13」已上线 OpenBayes 公共教程板块,点击下方链接即可体验一键部署教程 ⬇️
教程链接:
查看相关论文:
Demo 运行
01 Demo 运行阶段
1.登录 OpenBayes.com,在「公共教程」页面,选择「一键部署 Yolov13」教程。
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!
小贝总专属邀请链接(直接复制到浏览器打开):
4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
02 效果演示
进入 Demo 运行页面后,上传图片/视频,点击「Detect Objects 」即可运行。
参数说明:
-
Model:yolov13n.pt(nano)、yolov13s.pt(small)、yolov13l.pt(large)、yolov13x.pt(extra large)。模型越大,精度(mAP)越高,但参数量、计算量(FLOPs)和推理时间也越长。
-
Confidence Threshold:置信度阈值。
-
IoU Threshold:交并比阈值,用于 NMS 。
-
Max detections per image:每张图片最大检测框数量。
小贝以「yolov13s.pt」模型为例进行测试,效果如下所示。
教程链接: