1. 背景:视觉模型正在从云端走向设备侧
近年来,计算机视觉模型的部署形态正在发生明显变化。
越来越多的视觉任务不再运行在云端 GPU 上,而是直接运行在 摄像头、机器人、嵌入式设备和边缘计算节点 中。在这些场景下:
- 延迟比算力更重要
- 稳定性比极限精度更重要
- CPU / NPU 可部署性比训练指标更重要
在这样的背景下,Ultralytics 发布了 YOLO26,这是一个明显以 “真实部署场景” 为核心目标重新设计的 YOLO 系列模型。
2. YOLO26 是什么?
YOLO26 是 Ultralytics YOLO 系列的最新一代模型,在架构、训练策略和推理流程上都进行了较大调整。
它并不是简单的参数规模升级,而是围绕以下问题重新设计:
- 如何降低端侧推理复杂度?
- 如何减少导出和部署阶段的不确定性?
- 如何在 CPU 和低功耗硬件上获得更稳定的性能?
YOLO26 延续了 YOLO 一贯的统一模型家族设计,提供 n / s / m / l / x 五种规模,可根据部署环境在速度、精度和模型体积之间进行选择。
3. 性能变化:不仅是“更快”,而是更可用
在官方披露的结果中,相比上一代 YOLO11:
- YOLO26-Nano 在 CPU 推理场景下最高可提升约 43% 性能
- 在保持精度的同时,推理流程明显简化
- 更适合直接运行在无 GPU 的设备上
这类提升对云端 GPU 用户意义有限,但对 边缘端、嵌入式、工业设备 来说,价值非常明确。
4. YOLO26 支持的视觉任务
YOLO26 并不局限于目标检测,而是延续了 YOLO 统一任务框架的设计:
- 图像分类
- 目标检测
- 实例分割
- 姿态估计
- 旋转框(OBB)检测
- 目标跟踪(结合 Ultralytics Python API)
所有任务在同一框架下支持训练、验证、推理与模型导出,降低了多任务场景下的工程复杂度。
5. 架构层面的关键变化
5.1 移除 DFL(Distribution Focal Loss)
早期 YOLO 使用 DFL 来提升边界框回归精度,但这一设计也带来了几个问题:
- 增加了预测头复杂度
- 对导出 ONNX / TensorRT / NPU 不友好
- 在低算力设备上存在额外开销
YOLO26 完全移除了 DFL:
- 边界框预测流程更直接
- 减少了部署时的算子不确定性
- 在超大目标场景下反而更稳定
这一改动明显偏向工程部署,而非单纯追求训练指标。
5.2 原生端到端推理(无 NMS)
传统目标检测通常依赖 NMS 作为后处理步骤,这在实际部署中存在不少问题:
- 不同运行时对 NMS 支持差异较大
- 增加推理延迟
- 后处理代码成为稳定性隐患
YOLO26 原生支持 端到端无 NMS 推理:
- 重复预测的抑制在网络内部完成
- 推理结果可直接输出
- 更适合实时与多平台部署场景
这对于边缘端、异构硬件和多模型流水线非常友好。
6. 训练策略的变化:更稳定,而不是更激进
6.1 ProgLoss + STAL
YOLO26 在训练阶段引入了两项关键策略:
- ProgLoss(渐进式损失平衡)
- STAL(小目标感知标签分配)
它们的核心目标不是追求极限精度,而是:
- 减少训练过程中的震荡
- 提升小目标和远距离目标的稳定识别能力
这类改进对 无人机、IoT、工业检测 等场景尤为重要。
6.2 MuSGD 优化器
YOLO26 使用了一种新的优化器 MuSGD,将传统 SGD 与近年来大模型训练中的优化思想结合:
- 保留 SGD 在视觉任务中的泛化优势
- 提升大规模训练时的稳定性
- 降低不同模型尺寸之间的训练不确定性
这类变化并不“显眼”,但对工程团队非常友好。
7. 针对不同任务的专项优化
实例分割
- 改进分割损失
- 原型模块支持多尺度信息
- 提升复杂场景下的掩码一致性
姿态估计
- 引入 RLE(Residual Log-Likelihood Estimation)
- 更好建模关键点不确定性
- 兼顾精度与实时性
旋转框检测(OBB)
- 新增角度损失
- 优化旋转边界解码
- 减少角度跳变问题
8. YOLOE-26:基于 YOLO26 的开放词汇分割
Ultralytics 同时发布了 YOLOE-26,这是一个基于 YOLO26 的开放词汇分割模型家族:
- 支持文本提示、视觉提示、无提示推理
- 覆盖全部 YOLO26 模型尺寸
- 相比早期开放词汇模型,稳定性和实用性更高
它更像是 YOLO26 架构能力的一个扩展方向。
9. 部署视角:为什么 YOLO26 更“工程友好”
YOLO26 明显是为真实部署场景设计的模型:
- 可导出 ONNX / TensorRT / CoreML / OpenVINO
- 适配 CPU、GPU、NPU、边缘加速器
- 推理流程简化,减少后处理依赖
这意味着:
同一个模型,可以覆盖从开发验证到生产部署的完整链路。
10. 快速上手示例
pip install ultralytics
from ultralytics import YOLO
# 加载 YOLO26 Nano 模型
model = YOLO("yolo26n.pt")
# 推理示例
results = model("bus.jpg")
完整文档可参考官方说明(文末链接)。
11. 总结:YOLO26 的真正意义
YOLO26 并不是一次“参数堆叠式”的升级,而是一次 从研究导向向部署导向的明显转变:
- 更少的后处理
- 更稳定的训练
- 更友好的导出与推理路径
- 更适合边缘和低功耗设备
对于正在做 端侧视觉、嵌入式 AI、工业检测、机器人视觉 的开发者来说,YOLO26 是一个值得认真评估的版本。
参考链接
- YOLO26 使用入口:pse.is/8lgx94
- Ultralytics 文档:docs.ultralytics.com/