跳转至内容

YOLO26 与 YOLOv9:开启下一代实时视觉 AI

随着计算机视觉领域的加速发展,开发人员和研究人员不断寻求在速度、精度和部署便捷性之间实现完美平衡的模型。本技术分析将 Ultralytics 最新的统一模型家族 YOLO26 与专注于可编程梯度信息(PGI)的社区驱动模型 YOLOv9 进行比较。通过检查它们的架构、性能指标和理想用例,我们旨在指导您为您的机器学习项目找到最佳解决方案。

执行摘要

尽管这两种模型都推动了目标 detect的边界,但 YOLO26 在生产就绪性和生态系统集成方面迈出了重要一步。它引入了原生的端到端(NMS-free)架构,极大地简化了部署流程,并针对边缘设备进行了专门优化,可实现高达 43% 更快的 CPU 推理速度。YOLOv9 于 2024 年初发布,引入了可编程梯度信息(PGI)等新颖概念以提高训练稳定性,但它仍然是一个更传统的基于锚点的 detect 器,需要 NMS。

模型详细分析

Ultralytics YOLO26

作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2026-01-14
链接:GitHub | 文档

YOLO26 不仅被设计为一个模型,更是一个完整的生态系统解决方案。它放弃了传统的锚点和非极大值抑制(NMS),转而采用流线型的端到端架构。这种设计选择消除了通常隐藏在后处理步骤中的延迟,使其成为自动驾驶汽车和机器人等实时应用的理想选择。

关键的架构创新包括移除了分布焦点损失(DFL),这简化了向 TensorRT 和 CoreML 等格式的导出。训练稳定性通过 MuSGD 优化器得到增强,它是 SGD 和 Muon(灵感来自月之暗面 Kimi K2)的混合体,将大型语言模型的训练创新引入了视觉领域。此外,ProgLoss 和 STAL(软目标锚点损失)的引入显著改善了小目标的 detect 能力,这是航空影像和物联网设备的关键能力。

了解更多关于 YOLO26 的信息

YOLOv9

作者:Chien-Yao Wang 和 Hong-Yuan Mark Liao
组织:台湾中央研究院信息科学研究所
日期:2024-02-21
链接:Arxiv | GitHub | 文档

YOLOv9 专注于深度学习理论,特别是解决了深度网络中的“信息瓶颈”问题。它的核心贡献是可编程梯度信息(PGI),它有助于在输入数据通过深层时保留其信息,以及广义高效层聚合网络(GELAN)。这些特性使 YOLOv9 能够实现令人印象深刻的参数效率。然而,作为一个传统的基于锚点的模型,它仍然依赖 NMS 进行最终预测,这与端到端解决方案相比,可能会使在受限硬件上的部署复杂化。

性能指标比较

下表突出了 COCO 验证数据集上的性能差异。YOLO26 展示了卓越的效率,尤其是在 CPU 速度方面,同时保持了具有竞争力或更优的精度。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

主要技术差异

1. 架构和推理流程

YOLO26 的NMS-free 设计是一项范式转变。通过训练模型原生生成一对一的预测,推理流程变为简单的正向传播。这消除了启发式的 NMS 步骤,该步骤通常难以在 FPGA 或 NPU 等边缘 AI 设备上进行优化。相反,YOLOv9 依赖于传统的“预测-然后-抑制”方法,这需要仔细调整 IoU 阈值并在推理过程中增加计算开销。

2. 训练稳定性与收敛性

YOLO26 中的MuSGD 优化器代表了一种现代的训练动态方法。通过将 SGD 与 Muon 混合,YOLO26 比前几代模型更快地实现稳定收敛。这在自定义数据集上进行训练时尤其有利,因为超参数调优可能需要大量资源。YOLOv9 使用 PGI 辅助监督,这在理论上是稳健的,但可能会增加训练图的复杂性以及反向传播阶段的内存使用。

3. 边缘和 CPU 优化

YOLO26 的一个突出特点是其高达 43% 更快的 CPU 推理速度。这是通过专门针对没有强大 GPU 的设备(例如 Raspberry Pi 或基本云实例)优化架构来实现的。移除 DFL(分布焦点损失)进一步减少了每个 detect 头所需的数学运算。YOLOv9 虽然通过 GELAN 实现了参数高效,但没有这些特定的以 CPU 为中心的优化,这使得 YOLO26 成为在边缘设备上部署的明显赢家。

使用 Ultralytics 简化导出

YOLO26 模型可以通过单个命令导出为 ONNX、TensorRT 和 OpenVINO 等格式,自动处理 NMS-free 结构以实现无缝集成。

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.export(format="onnx")  # Exports directly without NMS plugins

生态系统与易用性

字段 Ultralytics生态系统 是一个显著的差异化优势。YOLO26 完全集成到 ultralytics Python 包中,提供标准化的 API 用于训练、验证和部署。

  • 简洁性: 开发者可以在不同任务之间切换,例如 姿势估计旋转框检测 (OBB) 仅通过更改模型权重文件(例如, yolo26n-pose.ptyolo26n-obb.pt)。YOLOv9 主要是一个目标检测模型,对这些专业任务的原生支持较少。
  • 支持: Ultralytics 提供详尽的文档、活跃的社区论坛以及企业支持选项。这确保了开发者不会因实现细节而受阻。
  • 多功能性: 除了检测之外,YOLO26 还提供针对特定任务的改进,例如用于姿势估计的残差对数似然估计 (RLE) 以及用于旋转框检测 (OBB) 的专用角度损失,确保在各种应用中实现高准确性

用例推荐

选择 YOLO26 的理由:

  • 您需要同类最快的 CPU 推理,或者正在部署到边缘设备(如树莓派、Jetson Nano、移动设备)。
  • 您的管道受益于免 NMS 输出,从而简化了后处理逻辑。
  • 您需要在单个统一框架内支持segment、姿势估计或分类
  • 您优先考虑一个文档完善、活跃的生态系统,并包含用于数据集分析的Ultralytics Explorer等工具。
  • 您正在进行小目标检测,其中 ProgLoss + STAL 提供了显著优势。

如果满足以下条件,请选择 YOLOv9:

  • 您正在进行学术研究,特别关注可编程梯度信息或辅助监督技术。
  • 您的遗留基础设施与基于锚点的后处理管道紧密耦合,难以迁移。

结论

尽管 YOLOv9 在 2024 年引入了重要的理论进展,但YOLO26 将这些概念提炼成一个强大且可用于生产的工具,适用于 2026 年及以后。凭借其端到端设计、显著的 CPU 加速以及对多种视觉任务的强大支持,YOLO26 为实际 AI 应用提供了更通用、更具前瞻性的解决方案。无论您是构建智慧城市基础设施、农业监测系统还是先进机器人技术,YOLO26 都能提供成功所需的性能和可靠性。

对于那些有兴趣探索以前最先进模型的人,YOLO11YOLOv8 文档提供了关于 YOLO 家族演变的额外背景信息。


评论