YOLO26 与 YOLOv9:开启下一代实时视觉 AI
随着计算机视觉领域的加速发展,开发人员和研究人员不断寻求在速度、精度和部署便捷性之间实现完美平衡的模型。本技术分析将 Ultralytics 最新的统一模型家族 YOLO26 与专注于可编程梯度信息(PGI)的社区驱动模型 YOLOv9 进行比较。通过检查它们的架构、性能指标和理想用例,我们旨在指导您为您的机器学习项目找到最佳解决方案。
执行摘要
尽管这两种模型都推动了目标 detect的边界,但 YOLO26 在生产就绪性和生态系统集成方面迈出了重要一步。它引入了原生的端到端(NMS-free)架构,极大地简化了部署流程,并针对边缘设备进行了专门优化,可实现高达 43% 更快的 CPU 推理速度。YOLOv9 于 2024 年初发布,引入了可编程梯度信息(PGI)等新颖概念以提高训练稳定性,但它仍然是一个更传统的基于锚点的 detect 器,需要 NMS。
模型详细分析
Ultralytics YOLO26
作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2026-01-14
链接:GitHub | 文档
YOLO26 不仅被设计为一个模型,更是一个完整的生态系统解决方案。它放弃了传统的锚点和非极大值抑制(NMS),转而采用流线型的端到端架构。这种设计选择消除了通常隐藏在后处理步骤中的延迟,使其成为自动驾驶汽车和机器人等实时应用的理想选择。
关键的架构创新包括移除了分布焦点损失(DFL),这简化了向 TensorRT 和 CoreML 等格式的导出。训练稳定性通过 MuSGD 优化器得到增强,它是 SGD 和 Muon(灵感来自月之暗面 Kimi K2)的混合体,将大型语言模型的训练创新引入了视觉领域。此外,ProgLoss 和 STAL(软目标锚点损失)的引入显著改善了小目标的 detect 能力,这是航空影像和物联网设备的关键能力。
YOLOv9
作者:Chien-Yao Wang 和 Hong-Yuan Mark Liao
组织:台湾中央研究院信息科学研究所
日期:2024-02-21
链接:Arxiv | GitHub | 文档
YOLOv9 专注于深度学习理论,特别是解决了深度网络中的“信息瓶颈”问题。它的核心贡献是可编程梯度信息(PGI),它有助于在输入数据通过深层时保留其信息,以及广义高效层聚合网络(GELAN)。这些特性使 YOLOv9 能够实现令人印象深刻的参数效率。然而,作为一个传统的基于锚点的模型,它仍然依赖 NMS 进行最终预测,这与端到端解决方案相比,可能会使在受限硬件上的部署复杂化。
性能指标比较
下表突出了 COCO 验证数据集上的性能差异。YOLO26 展示了卓越的效率,尤其是在 CPU 速度方面,同时保持了具有竞争力或更优的精度。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
主要技术差异
1. 架构和推理流程
YOLO26 的NMS-free 设计是一项范式转变。通过训练模型原生生成一对一的预测,推理流程变为简单的正向传播。这消除了启发式的 NMS 步骤,该步骤通常难以在 FPGA 或 NPU 等边缘 AI 设备上进行优化。相反,YOLOv9 依赖于传统的“预测-然后-抑制”方法,这需要仔细调整 IoU 阈值并在推理过程中增加计算开销。
2. 训练稳定性与收敛性
YOLO26 中的MuSGD 优化器代表了一种现代的训练动态方法。通过将 SGD 与 Muon 混合,YOLO26 比前几代模型更快地实现稳定收敛。这在自定义数据集上进行训练时尤其有利,因为超参数调优可能需要大量资源。YOLOv9 使用 PGI 辅助监督,这在理论上是稳健的,但可能会增加训练图的复杂性以及反向传播阶段的内存使用。
3. 边缘和 CPU 优化
YOLO26 的一个突出特点是其高达 43% 更快的 CPU 推理速度。这是通过专门针对没有强大 GPU 的设备(例如 Raspberry Pi 或基本云实例)优化架构来实现的。移除 DFL(分布焦点损失)进一步减少了每个 detect 头所需的数学运算。YOLOv9 虽然通过 GELAN 实现了参数高效,但没有这些特定的以 CPU 为中心的优化,这使得 YOLO26 成为在边缘设备上部署的明显赢家。
使用 Ultralytics 简化导出
YOLO26 模型可以通过单个命令导出为 ONNX、TensorRT 和 OpenVINO 等格式,自动处理 NMS-free 结构以实现无缝集成。
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(format="onnx") # Exports directly without NMS plugins
生态系统与易用性
字段 Ultralytics生态系统 是一个显著的差异化优势。YOLO26 完全集成到 ultralytics Python 包中,提供标准化的 API 用于训练、验证和部署。
- 简洁性: 开发者可以在不同任务之间切换,例如 姿势估计 或 旋转框检测 (OBB) 仅通过更改模型权重文件(例如,
yolo26n-pose.pt或yolo26n-obb.pt)。YOLOv9 主要是一个目标检测模型,对这些专业任务的原生支持较少。 - 支持: Ultralytics 提供详尽的文档、活跃的社区论坛以及企业支持选项。这确保了开发者不会因实现细节而受阻。
- 多功能性: 除了检测之外,YOLO26 还提供针对特定任务的改进,例如用于姿势估计的残差对数似然估计 (RLE) 以及用于旋转框检测 (OBB) 的专用角度损失,确保在各种应用中实现高准确性。
用例推荐
选择 YOLO26 的理由:
- 您需要同类最快的 CPU 推理,或者正在部署到边缘设备(如树莓派、Jetson Nano、移动设备)。
- 您的管道受益于免 NMS 输出,从而简化了后处理逻辑。
- 您需要在单个统一框架内支持segment、姿势估计或分类。
- 您优先考虑一个文档完善、活跃的生态系统,并包含用于数据集分析的Ultralytics Explorer等工具。
- 您正在进行小目标检测,其中 ProgLoss + STAL 提供了显著优势。
如果满足以下条件,请选择 YOLOv9:
- 您正在进行学术研究,特别关注可编程梯度信息或辅助监督技术。
- 您的遗留基础设施与基于锚点的后处理管道紧密耦合,难以迁移。
结论
尽管 YOLOv9 在 2024 年引入了重要的理论进展,但YOLO26 将这些概念提炼成一个强大且可用于生产的工具,适用于 2026 年及以后。凭借其端到端设计、显著的 CPU 加速以及对多种视觉任务的强大支持,YOLO26 为实际 AI 应用提供了更通用、更具前瞻性的解决方案。无论您是构建智慧城市基础设施、农业监测系统还是先进机器人技术,YOLO26 都能提供成功所需的性能和可靠性。
对于那些有兴趣探索以前最先进模型的人,YOLO11 和 YOLOv8 文档提供了关于 YOLO 家族演变的额外背景信息。