跳转至内容

YOLOv9 :实时目标检测的进化之路

在快速发展的计算机视觉领域,选择合适的模型架构对于平衡性能、效率和部署便捷性至关重要。本比较探讨了 YOLOv9(2024年初推出的强大模型)与YOLO26(Ultralytics 最新尖端迭代版本)的技术差异。这两款模型虽YOLO 的重要里程碑,但在速度、训练稳定性及部署复杂度方面满足着不同的需求。

模型概述与作者信息

理解这些架构的传承脉络,有助于理解其设计理念的背景。

YOLOv9:可编程梯度信息

作者:王建尧,廖鸿源·马克
机构:中央研究院资讯科学研究所
日期:2024-02-21
链接:Arxiv论文|GitHub仓库

YOLOv9 可编程梯度信息(PGI) 和广义高效层聚合网络(GELAN)的概念。这些创新解决了深度神经网络中的"信息瓶颈"问题——即数据在通过连续层时会发生丢失。PGI确保关键特征信息在整个深度网络中得以保留,从而实现高精度检测,尤其在复杂场景中表现突出。

YOLO26:端到端边缘计算专家

作者:Glenn Jocher, Jing Qiu
机构:Ultralytics
日期:2026-01-14
链接:官方文档|GitHub代码库

在YOLOv7的基础上 YOLOv8YOLO11,YOLO26实现了向简化、高速部署的转变。 其原生支持端到端NMS,彻底免除非最大抑制后处理环节。结合取消分布式焦点损失(DFL)的设计,使YOLO2CPU 边缘设备上展现出卓越的运行速度。该模型还率先采用MuSGD优化器——这种 SGD (受LLM训练启发)的混合算法,确保了训练过程的稳定收敛性。

了解更多关于 YOLO26 的信息

性能与指标对比

下表对比了标准模型在COCO 数据集上的表现。值得注意的是,YOLO26在CPU 上具有显著的速度优势,这得益于其架构优化。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

性能分析

YOLO26在延迟计算效率方面展现出明显优势。例如,YOLO26n在使用显著更少的浮点运算量(54亿次 vs 77亿次)时,实现了高于YOLOv9t(38.3%)mAP 40.9%)。这种效率对于在电池供电的边缘设备上运行的应用至关重要。

架构深度解析

YOLOv9 架构

YOLOv9 信息流。其GELAN骨干网络融合了CSPNet(梯度路径规划)与ELAN(推理速度)的优势,构建出轻量级却功能强大的特征提取器。PGI辅助分支在训练过程中为更深层提供可靠的梯度信息,而在推理阶段则移除该分支以保持模型轻量化。

  • 优点:在复杂基准测试中表现出卓越的准确性;对复杂场景具有出色的信息保留能力。
  • 缺点:需要NMS ;架构修改复杂,难以适应非标准任务;与新一代产品相比,在相同吞吐量下计算负载更重。

YOLO26架构

YOLO26 优先考虑推理速度和部署简便性

  1. NMS:通过训练模型原生预测一对一匹配,YOLO26消除了启发式NMS 。这既降低了延迟波动性,又简化了TensorRT ——因高效NMS 不再是必备组件。
  2. MuSGD优化器:受Moonshot AI的Kimi K2启发,该优化器融合了SGD 法的动量SGD Muon优化器的自适应能力SGD 将大型语言模型(LLM)训练的稳定性引入计算机视觉领域。
  3. 渐进损失 + 软目标分配损失(STAL):引入渐进损失与软目标分配损失(STAL)显著提升了小目标检测性能,这正是无锚检测器普遍存在的弱项。

训练与生态系统

这两种模式的开发者体验存在显著差异,这主要源于它们所处的软件生态系统不同。

Ultralytics的易用性

虽然YOLOv9 集成到Ultralytics ,但YOLO26是原生支持的模型。这确保了所有功能在首日即可获得支持,包括:

  • 统一 API: 在任务之间切换,例如 姿势估计旋转框检测 (OBB) 只需修改模型权重文件(例如: yolo26n-pose.pt)。
  • Ultralytics :通过Ultralytics 无缝上传数据集、借助AI助手进行标注,并在云端进行训练。
  • 导出灵活性:原生支持一键导出至多种格式,例如 CoreML 、适用于iOS TFLite 以及OpenVINO Intel OpenVINO 等格式。
from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX for simplified deployment (no NMS plugin needed)
path = model.export(format="onnx")

内存与资源效率

YOLOv9分支架构(PGI)相比,YOLO26在训练过程中通常需要GPU 。这使得研究人员能够在消费级硬件(NVIDIA 3060或4090)上使用更大的批量大小,从而加速实验周期。

实际应用案例

何时选择 YOLOv9

在静态基准测试中追求最高精度且计算资源充足的场景下YOLOv9 是最强劲的竞争者之一。

  • 学术研究:研究卷积神经网络中的信息瓶颈理论与梯度流。
  • 服务器端处理:采用高性能GPU 分析存档视频素材,此类场景对实时延迟要求较低。

何时选择 YOLO26

YOLO26是生产环境边缘计算的推荐选择。

  • 嵌入式系统: CPU 最高可提升43%,使其成为机器人领域树莓派或NVIDIA 部署的理想选择。
  • 实时分析: NMS设计确保确定性延迟,这对自动驾驶和安全系统至关重要。
  • 多模态应用:凭借对实例分割和姿势估计的原生支持,它成为复杂管道(如零售或体育领域的人类行为分析)的多功能骨干网络。

结论

YOLOv9 通过PGIYOLOv9 突破性的理论概念,而YOLO26则将这些经验转化为实用高效的解决方案。其端到端架构、消除后处理瓶颈的设计,以及与强大的Ultralytics 深度集成,使其成为开发者构建新一代人工智能应用的首选方案。

探索其他模型

若您有意探索其他选择,不妨考虑查看 YOLO11——YOLO26的前身,或 YOLOv10——该算法开创了NMS的全新方法。


评论