跳转至内容

YOLOv9 与 YOLO26:现代目标 detect 的技术深度解析

实时 目标 detect 领域在过去几年中取得了显著发展。随着机器学习从业者寻求在各种硬件上部署模型,选择正确的架构至关重要。在本全面的技术指南中,我们将比较计算机视觉领域的两个主要里程碑:2024 年初推出、专注于梯度路径优化的 YOLOv9,以及 2026 年初发布的最新最先进框架 Ultralytics YOLO26,它彻底重新定义了边缘推理和训练稳定性。

执行摘要:模型谱系与作者身份

了解这些深度学习模型的起源,有助于深入理解其架构设计选择和目标受众。

YOLOv9

由台湾中央研究院信息科学研究所的王建尧和廖弘源撰写,YOLOv9于2024年2月21日发布。该模型重点关注深度学习的理论概念,特别是解决了深度卷积神经网络(CNN)中的信息瓶颈问题。

了解更多关于 YOLOv9

Ultralytics YOLO26

由 Glenn Jocher 和 Jing Qiu 在 Ultralytics 撰写,YOLO26 于 2026 年 1 月 14 日发布。借鉴了 YOLO11YOLOv8 等前代模型的巨大成功,YOLO26 从头开始设计,旨在优先考虑生产就绪性、边缘部署和原生端到端效率。

了解更多关于 YOLO26 的信息

立即体验 YOLO26

准备好升级您的计算机视觉管道了吗?您可以使用Ultralytics Platform,无需编写任何代码即可轻松在云端训练和部署 YOLO26 模型。

架构创新

两种模型都对神经网络处理视觉数据的方式引入了开创性的改变,但它们从不同的角度解决问题。

YOLOv9 中的可编程梯度信息

YOLOv9 在该领域的主要贡献是引入了可编程梯度信息 (PGI)通用高效层聚合网络 (GELAN)。随着神经网络层数的加深,它们在前向传播过程中常常会遭受信息损失。PGI 确保反向传播过程中用于更新权重的梯度保持准确可靠,从而使GELAN 架构能够以更少的参数实现高精度。

然而,YOLOv9 在后处理方面严重依赖传统的非极大值抑制 (NMS),这在实际推理过程中可能成为延迟瓶颈。

YOLO26 的边缘优先架构

YOLO26 采取了截然不同的方法,优化了从训练到实时部署的整个流程。它基于YOLOv10首次开创的端到端无 NMS 设计,完全消除了 NMS 后处理的需要。这带来了极低的延迟,使其针对树莓派 (Raspberry Pi) 或 NVIDIA Jetson 等边缘设备进行了高度优化。

此外,YOLO26 完全移除了分布焦点损失 (DFL)。这一结构性变化简化了模型导出到 ONNX的过程,并显著提高了与低功耗微控制器的兼容性。

在训练阶段,YOLO26集成了新颖的MuSGD优化器,它是随机梯度下降和Muon的混合体(灵感来源于Moonshot AI Kimi K2的LLM训练方法)。这弥合了大型语言模型(LLM)训练创新与计算机视觉之间的鸿沟,提供了显著更稳定的训练和更快的收敛时间。

性能与指标比较

在广泛使用的COCO 数据集上进行基准测试时,两种模型都展现出卓越的能力,但 Ultralytics 生态系统在实际推理速度和参数效率方面表现突出。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

结果分析

  • 速度与效率:因为 YOLO26 采用了免 NMS 架构和简化的损失函数,它比传统架构CPU 推理速度提升高达 43%。YOLO26n 模型在使用TensorRT的 NVIDIA T4 GPU 上以惊人的 1.7 毫秒运行,使其成为实时视频流的终极选择。
  • 准确性:YOLO26x 模型实现了无与伦比的 57.5 mAP,超越了最大的 YOLOv9e 模型,同时保持了更低的延迟。
  • 内存需求:Ultralytics 模型以其效率而闻名。与复杂的基于 Transformer 的视觉模型相比,YOLO26 在模型训练和推理期间需要显著更少的 CUDA 内存,从而允许开发人员在消费级硬件上利用更大的批次大小。

生态系统、易用性与多功能性

Ultralytics生态系统的真正优势在于其用户体验。当利用YOLOv9 GitHub代码库的研究人员必须处理复杂的环境设置和手动脚本编写时,YOLO26已完全集成到直观的Ultralytics Python API中。

简化的 API 示例

训练最先进的 YOLO26 模型只需几行Python 代码

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

无与伦比的任务多样性

与主要为标准目标检测量身定制的 YOLOv9 不同,YOLO26 原生支持开箱即用的各种 计算机视觉任务。该架构包含针对不同应用的特定增强功能:

  • 实例分割: 具有专门的语义分割损失和多尺度原型,以实现完美的像素级掩码。
  • 姿势估计: 集成残差对数似然估计 (RLE),以极高精度 track 骨骼关键点。
  • 旋转框检测 (OBB): 包含一个专门的角度损失函数,专门设计用于解决航空影像旋转物体检测中的边界问题。
  • 图像分类: 基于ImageNet标准对整个图像进行稳健分类。

集成生态系统

所有YOLO26模型都受益于与Ultralytics Platform的无缝集成,提供内置数据集标注、主动学习和即时部署管道。

真实世界的应用

在这些模型之间进行选择通常取决于它们将被部署的环境。

物联网和边缘机器人

对于机器人、自主无人机和智能家居物联网设备,YOLO26 是当之无愧的冠军ProgLoss + STAL 的集成显著改善了小目标识别,这对于高空无人机的农业监测至关重要。结合其 43% 更快的 CPU 推理速度和 NMS-free 设计,YOLO26 可以在没有专用 GPU 的硬件上流畅运行。

学术研究与梯度分析

YOLOv9在学术界仍然是一个备受推崇的模型。研究梯度流理论边界的研究人员,或寻求基于PGI概念构建自定义PyTorch层的研究人员,会发现YOLOv9的代码库是深度学习理论探索的绝佳基础。

高速制造流水线

在工业环境中,例如高速传送带上的自动化 缺陷检测,YOLO26 模型极快的 TensorRT 速度确保不会丢帧,从而最大限度地提高质量保证系统的吞吐量。

应用场景与建议

在Ultralytics YOLOv9和YOLO26之间做出选择取决于您的具体项目要求、部署限制和生态系统偏好。

何时选择 YOLOv9

YOLOv9 是以下场景的有力选择:

  • 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 架构的学术项目。
  • 梯度流优化研究:旨在理解和缓解深度网络训练过程中信息损失的研究。
  • 高精度检测基准测试:在需要YOLOv9强大的COCO基准性能作为架构比较参考点的场景。

何时选择 YOLO26

YOLO26 推荐用于:

  • 免NMS的边缘部署:需要一致的低延迟推理,且无需非极大值抑制后处理复杂性的应用。
  • 纯CPU环境:在没有专用GPU加速的设备上,YOLO26高达43%的CPU推理速度提升提供了决定性优势。
  • 小目标 detect:无人机航拍图像 或物联网传感器分析等挑战性场景中,ProgLoss 和 STAL 显著提高了微小目标的准确性。

结论

两种模型都代表了开源社区的巨大飞跃。YOLOv9对梯度流引入了重要的理论改进,这将在未来多年内启发新的架构。然而,对于寻求速度、准确性和部署便捷性完美平衡的现代开发者、初创公司和企业团队来说,Ultralytics YOLO26是明确的推荐。

通过消除NMS、引入强大的MuSGD优化器,并提供涵盖detect、segmentation和姿势估计任务的无与伦比的工具套件,YOLO26 确保您的计算机视觉项目建立在当今最可靠、面向未来的框架之上。


评论