跳转至内容

YOLO26 与 YOLOv9:实时目标检测的下一次演进

计算机视觉领域发展迅速,新架构不断突破速度和准确性的极限。在本次技术比较中,我们将探讨YOLO26YOLOv9这两种在实时目标检测领域极具影响力的模型之间的差异。尽管这两个模型都提供了独特的架构创新,但了解它们的性能权衡、部署能力和硬件要求对于为您的下一个视觉项目选择合适的工具至关重要。

YOLO26:边缘优化型强大引擎

于2026年初发布,Ultralytics YOLO26 代表着部署效率和模型训练稳定性方面的代际飞跃。它被设计为一个原生的端到端框架,直接解决了历史上困扰边缘 AI 应用的部署瓶颈。

模型详情:

架构与创新

YOLO26 通过引入 端到端免 NMS 设计,从根本上重新设计了后处理流水线。通过消除对非极大值抑制 (NMS) 的需求,模型实现了显著降低的延迟波动性。这使得部署到移动和边缘平台变得更加容易,尤其是在导出到 ONNXApple CoreML 等框架时。

此外,移除分布焦点损失 (DFL) 简化了导出过程,并提高了与低功耗微控制器的兼容性。为了提高训练稳定性,YOLO26 集成了新颖的MuSGD 优化器,它是随机梯度下降 (SGD) 和 Muon(灵感来自大型语言模型训练的创新)的混合体。这使得在困难数据集上实现更快的收敛和更鲁棒的特征提取。

边缘设备推理

得益于架构简化和 DFL 的移除,YOLO26 实现了高达 43% 更快的 CPU 推理速度,使其成为 Raspberry PiNVIDIA Jetson Nano 等资源受限边缘设备的理想选择。

对于无人机航空影像等场景中极具挑战性目标的detect,YOLO26采用了更新的ProgLoss + STAL损失函数。这些函数在小目标识别召回率方面提供了显著改进。此外,它还拥有任务特定的增强功能,包括用于实例segment的多尺度原型、用于姿势估计的残差对数似然估计(RLE),以及用于detect旋转框检测(OBB)的专用角度损失。

了解更多关于 YOLO26 的信息

YOLOv9:可编程梯度信息

YOLOv9 于2024年初推出,在神经网络训练阶段处理梯度流的方式上带来了理论上的进步,侧重于参数效率和深层特征保留。

模型详情:

架构与优势

YOLOv9 围绕可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)的概念构建。这些概念解决了深度神经网络中常见的信息瓶颈问题。通过在前向传播过程中保留基本信息,GELAN 确保用于权重更新的梯度保持可靠。这种架构提供了高准确性,使 YOLOv9 成为使用PyTorch框架进行神经网络理论和梯度路径优化学术研究的有力候选者。

局限性

尽管 YOLOv9 具有出色的参数效率,但它严重依赖传统的 NMS 进行边界框后处理,这在边缘设备上进行推理时可能会造成计算瓶颈。此外,官方仓库主要侧重于目标 detect,需要大量的定制工程才能使其适应 track 或姿势估计等专业任务。

了解更多关于 YOLOv9

性能对比

在评估这些模型用于实际部署时,平衡准确性 (mAP)、推理速度和内存使用量至关重要。Ultralytics模型以其在训练和推理过程中对内存的低要求而闻名,所需的CUDA memory远少于像RT-DETR这样的基于Transformer的替代方案。

下方是 YOLO26 和 YOLOv9 在 COCO 数据集上的性能直接对比。每列中的最佳值以 粗体 突出显示。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

注:YOLOv9 的 CPU 速度已省略,因为它们会根据 NMS 配置而有很大差异,并且通常比 YOLO26 原生的无 NMS 实现更慢。

应用场景与建议

在YOLO26和YOLOv9之间选择取决于您具体的项目需求、部署限制和生态系统偏好。

何时选择 YOLO26

YOLO26 是以下场景的理想选择:

  • 免NMS的边缘部署:需要一致的低延迟推理,且无需非极大值抑制后处理复杂性的应用。
  • 纯CPU环境:在没有专用GPU加速的设备上,YOLO26高达43%的CPU推理速度提升提供了决定性优势。
  • 小目标 detect:无人机航拍图像 或物联网传感器分析等挑战性场景中,ProgLoss 和 STAL 显著提高了微小目标的准确性。

何时选择 YOLOv9

YOLOv9 推荐用于:

  • 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 架构的学术项目。
  • 梯度流优化研究:旨在理解和缓解深度网络训练过程中信息损失的研究。
  • 高精度检测基准测试:在需要YOLOv9强大的COCO基准性能作为架构比较参考点的场景。

Ultralytics 优势

选择模型不仅仅是阅读准确率基准;周围的软件生态系统决定了您从数据收集到生产的速度。

易用性与生态系统

字段 Ultralytics Python API 提供无缝的“从零到精通”体验。开发者无需克隆复杂的代码库或手动配置分布式训练脚本,即可通过以下方式安装软件包 pip 并立即开始训练。积极维护的 Ultralytics生态系统 确保频繁更新,并与机器学习平台(如)进行自动化集成 Weights & Biases,以及丰富的文档。

其他Ultralytics模型

如果您有兴趣探索 Ultralytics 生态系统中的其他模型,您可能还会考虑比较YOLO11或经典的YOLOv8,两者都为自定义应用提供了卓越的灵活性。

在视觉任务中的多功能性

尽管YOLOv9主要是一个检测引擎,但YOLO26是一个通用视觉工具。使用统一的语法,您可以轻松地从目标检测转向像素级精确的图像分割或全图像分类。这种多功能性减少了维护针对不同计算机视觉功能的多个独立代码库所产生的技术债务。

高效训练与部署

训练效率是 Ultralytics 理念的基石。YOLO26 利用现成的预训练权重,并与笨重的视觉 Transformer 相比,内存占用显著降低。训练完成后,内置的导出管道支持一键转换为 TensorRTTensorFlow Lite 等优化格式,从而简化了生产部署流程。

代码示例:YOLO26 入门

实现YOLO26非常简单直观。以下python代码片段演示了如何加载预训练模型、在自定义数据上训练它,以及使用Ultralytics API运行推理。

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

通过利用 YOLO26 的速度、简化架构和强大生态系统,团队可以比以往更快地将先进的视觉 AI 应用推向市场,并减少技术障碍。


评论