Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 与 RTDETRv2:现代目标检测的技术深度解析#

近年来,实时 目标检测 领域经历了范式转移。两种截然不同的架构理念已成为该领域的主导:高度优化的卷积神经网络 (CNN) 和实时检测 Transformer (DETR)。代表这两种方法巅峰的分别是 YOLOv9RTDETRv2

本综合指南将对比这两款强大的模型,分析它们的架构创新、性能指标 以及理想的部署场景,以帮助你为你的 计算机视觉 流水线选择合适的模型。

Link to this section执行摘要#

这两款模型都取得了业界领先的成果,但它们分别适用于略有不同的部署约束和开发生态系统。

  • 选择 YOLOv9,如果: 你需要极高的参数利用效率和边缘设备上的快速推理。YOLOv9 推向了 CNN 效率的理论极限,使其成为计算资源受限环境的理想选择。
  • 选择 RTDETRv2,如果: 你需要 Transformer 提供的细致上下文理解能力,特别是在存在严重遮挡或复杂对象关系的场景中,并且你拥有支持较重架构的硬件。
  • 选择 YOLO26(推荐),如果: 你想要兼顾两者的绝对优势。作为 Ultralytics Platform 上推出的最新一代产品,YOLO26 具备原生的 端到端无 NMS 设计(类似于 DETR 模型,但速度快得多),消除了后处理瓶颈,并比前几代产品在 CPU 推理速度上提升了高达 43%。

Link to this section技术规格与作者信息#

了解这些模型的起源和设计意图,可以为理解其架构选择提供至关重要的背景信息。

Link to this sectionYOLOv9#

作者: Chien-Yao Wang 和 Hong-Yuan Mark Liao
机构: Institute of Information Science, Academia Sinica
日期: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

了解更多关于 YOLOv9 的信息

Link to this sectionRTDETRv2#

作者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, 和 Yi Liu
机构: Baidu
日期: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

了解更多关于 RTDETR 的信息

Link to this section架构创新#

Link to this sectionYOLOv9:解决信息瓶颈#

Ultralytics YOLOv9 引入了两个主要创新,旨在解决数据在深度神经网络中传递时的信息丢失问题:

  1. 可编程梯度信息 (PGI): 这种辅助监督框架确保生成可靠的梯度来更新网络权重,即使在极深的网络层中也能保留关键的特征信息。
  2. 通用高效层聚合网络 (GELAN): 一种结合了 CSPNet 和 ELAN 优点的创新架构。GELAN 优化了参数效率,使 YOLOv9 相比传统 CNN 能以更少的 FLOPs 实现更高的精度。

Link to this sectionRTDETRv2:增强实时 Transformer#

在原始 RT-DETR 成功的基础上,RTDETRv2 利用基于 Transformer 的架构,从本质上避免了对非极大值抑制 (NMS) 的需求。其改进包括:

  1. Bag-of-Freebies 策略: v2 迭代结合了先进的训练技术和数据增强手段,在不增加推理延迟的情况下显著提升了准确度。
  2. 高效混合编码器: 通过解耦的尺度内和跨尺度注意力机制处理多尺度特征,RTDETRv2 有效地管理了 Vision Transformer 传统上极高的计算成本。
原生端到端检测

虽然 RTDETRv2 利用 Transformer 实现无 NMS 检测,但全新的 YOLO26 架构 在高度优化的 CNN 结构中原生实现了这一点,在提供相同的精简部署的同时,带来了卓越的边缘推理速度。

Link to this section性能比较#

在评估生产环境下的模型时,准确度 与计算需求之间的权衡至关重要。下表概述了不同模型大小在基准测试中的性能表现。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this section分析#

如数据显示,YOLOv9 在参数效率方面保持了严格的优势。YOLOv9c 模型在仅有 25.3M 参数的情况下实现了令人印象深刻的 53.0 mAP,使其极其轻量化。

相反,RTDETRv2 在中型到大型模型类别中提供了强大的竞争力。然而,这是以更高的参数量和显著更大的 FLOPs 为代价的,这是 Transformer 模型 的典型特征。这种架构差异也转化为了内存使用情况:相比其 Transformer 对标产品,YOLO 模型在训练和推理期间通常需要明显更少的 CUDA 内存。

Link to this sectionUltralytics 优势:生态系统与多功能性#

虽然纯架构指标很重要,但软件生态系统往往决定了 AI 项目的成败。通过 Ultralytics Python API 使用这些先进模型提供了无可比拟的优势。

Link to this section简化的训练与部署#

训练检测 Transformer 通常需要复杂的配置文件和高端 GPU。通过利用 Ultralytics 框架,开发者可以使用相同且简单的语法训练 YOLOv9 和 RTDETR 模型,从而受益于高效的训练流水线和现成的预训练权重。

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

Link to this section无与伦比的任务多功能性#

RTDETRv2 等专业模型的一个主要局限是它们只专注于边界框检测。相比之下,更广泛的 Ultralytics 生态系统(包含 YOLO11YOLOv8 等模型)支持各种 计算机视觉任务。这包括像素级的 实例分割、骨架 姿态估计、整图 分类 以及针对航空影像的 旋转边界框 (OBB) 检测。

Link to this section实际应用场景#

Link to this section高速边缘分析#

对于需要在边缘设备上进行实时产品识别的零售环境或生产线,YOLOv9 是更优选择。其 GELAN 架构 确保了在 NVIDIA Jetson 系列等受限硬件上的高吞吐量,从而实现无明显延迟的自动化质量控制。

Link to this section复杂场景分析#

在诸如密集人群监控或复杂交通路口等对象频繁发生相互遮挡的场景中,RTDETRv2 的全局注意力机制表现出色。该模型对整个图像上下文进行原生推理的能力,使其即使在对象被部分隐藏的情况下也能保持稳健的追踪和检测。

Link to this section应用场景与建议#

在 YOLOv9 和 RT-DETR 之间进行选择,取决于你的具体项目需求、部署限制和生态系统偏好。

Link to this section何时选择 YOLOv9#

YOLOv9 是以下场景的有力选择:

  • 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
  • 梯度流优化研究: 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
  • 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。

Link to this section何时选择 RT-DETR#

推荐使用 RT-DETR 的场景为:

  • 基于 Transformer 的检测研究: 探索注意力机制和 Transformer 架构以实现无 NMS 的端到端目标检测的项目。
  • 高精度、延迟要求宽松的场景: 将检测精度置于首位,且可以容忍稍高推理延迟的应用。
  • 大目标检测: 以中大型目标为主的场景,在这种场景下,Transformer 的全局注意力机制具有天然优势。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section未来展望:YOLO26 的到来#

虽然 YOLOv9 和 RTDETRv2 代表了巨大的成就,但 计算机视觉 领域发展迅速。对于寻求启动新项目的开发者而言,YOLO26 是目前推荐的最先进解决方案。

YOLO26 于 2026 年发布,集成了 CNN 和 DETR 的最佳特性。它具备 端到端无 NMS 设计,完全消除了后处理延迟——这是一种首先在 YOLOv10 中开创的技术。此外,YOLO26 为了更好的边缘兼容性去除了分布焦点损失 (DFL),并引入了革命性的 MuSGD 优化器。该混合优化器受到大型语言模型训练(特别是 Moonshot AI 的 Kimi K2)的启发,确保了前所未有的训练稳定性和更快的收敛速度。

结合 ProgLoss 和 STAL 等改进的损失函数以实现出色的细小目标识别,YOLO26 提供了高达 43% 的 CPU 推理速度提升,巩固了其作为现代 AI 部署终极模型的地位。

评论