跳转至内容

RTDETRv2 与 YOLO26:下一代目标检测器的技术比较

为您的计算机视觉项目选择合适的目标检测模型,通常需要在复杂的架构选择、速度-精度权衡和部署限制之间进行权衡。本指南将对来自百度的实时检测Transformer RTDETRv2 和 Ultralytics YOLO 系列的最新演进 YOLO26 进行深入的技术比较。我们将分析它们的架构、性能基准和理想应用场景,以帮助您做出明智的决策。

执行摘要

截至2026年,这两种模型都代表了实时检测的前沿。RTDETRv2 通过其注意力机制,尤其是在复杂场景中,提供了出色的精度,持续拓展基于Transformer的检测的边界。YOLO26 于2026年1月发布,通过采用原生的端到端无NMS设计,彻底改变了YOLO系列,显著提升了在CPU上的推理速度并简化了部署,同时保持了最先进的精度。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2:精进实时 Transformer 模型

RTDETRv2 建立在初代RT-DETR的成功之上,RT-DETR是首个在实时场景中真正挑战YOLO模型的基于Transformer的检测器。由百度开发,它专注于优化Vision Transformer (ViT) 架构,以实现实际的速度和精度。

架构亮点

RTDETRv2 的核心创新在于其灵活的混合编码器和高效的查询选择。与传统的基于CNN的检测器不同,它利用自注意力机制来捕获全局上下文,这对于检测具有复杂关系或遮挡的物体特别有益。v2更新引入了“Bag-of-Freebies”,在不增加推理成本的情况下提高了训练稳定性和性能。它采用离散采样策略进行查询,使模型能够专注于最相关的图像区域。

性能与训练

RTDETRv2 在精度方面表现出色,在需要高精度的场景中,通常超越前几代YOLO。然而,这并非没有代价。与CNN相比,Transformer架构在训练期间通常需要显著更多的GPU内存和计算资源。虽然在强大的GPU(如NVIDIA T4)上推理速度可达“实时”,但在仅限CPU的设备或边缘硬件上可能会遇到困难,因为Transformer操作的优化程度低于卷积操作。

主要作者:Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
组织:百度
日期:2024年7月 (Arxiv v2)
链接:Arxiv | GitHub

了解更多关于 RT-DETR 的信息

YOLO26:端到端边缘计算利器

YOLO26 代表了 Ultralytics 的一次重大架构转变。它放弃了对传统非极大值抑制(NMS)的依赖,转而采用原生的端到端架构。这一设计选择解决了目标检测部署中长期存在的瓶颈之一:后处理的延迟和复杂性。

架构创新

YOLO26的架构为提高效率和通用性而精简:

  • 端到端无NMS:通过在训练期间预测一对一匹配,YOLO26消除了对NMS推理步骤的需求。这减少了延迟的不确定性,并简化了部署流程,尤其是在FPGA或NPU等非标准硬件上。
  • 移除DFL:移除了分布焦点损失(DFL),简化了输出头,使模型更容易导出到ONNX和CoreML等格式,同时提高了与8位量化的兼容性。
  • MuSGD优化器:受大型语言模型(LLM)训练创新(如月之暗面Kimi K2)的启发,YOLO26采用结合了SGD和Muon的混合优化器。这带来了更快的收敛速度和更稳定的训练过程。
  • ProgLoss + STAL:新的损失函数——渐进式损失平衡和小目标感知标签分配——专门针对小目标检测,这是单阶段检测器的一个传统弱点。

性能与通用性

YOLO26 在速度和精度之间取得了引人注目的平衡。YOLO26n (nano) 模型在CPU上的运行速度比以前的版本快43%,使其成为移动和物联网应用的顶级选择。此外,YOLO26是一个统一的模型家族;用户可以使用相同的API在目标检测实例分割姿势估计分类旋转框检测 (OBB)任务之间无缝切换。

主要作者:Glenn Jocher and Jing Qiu
组织:Ultralytics
日期:2026年1月14日
链接:Ultralytics 文档 | GitHub

了解更多关于 YOLO26 的信息

详细比较

1. 边缘设备上的速度与效率

这是最显著的区别。RTDETRv2严重依赖矩阵乘法,这在GPU上表现良好,但在CPU上可能成为瓶颈。YOLO26凭借其基于CNN的主干网络和无NMS头部,在资源受限设备上效率显著更高。例如,YOLO26n模型在标准CPU上实现了38.9毫秒的延迟,而基于Transformer的模型在没有专用加速的情况下,通常难以实现实时性能。

边缘部署

对于部署到树莓派、Jetson Nano或移动设备上,YOLO26通常是更优的选择,因为它具有优化的操作集和更低的内存占用。它移除了DFL,进一步简化了导出到TFLiteCoreML的过程。

2. 训练资源需求

Ultralytics 模型以其高效的训练循环而闻名。与 RTDETRv2 相比,YOLO26 训练所需的 VRAM 大幅减少。Transformer 模型通常需要较大的批量大小和漫长的训练计划才能收敛,这意味着更高的云端计算成本。YOLO26 的 MuSGD 优化器进一步加速了这一过程,使研究人员即使在单 GPU 设置下也能更快地进行迭代。

3. 任务通用性

虽然 RTDETRv2 主要专注于目标 detect,但 YOLO26 生态系统本质上是多任务的。

  • RTDETRv2: 非常适合边界框 detect。
  • YOLO26: 原生支持 detect、segment、姿势估计、obb 和分类。这使得 YOLO26 成为开发者的“瑞士军刀”,他们可能需要在不改变整个软件堆栈的情况下,从 detect 边界框转向 segment 掩码或估计关键点。

4. 生态系统与易用性

Ultralytics 生态系统在开发者体验方面提供了显著优势。凭借统一的 python 包、详尽的文档以及与 Weights & BiasesRoboflow 等工具的无缝集成,将 YOLO26 模型从数据集部署到实际应用变得轻而易举。RTDETRv2 虽然功能强大,但通常需要更多手动配置,对于不熟悉 Transformer 架构的用户来说,学习曲线更为陡峭。

代码示例:运行 YOLO26

Ultralytics API 的简洁性支持即时测试和集成。

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

结论

这两种模型都是计算机视觉领域的卓越成就。RTDETRv2 是高端 GPU 部署的有力竞争者,在这些场景中,复杂场景下的最高精度至关重要,且 Transformer 的计算成本可接受。

然而,对于绝大多数实际应用而言,YOLO26 是推荐的全能型选手。其免 NMS 端到端设计、卓越的 CPU 性能、更低的 内存需求以及对多种视觉任务的支持,使其成为工程师构建可扩展、高效和多功能 AI 系统的实用选择。无论您是部署到服务器集群还是智能相机,YOLO26 都能提供难以超越的均衡性能。

其他值得考虑的模型

  • YOLO11 YOLO26 的可靠前身,仍被广泛使用并获得全面支持。
  • YOLO-World 非常适合开放词汇 detect,您可以在其中 detect 训练集中不存在的对象。
  • FastSAM 如果您特别需要具有实时速度的 segment-anything 功能。

评论