跳转至内容

YOLO26 对比 RTDETRv2:下一代实时 detect 器的技术比较

在快速发展的计算机视觉领域,选择合适的物体 detect 模型对于平衡速度、精度和部署灵活性至关重要。本指南提供了 Ultralytics YOLO26RTDETRv2 之间的全面技术比较,这两种都是为实时性能设计的先进架构。

尽管这两种模型都利用现代创新实现了高精度,但它们在架构理念、优化策略和部署便捷性方面存在显著差异。本分析将深入探讨它们的性能指标、结构差异和理想应用场景,以帮助您为您的计算机视觉应用做出明智决策。

执行摘要

Ultralytics YOLO26代表了YOLO系列中的最新演进,于2026年1月发布。它引入了原生端到端(NMS-free)设计,消除了对非极大值抑制等后处理步骤的需求。通过移除DFL和引入新的MuSGD优化器等优化,YOLO26旨在边缘设备上实现最大效率,提供比其前身快43%的CPU推理速度。它是集成式Ultralytics生态系统的一部分,确保了训练、验证和部署的无缝衔接。

RTDETRv2(实时检测Transformer v2),由百度开发,通过改进混合编码器并引入灵活的离散查询选择,在原始RT-DETR的基础上进行了改进。它致力于将Transformer的精度优势带入实时场景。虽然它通过其Transformer架构消除了NMS,但与基于CNN或混合优化的YOLO模型相比,它通常需要更多的计算资源和GPU内存。

性能指标比较

下表重点介绍了这两种模型在COCO数据集上的性能。YOLO26展现出卓越的效率,尤其是在参数数量和推理速度方面,使其非常适合边缘AI应用。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

性能平衡

YOLO26以显著更少的参数和FLOPs实现了更高的mAP。例如,YOLO26s的性能优于RTDETRv2-s(48.6 vs 48.1 mAP),同时在T4 GPU上速度大约快2倍,并且使用的参数不到一半(9.5M vs 20M)。

架构深度解析

Ultralytics YOLO26

YOLO26引入了几项开创性的架构变革,旨在简化部署并提升速度,同时不牺牲精度。

  • 端到端NMS-Free:与传统YOLO架构相比,YOLO26是一大转变,它是原生端到端的。这种设计消除了非极大值抑制(NMS)后处理步骤,从而降低了部署时的延迟和复杂性。这种方法最早在YOLOv10中提出,并在此处进行了改进。
  • DFL移除:通过移除分布焦点损失(Distribution Focal Loss),模型结构得到简化。这一改变对于更好地兼容边缘和低功耗设备至关重要,简化了向ONNX和CoreML等格式的导出。
  • MuSGD优化器:受大型语言模型(LLM)训练创新(例如月之暗面(Moonshot AI)的Kimi K2)启发,YOLO26采用了一种结合了SGD和Muon的混合优化器。这带来了更稳定的训练动态和更快的收敛速度。
  • ProgLoss + STAL:渐进式损失平衡(Progressive Loss Balancing)和小目标感知标签分配(Small-Target-Aware Label Assignment)的结合显著改善了小目标检测,这是计算机视觉任务(例如航空影像分析)中的一个常见挑战。

了解更多关于 YOLO26 的信息

RTDETRv2

RTDETRv2建立在原始RT-DETR的基础上,这是一种基于Transformer的检测器,旨在挑战基于CNN的YOLO模型的主导地位。

  • Transformer主干网络:采用Transformer编码器-解码器架构,该架构固有地处理对象查询,无需NMS。
  • 灵活的离散查询:引入了比其前身更灵活的查询选择机制,旨在提高在不同尺度上的适应性。
  • 混合编码器:采用混合编码器处理多尺度特征,试图平衡自注意力机制的计算成本与对全局上下文的需求。

易用性与生态系统

最重要的区别之一是模型所处的生态系统。

Ultralytics YOLO26受益于成熟且广泛的Ultralytics生态系统。用户可以利用统一的API进行训练、验证和部署,涵盖多种任务,包括detectsegment分类姿势估计旋转框检测(OBB)。与Ultralytics PlatformWeights & Biases等工具的无缝集成,实现了轻松的实验跟踪和模型管理。

RTDETRv2虽然功能强大,但通常需要更复杂的设置和配置。它对特定Transformer库的依赖以及更高的内存开销,可能会让寻求“即插即用”解决方案的开发者觉得不太方便。其文档和社区支持虽然在不断增长,但通常不如Ultralytics模型所提供的丰富资源全面。

训练效率与资源

内存需求:像RTDETRv2这样的基于Transformer的模型以内存消耗大而闻名。与YOLO26的CNN优化架构相比,它们在训练和推理过程中通常需要显著更多的CUDA内存。这使得YOLO26成为在消费级GPU上训练或在资源受限硬件上部署的更实用选择。

训练速度:得益于MuSGD优化器和高效架构,YOLO26提供了更快的收敛速度。这降低了训练自定义模型所需的时间和计算成本,无论您是在处理医学影像数据集还是制造质量控制系统。

代码示例:训练 YOLO26

使用Ultralytics Python API训练YOLO26非常简单:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

用例推荐

选择 YOLO26 的理由:

  • 边缘部署是首要任务:您需要在移动设备(iOS/Android)、树莓派或嵌入式系统上运行模型,其中CPU速度和模型大小是关键限制。此处,43%更快的CPU推理速度是颠覆性的。
  • 需要多功能性:您的项目涉及多项任务。YOLO26是一个统一的模型家族,支持detect、segment、姿势估计和obb,这与主要专注于detect的RTDETRv2不同。
  • 快速开发:您希望获得精简的用户体验,拥有全面的文档、即用型预训练权重以及活跃的社区支持。
  • 小目标检测:您的应用涉及检测小目标,例如在无人机农业监测中,ProgLoss和STAL在此提供了显著优势。

选择 RTDETRv2 的理由:

  • 研究兴趣:您正在专门针对学术研究调查基于 Transformer 的架构。
  • 特定硬件:您可以使用高端服务器级 GPU(如 A100),内存开销不是主要问题,并且您明确需要基于 Transformer 的方法。

结论

尽管 RTDETRv2 展示了 Transformer 在实时 detect 中的潜力,Ultralytics YOLO26 仍然是实际、真实世界部署的卓越选择。它结合了端到端无 NMS 推理、显著降低的资源需求以及与强大 Ultralytics 生态系统的集成,使其成为开发人员和工程师的首选解决方案。无论您是构建智慧城市基础设施、自主机器人还是移动应用程序,YOLO26 都能提供速度、准确性和易用性的最佳平衡。

对于有兴趣探索 Ultralytics 系列中其他模型的用户,YOLO11 仍然是一个完全受支持且功能强大的替代方案,为许多计算机视觉任务提供了强大的基线。

模型详情

YOLO26

RTDETRv2

  • 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
  • 组织: Baidu
  • 日期: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:RT-DETR 仓库

评论