RTDETRv2 与YOLOv9 对比：实时检测变换器与卷积神经网络的比较

计算机视觉领域正经历着令人着迷的架构理念分化，主要体现在卷积神经网络（CNN）与transformer模型之间。当开发者比较YOLOv9，本质上是在权衡全局注意力机制与可编程梯度信息之间的取舍。这两种模型分别代表了各自范式的巅峰，不断拓展着实时目标检测的边界。

模型介绍

RTDETRv2：实时 detect Transformer

由百度研究人员开发的RTDETRv2在原始RT-DETR 基础上引入"自由元素袋"RT-DETR 增强了基线实时检测Transformer。该模型突破了变压器模型的传统瓶颈——推理速度问题，使其能够胜任实时应用场景。

作者： Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
组织：百度
日期： 2024-07-24
链接：Arxiv,GitHub

RTDETRv2的标志性特征在于其原生端到端NMS。通过在后处理阶段完全移除非最大抑制（NMS），该模型实现了推理延迟的稳定化，并简化了部署流程。其全局注意力机制能同时评估整个图像上下文，使模型在复杂场景理解和密集人群场景中表现卓越。

了解更多关于 RTDETRv2 的信息

YOLOv9：可编程梯度信息

YOLOv9基于卷积神经网络的高效架构，解决了深度神经网络固有的信息瓶颈问题。该架构引入了可编程梯度信息（PGI）和广义高效层聚合网络（GELAN）。

作者： Chien-Yao Wang 和 Hong-Yuan Mark Liao
组织：中央研究院信息科学研究所
日期： 2024 年 2 月 21 日
链接：Arxiv,GitHub

YOLOv9 成熟的卷积神经网络 YOLOv9 参数效率的最大化。通过在前馈过程中保留关键信息，它确保了权重更新的可靠性，从而构建出轻量级却高精度的模型。但与RTDETRv2不同YOLOv9 依赖NMS 。

了解更多关于 YOLOv9

性能与资源效率

在评估这些模型的生产部署时，平衡平均精确率（mAP）与计算成本至关重要。下表展示了它们在MSCOCO 表现。

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (毫秒)}	速度 ^{T4 TensorRT10 (毫秒)}	参数 ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

内存要求与训练效率

像RTDETRv2这样的变换器在训练过程中以内存消耗大而闻名，通常需要大量CUDA 和更长的训练周期才能完全收敛。相反，YOLOv9 Ultralytics YOLO YOLOv9 卷积神经网络架构则具有极低的内存使用量，使开发者能够在消费级硬件上使用更大的批量大小进行训练。

高效训练

为最大限度提高硬件利用率，建议Ultralytics 进行高效的云端训练。该平台可自动处理环境配置并实现最佳批次规模优化。

Ultralytics ：生态系统与易用性

虽然研究官方RTDETRv2YOLOv9 等独立存储库YOLOv9 页面具有很高的教育价值，但生产环境需要稳定性、易用性以及维护良好的生态系统。通过Ultralytics Python 这些模型，可为开发者提供无缝体验。

统一API与多功能性

Ultralytics 抽象化了数据加载、数据增强和分布式训练的复杂性。此外，虽然原始的RTDETRv2严格专注于检测任务，Ultralytics 允许用户在目标检测、实例分割和姿势估计之间轻松切换。

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

凭借完善的文档支持、自动实验追踪功能以及无缝导出至ONNX等格式的能力 ONNX等格式， TensorRT和OpenVINO Ultralytics 缩短了从原型到生产的周期。

理想用例

RTDETRv2的卓越之处

得益于其全局关注机制，RTDETRv2 成为服务器端处理和全局上下文至关重要的环境中的强大引擎。它在以下方面表现卓越：

医学影像：识别细微异常，其中环境背景至关重要。
空中监视：在高分辨率无人机影像中识别小型物体，同时避免传统卷积神经网络卷积操作的空间偏差。
密集人群分析：追踪个体时，严重遮挡通常会使基于锚点的模型产生混淆。

YOLOv9 之处

YOLOv9 资源受限边缘部署的优选方案。其卓越的计算效率使其成为以下场景的理想选择：

机器人技术：实时导航与障碍物规避，要求极低延迟。
智能城市物联网：在NVIDIA 等边缘设备上部署交通监控系统。
工业检测：高速装配线质量控制需要高帧率（FPS）。

未来：Ultralytics YOLO26登场

尽管YOLOv9 实现了重大飞跃，但技术格局已迅速演变。对于现代部署场景，新发布的 Ultralytics 完美融合了两种架构理念的精髓。

通过融合变换器和卷积神经网络的优势，YOLO26树立了新的标杆：

端到NMS设计：与RTDETRv2类似，YOLO26天生具备端到端特性，彻底消除了NMS ，从而实现更快、更简洁且高度可预测的部署流程。
MuSGD优化器：受大型语言模型（LLM）训练技术（如Moonshot AI的Kimi K2）启发，YOLO26采用SGD 的混合方案。这为计算机视觉领域带来了无与伦比的训练稳定性与快速收敛能力。
最高可提升43%CPU ：与笨重的变压器模型不同，YOLO26针对边缘计算和无GPU设备进行了深度优化。
DFL消除：消除分布式焦点损失（DFL）可显著简化模型图，确保向低功耗边缘设备和嵌入式神经处理单元（NPU）的无缝导出。
ProgLoss + STAL：这些改进的损失函数显著提升了小目标识别能力，这对物联网和航空数据集至关重要。

对于计划启动新计算机视觉项目的团队，我们强烈建议评估YOLO26。它兼具transformer NMS优雅特性transformer 高度YOLO 带来的极致速度与训练效率。

了解更多关于 YOLO26 的信息

总结

在YOLOv9 之间进行选择YOLOv9 取决于您的部署硬件和具体精度需求。RTDETRv2为服务器端应用提供顶尖的精度和上下文感知能力，而YOLOv9 则为边缘设备YOLOv9 卓越的效率表现。

然而，借助Ultralytics ，开发者可轻松尝试这两种方法。此外，随着新型模型如 YOLO11 和原生端到端YOLO26等新型模型，在高速推理、多功能任务支持和低内存消耗之间找到完美平衡变得前所未有的简单。