YOLO RTDETRv2:实时检测架构对比
选择最优目标检测架构是影响从推理延迟到部署成本等所有环节的关键决策。YOLO 百度的RTDETRv2这两款创新模型正挑战着行业现状。YOLO 神经网络架构搜索(NAS)与高效重参数化技术,后者则通过优化DETR范式,不断拓展实时变换器的技术边界。
本指南通过深入的技术分析,探讨了这些模型的架构、性能指标及训练方法,助您确定最符合特定计算机视觉需求的模型。我们还将探索新一代 Ultralytics 如何将这些方法的优势融合为统一且易用的框架。
DAMO-YOLO 概述
YOLO 蒸馏增强型神经架构搜索YOLO)由阿里巴巴集团开发,旨在满足工业应用中对低延迟与高精度不可妥协的特定需求。该技术通过一系列创新方案实现模型压缩,同时确保性能不受影响。
作者: 徐宪哲、蒋一奇、陈卫华、黄一伦、张远和孙秀宇
组织: 阿里巴巴集团
日期: 2022 年 11 月 23 日
Arxiv:DAMO-YOLO 论文
GitHub:tinyvision/DAMO-YOLO
主要架构创新
DAMO-YOLO凭借多项专为效率优化的"免费工具包"YOLO :
- 神经网络架构搜索(NAS):与采用人工设计的骨干网络模型不同YOLO 发现最优骨干网络结构(MAE-NAS),在浮点运算量(FLOPs)与准确率之间实现最优权衡。
- 高效RepGFPN:该模型采用基于再参数化的广义特征金字塔网络(RepGFPN),使训练阶段使用的复杂结构能在推理阶段融合为更简单、更快速的卷积操作。
- 零头:一种轻量级检测头,可最大限度减轻通常与最终预测层相关的计算负担。
- 对齐式OTA:一种优化的标签分配策略,可在训练过程中解决分类与回归任务间的错位问题。
RTDETRv2概述
RTDETRv2(实时检测Transformer )在RT-DETR成功基础上进一步发展,该模型作为首个真正能在速度上YOLO 抗衡transformer检测器,由百度研发。其目标在于消除对非最大抑制(NMS)后处理的需求,同时提升收敛速度与灵活性。
作者:吕文宇、赵一安、常勤耀、黄奎、王冠中、刘毅
机构:百度
日期:2023年4月17日(v1),2024年7月(v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
主要架构创新
RTDETRv2 针对实际视觉任务优化了transformer :
- 混合编码器:它将卷积神经网络(CNN)骨干与高效混合编码器相结合,该编码器将尺度内交互与尺度间融合解耦,从而解决了标准自我注意机制的高计算成本问题。
- IoU查询选择:该机制基于交并比(IoU)得分筛选高质量初始目标查询,从而加速训练收敛。
- 灵活部署:与前代产品不同,RTDETRv2支持灵活的输入形状,并针对TensorRT进行了优化改进。 TensorRT的优化,使其更适用于多样化的硬件后端。
- NMS:通过直接预测一组目标,消除了由NMS(最小二乘法)引起的延迟波动,这对实时视频分析具有关键优势。
性能对比
在比较这些架构时,关键要考察不同硬件配置下平均精确率(mAP)与推理速度之间的平衡。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
分析
- 准确性:RTDETRv2通常能获得mAP 尤其在中型和大型变体中表现突出。"X"模型达到令人瞩目的54.3%mAP超越YOLO 的最大YOLO 。这使其适用于需要高保真检测的应用场景,例如医学影像或缺陷检测。
- 速度:YOLO 在原始吞吐量方面YOLO TensorRT 硬件上展现出卓越的原始吞吐量。其重新参数化的卷积神经网络架构,相较于RTDETRv2中的transformer ,天生更具硬件友好性,使得"Tiny"和"Small"版本的延迟更低。
- 参数效率:在同等性能层级下YOLO 具有更少的参数,这对存储受限的边缘设备具有优势。
Ultralytics 优势:为何选择 YOLO26?
YOLO 独特优势,开发者仍常面临复杂训练流程、平台支持有限及文档分散等难题。Ultralytics 通过将前沿创新技术整合至无缝衔接的用户中心生态系统,有效解决了这些痛点。
卓越融合
YOLO26将卷积神经网络的速度优势与变压器的端到端简洁性相结合,提供NMS架构设计,在简化部署的同时,GPU CPU 超越前代模型。
1. 卓越的用户体验与生态系统
Ultralytics 的标志性特征是 易用性尽管研究仓库通常需要复杂的环境配置,YOLO26却能通过 ultralytics 包。 Ultralytics Platform 通过提供基于网络的数据集管理、一键式训练和自动化部署,进一步增强了这一能力。
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2.NMS架构
YOLO26采用原生端到NMS,该特性与RTDETRv2相同,但其在高度优化的卷积神经网络框架内实现。这一突破性设计消除了部署管道中的常见瓶颈——非最大抑制(NMS)的需求。通过移除NMS,YOLO26确保了稳定的推理时间,并简化了与OpenVINO等工具的集成。 OpenVINO 和CoreMLML等工具的集成。
3. 训练效率与稳定性
YOLO26引入了MuSGD优化器——一种融合SGD (受LLM训练启发)的混合算法,为视觉任务带来了前所未有的稳定性。相较于RTDETRv2等transformer模型常需采用的复杂调优方案,该算法能实现更快的收敛速度并减少超参数调试工作量。
4. 边缘优先优化
对于部署在树莓派或NVIDIA 等边缘设备的开发者而言,YOLO26可提供最高达43CPU 加速。通过移除分布式焦点损失(DFL),模型图在导出时得到进一步简化,相较于变压器中计算密集型注意力机制,该方案能确保与低功耗加速器的更佳兼容性。
5. 跨任务的灵活性
与许多专用检测器不同,YOLO26 是一个真正的多任务学习器。它在单一代码库内支持目标检测、实例分割、姿势估计 、分类以及定向边界框(旋转框检测)任务。
用例推荐
- 选择YOLO :YOLO 您仅从事工业检测任务,且部署目标仅限于特定NVIDIA 上的TensorRT ,同时需要为简单检测任务实现绝对最低延迟时。
- 选择RTDETRv2的情形:当您需要对存在遮挡的复杂场景进行高精度检测,且具备可承受变换器计算成本的强大GPU时。若您严格要求NMS推理但偏好transformer ,该模型也是理想选择。
- Ultralytics 理由:您需要兼具顶尖性能与前沿精度的全能解决方案,NMS高速部署,并能轻松CPU、GPU。其完善的文档体系、活跃的社区Ultralytics 深度集成,使其成为生产环境中最具未来保障性的选择。
结论
物体检测领域拥有丰富的技术选择。YOLO展现了神经架构搜索在提升效率方面的强大能力,而RTDETRv2则彰显了实时变换器的潜力。然而Ultralytics 通过融合这些技术突破脱颖而出——它实现了NMS推理、边缘优化的速度以及受大型语言模型启发的训练稳定性,所有这些优势都融入了业内最开发者友好的生态系统之中。
对于准备启动新项目的开发者而言,探索YOLO26文档是实现顶尖技术成果且阻力最小的推荐首选步骤。