RTDETRv2 与 DAMO-YOLO:深入探讨实时物体检测
计算机视觉领域发展迅速,研究人员不断挑战推理速度和检测精度之间的极限。在这一领域的两个主要竞争者是百度的transformer的模型 RTDETRv2 和阿里巴巴的高度优化卷积网络 DAMO-YOLO。本技术比较探讨了这些模型的不同架构理念、性能指标和理想应用场景。
性能基准:速度与精度
在选择对象检测模型时,主要权衡因素通常是平均精度mAP)和延迟。以下数据突出显示了 RTDETRv2 和YOLO 在COCO 验证数据集上的性能差异。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
数据显示了设计理念的明显区别。YOLO 优先考虑原始速度和效率,其 "Tiny "变体实现了极低的延迟,适合受限的边缘计算环境。相反,RTDETRv2 则追求最高精度,其最大的变体达到了54.3mAP,这使它在精度要求极高的任务中更胜一筹。
RTDETRv2:Transformer 动力室
RTDETRv2 以成功的检测Transformer (DETR)架构为基础,解决了通常与视觉转换器相关的高计算成本问题,同时保持了其捕捉全局上下文的能力。
- 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
- 组织机构:百度
- 日期:2023-04-17(初始),2024-07-24(第 2 版更新)
- Arxiv:RT-DETRv2:使用 "垃圾袋 "改进基线
- GitHub:RT-DETRv2 资源库
架构和能力
RTDETRv2 采用混合编码器,可高效处理多尺度特征。与传统的基于 CNN 的YOLO 模型不同,RTDETR 无需进行非最大抑制 (NMS)后处理。这种端到端方法简化了部署管道,减少了拥挤场景中的延迟变化。
与标准 DETR 模型相比,该模型采用了高效的混合编码器,将尺度内交互和跨尺度融合分离开来,大大减少了计算开销。这种设计使它能够在复杂环境中出色地识别物体,而在这种环境中,遮挡可能会混淆标准卷积检测器。
Transformer 内存使用情况
RTDETRv2 具有很高的精度,但需要注意的是 Transformer架构在训练过程中消耗的CUDA 内存要比 CNN 多得多。与YOLO11 等高效替代方案相比,GPU VRAM 有限的用户可能会发现训练这些模型具有挑战性。
DAMO-YOLO:优化效率
YOLO 代表了一种严格的架构优化方法,它利用神经架构搜索(NAS)来找到最有效的特征提取和融合结构。
- 作者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang 和 Xiuyu Sun
- 组织机构阿里巴巴集团
- 日期: 2022-11-23
- Arxiv:DAMO-YOLO:实时物体检测设计报告
- GitHub:YOLO 资源库
主要建筑创新
YOLO 集成了多项先进技术,最大限度地实现了速度与精度之间的权衡:
- MAE-NAS 主干网:它采用了通过方法感知高效神经架构搜索发现的主干,确保每个参数都能有效促进特征提取。
- RepGFPN:一种专门的颈部设计,能以最低的计算成本融合不同尺度的特征,在不影响推理速度的情况下增强对小物体的检测。
- ZeroHead:简化的检测头,降低了最终预测层的复杂性。
在需要高吞吐量的场景中,如工业装配线或高速交通监控等以毫秒为单位的场景中,这种模式尤其强大。
真实世界应用场景
在这两种模式之间做出选择,往往取决于部署环境的具体限制因素。
何时选择 RTDETRv2
RTDETRv2 是精度要求高且硬件资源充足的应用的首选。
- 医学影像:在医学图像分析中,漏检(假阴性)会造成严重后果。RTDETRv2 的高mAP 使其适用于检测 X 射线或核磁共振扫描中的异常。
- 细节监控:对于需要进行面部识别或远距离小细节识别的安全系统,transformer 架构的全局上下文功能具有明显的优势。
何时选择YOLO
YOLO 在资源有限的环境或需要超低延迟的应用中大显身手。
- 机器人:对于在电池供电的嵌入式设备上处理视觉数据的自主移动机器人而言,DAMO-YOLO 的高效性可确保实时响应。
- 高速制造:在制造自动化中,检测快速移动传送带上的缺陷需要YOLO 微型和小型变体提供的快速推理速度。
Ultralytics 的优势:为什么YOLO11 是最佳选择
虽然 RTDETRv2 和YOLO 提供了引人注目的功能、 Ultralytics YOLO11提供了兼顾性能、可用性和生态系统支持的整体解决方案,使其成为大多数开发人员和研究人员的最佳选择。
无与伦比的生态系统和可用性
采用研究模型的最大障碍之一是其代码库的复杂性。Ultralytics 通过统一、用户友好的Python API 消除了这一障碍。无论您是在执行实例分割、姿势估计 还是分类,工作流程都保持一致和直观。
from ultralytics import YOLO
# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
适用于各种任务
与主要侧重于检测的YOLO 不同,YOLO11 是一个多功能平台。它支持多种计算机视觉任务,包括对航空图像和文档分析至关重要的定向边框检测(旋转框检测)。这种多功能性使团队能够针对多个项目的要求对单一框架进行标准化。
培训效率和内存管理
YOLO11 的设计旨在提高效率。与 RTDETRv2 等transformer模型相比,它通常需要更少的GPU 内存(VRAM)来进行训练。这种效率降低了硬件门槛,使开发人员能够在消费级 GPU 上训练最先进的模型,或通过Ultralytics 生态系统有效利用云资源。此外,广泛的预训练权重库确保了迁移学习的快速性和有效性,大大缩短了人工智能解决方案的上市时间。
适用于那些寻求稳健、维护良好、高性能且与行业同步发展的解决方案的用户、 Ultralytics YOLO11仍然是值得推荐的标准。
探索其他比较
要进一步了解这些模型如何融入更广泛的计算机视觉领域,请浏览这些相关比较:
- YOLO11 vs. RTDETR
- YOLO11 vs DAMO-YOLO
- YOLOv8 vs. RTDETR
- YOLOv8 vs. DAMO-YOLO
- EfficientDet 与 DAMO-YOLO
- PP-YOLOE vs. RTDETR