YOLOv5 与 RTDETRv2:详细技术比较
选择最佳物体检测模型是计算机视觉项目的关键决策。Ultralytics 提供多种模型,以满足各种项目需求。本页提供了 Ultralytics YOLOv5和RTDETRv2 之间的技术比较,强调它们的架构区别、性能基准以及对不同应用的适用性。
YOLOv5:优化速度和效率
Ultralytics YOLOv5是一种被广泛采用的单级对象检测器,以其快速的推理速度和运行效率而著称。YOLOv5 的架构由以下部分组成:
- 骨干网:CSPDarknet53,负责特征提取。
- 颈部:PANet,用于特征融合。
- 云台: YOLOv5 云台,专为探测任务设计。
YOLOv5 有多种尺寸(n、s、m、l、x)可供选择,用户可根据自己的具体要求在速度和精度之间取得平衡。
优势:
- 推理速度: YOLOv5 在速度方面表现出色,是安全警报系统等实时应用的绝佳选择。
- 效率: YOLOv5 型号结构紧凑,所需计算资源较少,适合Raspberry Pi和NVIDIA Jetson 等边缘部署。
- 多功能性:可适应各种硬件环境,包括资源有限的设备。
- 用户友好性:文档齐全,使用Ultralytics Python 软件包和Ultralytics HUB 便可直接实施。
弱点
- 精度权衡:在实现高精度的同时,RTDETRv2 等大型模型可能会提供更优越的 mAP,尤其是在复杂场景中。
理想的使用案例
- 实时物体检测场景,包括视频监控和交通管理中的人工智能。
- 边缘计算和移动部署。
- 需要快速处理的应用,如机器人(ROS Quickstart)和自动驾驶汽车。
RTDETRv2:高精度实时检测变压器
RTDETRv2(Real-Time Detection Transformer v2)是一种先进的物体检测模型,以高精度和实时性为优先考虑。它是在题为"RT-DETRv2:RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer"的论文中介绍的,作者是来自百度的吕文宇、赵一安、常钦尧、黄奎、王冠中和刘毅。RTDETRv2 基于视觉转换器(ViT)架构,在要求精确物体定位和分类的应用中表现出色。
建筑和主要特点
RTDETRv2 采用基于变换器的架构,通过自我关注机制捕捉图像中的全局上下文。这种方法允许模型权衡不同图像区域的重要性,从而增强特征提取并提高准确性,尤其是在复杂场景中。
优势:
- 卓越的准确性:变压器架构提供了更高的物体检测精度,尤其是在复杂的环境中,这一点已在人群管理中的视觉ai 等场景中得到验证。
- 实时能力:推理速度极具竞争力,尤其是在使用NVIDIA T4 GPU 等硬件加速时。
- 稳健的特征提取:视觉转换器能有效捕捉全局背景和复杂细节,有利于使用计算机视觉分析卫星图像等应用。
弱点
- 模型尺寸更大:RTDETRv2 模型,尤其是较大的变体,比YOLOv5 有更多的参数数和 FLOPs,因此需要更多的计算资源。
- 推理速度:虽然具有实时性,但推理速度可能低于最快的YOLOv5 模型,特别是在功能较弱的设备上。
理想的使用案例
RTDETRv2 最适合精度要求高且计算资源充足的应用。这些应用包括
- 自动驾驶:在自动驾驶汽车的人工智能中实现可靠、精确的环境感知。
- 机器人技术:使机器人能够准确地与周围环境互动,这对于"从算法到自动化 "中讨论的任务至关重要:人工智能在机器人技术中的作用"中讨论的任务所必需的。
- 医学成像:如《医疗保健中的人工智能》一书中所强调的那样,用于精确异常检测、辅助诊断,以及在医疗成像中使用yolo11 进行肿瘤检测等领域的潜在用途。
- 高分辨率图像分析:需要对大型图像(如卫星图像或工业检测)进行详细分析的应用,如改进计算机视觉制造。
型号对照表
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
结论
RTDETRv2 和YOLOv5 都是稳健的物体检测模型,各自针对不同的优先事项而设计。RTDETRv2 在精度要求高且计算资源充足的情况下更受青睐。相反,YOLOv5 在要求实时性能和效率的场景中表现出色,尤其是在资源有限的平台上。
对于探索其他模型的用户,Ultralytics 提供了广泛的模型动物园,包括
- YOLOv8和 YOLO11:Ultralytics YOLOv8 一周年:突破与创新的一年Ultralytics 和Ultralytics YOLO11 已经到来:重新定义人工智能的可能性"。
- YOLO:使用神经架构搜索构建模型,以优化性能YOLO Deci AI公司的YOLO)。
- FastSAM和 MobileSAM:用于实时实例分割任务 (FastSAM和 MobileSAM).
在 RTDETRv2、YOLOv5 或其他Ultralytics 模型之间做出选择时,应根据计算机视觉项目的具体要求,仔细考虑准确性、速度和资源可用性之间的平衡。请查阅Ultralytics 文档和GitHub 存储库,了解全面的详细信息和实施指南。