RTDETRv2 与 YOLOv9:物体检测技术比较
选择最佳的物体检测模型是计算机视觉项目的关键决策。Ultralytics 提供多种型号,包括以速度和效率著称的YOLO 系列和强调高精度的RT-DETR 系列。本页对RTDETRv2和YOLOv9 这两种最先进的物体检测模型进行了详细的技术比较,以帮助您做出明智的选择。
RTDETRv2:变压器供电的高精度
RTDETRv2(Real-Time Detection Transformer v2)是百度开发的最先进的物体检测模型,以其卓越的准确性和实时性而闻名。RTDETRv2 于 2023-04-17 发表在arXiv上,代码可在GitHub 上获取,作者包括吕文宇、赵一安、常钦尧、黄奎、王冠中和刘毅。它利用视觉转换器(ViT)架构来实现精确的对象定位和分类,因此适用于要求苛刻的应用。
结构和主要功能
RTDETRv2 的架构建立在视觉转换器(Vision Transformers)的基础上,使其能够通过自我关注机制捕捉图像中的全局背景。这与传统的卷积神经网络(CNN)有很大不同,RTDETRv2 可以权衡不同图像区域的重要性,从而增强特征提取能力,提高准确性,尤其是在复杂场景中。基于变压器的设计允许无锚检测,简化了检测过程,并有可能提高泛化能力。
性能指标
RTDETRv2 性能强劲,尤其是在 mAP 方面。如比较表所示,RTDETRv2-x 变体的 mAPval50-95 达到 54.3。推理速度也很有竞争力,RTDETRv2-s 在TensorRT 上的推理速度达到 5.03 毫秒,这使其在使用NVIDIA T4 GPU 等功能强大的硬件时可用于实时应用。要深入了解性能评估,请参阅我们的YOLO 性能指标指南。
优势和劣势
优势:
- 高精度:变压器结构可提供出色的目标检测精度,这对要求精确度的应用至关重要。
- 实时能力:推理速度极具竞争力,尤其是在使用TensorRT 进行优化并在合适的硬件上运行时。
- 全局背景理解:视觉转换器能有效捕捉全局背景,从而在复杂环境中实现稳健的检测。
弱点
- 模型尺寸更大:RTDETRv2 模型,尤其是 RTDETRv2-x 等较大的变体,具有大量参数和 FLOP,需要更多计算资源。
- 推理速度限制:虽然可以实现实时性,但推理速度可能比 YOLOv9 等高度优化的基于 CNN 的模型要慢,尤其是在资源有限的设备上。
理想的使用案例
RTDETRv2 非常适合精度要求高且计算资源充足的应用。这些应用包括
- 自动驾驶汽车:实现精确可靠的环境感知。了解有关自动驾驶汽车中的人工智能的更多信息。
- 医学成像:准确检测医学影像中的异常,帮助诊断。了解人工智能在医疗保健领域的应用。
- 机器人学使机器人能够与复杂环境中的物体进行交互并准确操控。了解人工智能在机器人技术中的作用。
- 高分辨率图像分析:用于详细分析大型图像,如卫星图像或工业检测。查看如何使用计算机视觉分析卫星图像。
YOLOv9:可编程梯度信息,提高效率和精度
YOLOv9(You Only Look Once 9)是著名的Ultralytics YOLO 系列中最先进的物体检测模型。YOLOv9 于 2024-02-21 在arXiv上发布,作者是来自台湾中央研究院信息科学研究所的王建尧和廖鸿源,代码可在GitHub 上获取。与之前的YOLO 版本相比,YOLOv9 引入了可编程梯度信息(PGI)和 GELAN 技术,提高了准确性和训练效率。
结构和主要功能
YOLOv9 以早期YOLO 模型的效率为基础,同时在结构上进行了新的改进。它利用 GELAN(通用高效层聚合网络)来优化网络架构,利用 PGI 来保持梯度信息的完整性,从而解决深度网络传播过程中的信息丢失问题。这些创新提高了准确性和训练效率。YOLOv9 采用无锚检测头和精简的单级设计,注重实时性能。
性能指标
YOLOv9 在速度和准确性之间实现了令人信服的平衡。YOLOv9-e 模型的 mAPval50-95 达到 55.6,在精度上甚至超过了更大的 RTDETRv2 模型,同时保持了具有竞争力的推理速度。较小的 YOLOv9-t 变体速度极快,在TensorRT 上的推理速度达到 2.3 毫秒,适合对延迟极为敏感的应用。
优势和劣势
优势:
- 高精度和高效率:PGI 和 GELAN 有助于提高精度和参数利用效率。
- 推理速度快:针对实时性能进行了优化,尤其是适合边缘部署的较小变体。
- 高效培训:PGI 有助于提高培训过程的稳定性和效率。
弱点
- 较低的全局上下文:在非常复杂的场景中,与基于变换器的模型相比,基于 CNN 的架构在捕捉长距离依赖关系方面可能效果较差。
- 准确性与速度之间的权衡:虽然准确性很高,但要达到最快的推理速度,可能需要使用较小的模型,与最大的模型相比,准确性会略有降低。
理想的使用案例
YOLOv9 非常适合需要兼顾高精度和实时性的应用,尤其是在资源有限的环境中:
- 实时监控:用于安全系统中高效、准确的监控。探索计算机视觉防盗技术。
- 边缘计算:在计算资源有限的边缘设备上部署。了解边缘人工智能。
- 机器人在机器人系统中实现快速准确的感知。参见人工智能在机器人技术中的作用。
- 工业自动化:适用于需要实时物体检测以进行质量控制和流程优化的制造业应用。了解制造业中的人工智能。
型号对照表
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
结论
RTDETRv2 和 YOLOv9 都是功能强大的物体检测模型,各有千秋。RTDETRv2在优先考虑最大准确性和利用变压器架构进行稳健特征提取的情况下表现出色,适合计算资源充足的应用。而YOLOv9 则是实时性能和效率至上的理想选择,它将准确性和速度完美地结合在一起,特别适合部署在边缘设备和对延迟敏感的系统上。
对于有兴趣探索其他模型的用户,Ultralytics 可提供多种选择,包括
- YOLOv8:上一代产品 Ultralytics YOLOv8型号,兼顾速度和准确性。
- YOLO11:要提高效率和速度,请考虑 YOLO11.
- FastSAM 和MobileSAM:对于实时实例分割任务,探索 FastSAM和 MobileSAM.
如何在 RTDETRv2、YOLOv9 和其他Ultralytics 模型之间做出选择,取决于项目的具体需求,同时要仔细考虑准确性、速度和可用资源之间的平衡。请参阅Ultralytics 文档和Ultralytics GitHub 存储库,了解全面的详细信息和实施指南。