RTDETRv2 与 DAMO- YOLO :物体检测技术比较
选择最佳的对象检测模型对于计算机视觉应用的成功至关重要。Ultralytics 提供多种不同的模型,本页将对RTDETRv2和YOLO 这两种先进的物体检测模型进行详细的技术比较。该分析将帮助您根据项目要求做出明智的决定。
RTDETRv2:基于变压器的高精度检测
RTDETRv2(Real-Time Detection Transformer v2)是百度开发的最先进的物体检测模型,以其高精度和高效的实时性能而著称。RTDETRv2 于 2023-04-17 在吕文宇、赵一安、常沁瑶、黄奎、王冠中和刘毅的论文《DETRs Beat YOLOs on Real-time Object Detection》中介绍,它利用视觉转换器(ViT)架构实现了鲁棒的特征提取和全局上下文理解。
建筑与特色
RTDETRv2 的与众不同之处在于其基于变压器的架构,与传统的基于 CNN 的检测器相比,它能更有效地捕捉图像中的全局背景。这种架构可实现更高的准确性,尤其是在复杂场景中,理解更广泛的上下文至关重要。该模型由PyTorch 实现,可在GitHub 上下载。
性能
RTDETRv2 的性能指标令人印象深刻,其最大变体 RTDETRv2-x 的 mAPval50-95 达到 54.3。它的推理速度也很有竞争力,因此适合使用功能强大的硬件进行实时应用。
优势和劣势
优势:
- 高精度:变压器结构可提供出色的目标检测精度。
- 实时能力:实现快速推理,特别是使用TensorRT 加速。
- 有效的情境学习:视觉转换器擅长捕捉图像中的全局背景。
弱点
- 模型尺寸更大:RTDETRv2 模型,尤其是较大的变体,有大量参数和 FLOP,需要更多的计算资源。
- 计算需求:虽然对速度进行了优化,但在资源非常有限的设备上部署时,可能不如其他一些模型轻便。
使用案例
RTDETRv2 非常适合优先考虑高精度并能获得大量计算资源的应用:
- 自动驾驶汽车:可靠、精确的环境感知对自动驾驶汽车的人工智能至关重要。
- 机器人技术:使机器人能够准确感知复杂环境中的物体并与之互动,增强从算法到自动化的应用:人工智能在机器人技术中的作用。
- 医学影像:如《医疗保健中的人工智能》一书所探讨的,用于精确检测医疗图像中的异常情况,帮助诊断。
- 详细图像分析:适用于高分辨率图像分析,如使用计算机视觉分析卫星图像或工业检测。
DAMO-YOLO:高效快速的物体检测
YOLO-YOLO(DAMO 系列YOLO)由阿里巴巴集团开发,于 2022-11-23 在徐向哲、蒋奕琪、陈伟华、黄一伦、张远和孙秀宇的论文《YOLO-YOLO:可扩展和精确物体检测的反思》中介绍,其设计在保持有竞争力的精确度的同时,还追求速度和效率。YOLO 注重实时性能,可在GitHub 上下载。
建筑与特色
YOLO 采用了多项创新技术来提高效率,包括神经架构搜索(NAS)骨干网、高效的 RepGFPN 和 ZeroHead。这些架构选择有助于提高速度和降低计算需求,使其成为实时应用和边缘部署的绝佳选择。
性能
YOLO 在推理速度方面表现出色,可在各种硬件平台上提供极快的性能。虽然其准确性略低于 RTDETRv2,但它在速度和准确性之间取得了令人信服的平衡,尤其适用于需要快速处理的应用。
优势和劣势
优势:
- 高速:经过优化,推理速度极快,是实时系统的理想选择。
- 效率高:更小的模型尺寸和更低的计算要求使其适用于边缘设备。
- 可扩展性:专为各种部署方案而设计,具有可扩展性和适应性。
弱点
- 精确度:虽然准确,但它可能无法达到与 RTDETRv2 相同的顶级 mAP 分数,尤其是在要求最高精度的场景中。
- 语境理解:由于以 CNN 为中心,在高度复杂的场景中,它可能无法像基于变换器的模型那样有效地捕捉全局上下文。
使用案例
YOLO 非常适合对速度和效率要求极高的应用,以及需要在功能较弱的硬件上部署的应用:
- 实时视频监控:非常适合需要即时检测的安全警报系统等应用。
- 边缘计算:非常适合在Raspberry Pi和NVIDIA Jetson 等边缘设备上部署。
- 快速处理应用:适用于机器人(ROS 快速启动)和其他需要快速决策的应用。
- 移动部署:足够高效,适用于移动应用和资源有限的环境。
型号对照表
模型 | 大小(像素) | mAPval 50-95 |
CPU ONNX (毫秒) |
SpeedT4TensorRT10 (ms) |
参数(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
结论
RTDETRv2 和YOLO 都是功能强大的物体检测模型,各自具有独特的优势。RTDETRv2在优先考虑最高准确性和可用计算资源的情况下脱颖而出。对于需要实时处理和高效部署的应用,尤其是边缘设备,YOLO-YOLO是首选。
对于考虑其他选择的用户,Ultralytics 提供多种型号,包括
- YOLO11:YOLO 系列的最新产品,兼顾速度与精度。了解更多 YOLO11.
- YOLOv8 和 YOLOv9:前几代产品在速度和精确度之间进行了各种权衡,详见Ultralytics YOLOv8 一周年:突破与创新的一年"和YOLOv9。
- YOLO:通过神经架构搜索设计的模型,可实现最佳性能。请参阅 Deci AI 公司的YOLO最先进的物体检测模型。
- FastSAM 和MobileSAM:如需实时实例分割,请查看 FastSAM和 MobileSAM.
在选择 RTDETRv2、DAMO-YOLO 或其他Ultralytics 模型时,应根据计算机视觉项目的具体需求,仔细考虑准确性、速度和可用资源之间的平衡。更多详情和实施指南,请参阅Ultralytics 文档和Ultralytics GitHub 存储库。