RTDETRv2 与 YOLOX:物体检测技术比较
选择合适的物体检测模型对于计算机视觉项目至关重要。Ultralytics 提供多种型号,包括YOLO 系列和RT-DETR 系列,每种型号都具有独特的优势。本页对RTDETRv2和YOLOX 这两种最先进的物体检测模型进行了详细的技术比较,以帮助您根据项目要求做出明智的决定。
RTDETRv2:高精度实时检测
RTDETRv2(Real-Time Detection Transformer v2)是百度开发的先进物体检测模型,以高精度和实时性著称。RTDETRv2 于 2023-04-17 推出,在其Arxiv 论文中有详细介绍,它利用视觉转换器(ViT)架构实现了最先进的结果。正式实现可在 GitHub 上获取。
结构和主要功能
RTDETRv2 的架构基于视觉变换器(Vision Transformers),能够通过自我关注机制捕捉图像中的全局上下文。这种基于变换器的方法可实现强大的特征提取和精确的对象定位,尤其是在复杂场景中。与传统的基于 CNN 的模型不同,RTDETRv2 擅长理解图像不同部分之间的关系,从而提高检测精度。
性能指标
RTDETRv2 模型的 mAP 分数令人印象深刻,RTDETRv2-x 等大型变体的 mAPval50-95 达到 54.3。虽然下表中没有提供详细的CPU ONNX 速度指标,但其TensorRT 速度很有竞争力,适合在NVIDIA T4 GPU 等功能强大的硬件上进行实时应用。有关详细性能指标,请参阅下面的型号对照表。
优势和劣势
优势:
- 卓越的准确性:变压器结构可提供出色的目标检测精度。
- 实时功能:通过硬件加速实现具有竞争力的推理速度,适用于实时系统。
- 有效提取特征:视觉转换器能有效捕捉全局背景和复杂细节。
弱点
- 模型尺寸更大:RTDETRv2 模型,尤其是较大的版本,具有更多的参数和 FLOP,需要更多的计算资源。
- 推理速度限制:虽然具有实时性,但在功能较弱的设备上可能不如 YOLOX 等高度优化的模型快。
理想的使用案例
RTDETRv2 最适合精度要求高且计算资源充足的应用。理想的使用案例包括
- 自动驾驶汽车:在自动驾驶系统中实现可靠、精确的环境感知。自动驾驶汽车中的人工智能
- 机器人学:使机器人能够准确感知复杂环境中的物体并与之互动。从算法到自动化:人工智能在机器人技术中的作用
- 医学成像:用于高精度检测医学影像中的异常,辅助诊断。医疗保健领域的人工智能
- 高分辨率图像分析:需要对大型图像(如卫星或航空图像)进行详细分析的应用。使用计算机视觉分析卫星图像
YOLOX:高效、多用途的物体检测
YOLOX(You Only Look Once X)是 Megvii 开发的一种无锚物体检测模型,以高性能和高效率著称。YOLOX 于 2021-07-18 推出,在其Arxiv 论文中有详细介绍,它以YOLO 系列为基础,提供了简化的设计和最先进的结果。官方文档提供了全面的详细信息。
结构和主要功能
YOLOX 采用无锚方法,无需预定义锚框,从而简化了模型并减少了超参数。它的特点是分类和定位的头部解耦,从而提高了训练效率和准确性。它采用了 MixUp 和 Mosaic 等先进的数据增强技术,以提高鲁棒性。YOLOX 的设计高速高效,适合实时应用和在各种硬件平台上部署。
性能指标
YOLOX 提供从纳米到超大型的一系列模型尺寸,以满足不同的计算预算和精度需求。YOLOX 模型在速度和精度之间实现了良好的平衡。例如,YOLOX-s 的 mAPval50-95 达到 40.5,在TensorRT 上的推理速度很快。有关不同 YOLOX 变体的详细性能指标,请参阅下面的模型比较表。
优势和劣势
优势:
- 高效快速:针对快速推理进行了优化,非常适合实时应用。
- 无锚设计:简化结构和训练过程,提高泛化能力。
- 多种模型尺寸:提供一系列模型尺寸,以适应不同的计算限制。
- 性能强劲:在速度和准确性之间取得良好平衡。
弱点
- 精度权衡:虽然高效,但在复杂情况下,其精度可能略低于 RTDETRv2 等基于变压器的模型。
- 复杂场景中的性能:作为单级检测器,它在极端拥挤的场景中的鲁棒性可能不如一些双级检测器,不过 YOLOX 与早期的YOLO 版本相比,明显缩小了这一差距。
理想的使用案例
YOLOX 非常适合需要实时物体检测并注重速度和效率的应用。这些应用包括
- 机器人学:动态环境中机器人导航和交互的实时感知。机器人学中的人工智能
- 监控系统:用于安全和监控应用的视频流中的高效目标检测。计算机视觉防盗:增强安全性
- 工业检测:生产线上的自动视觉检测,用于缺陷检测和质量控制。利用计算机视觉改进制造
- 边缘设备:部署在资源有限的设备上,计算效率至关重要。利用索尼 IMX500 和 Aitrios 增强边缘人工智能能力
型号对照表
模型 | 大小(像素) | mAPval 50-95 |
CPU ONNX (毫秒) |
SpeedT4TensorRT10 (ms) |
参数(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
结论
RTDETRv2 和 YOLOX 都是功能强大的物体检测模型,但它们的优先级不同。当需要最高精度且计算资源不是限制因素时,RTDETRv2是最佳选择。反之,YOLOX 在实时性能、效率和在功能较弱的硬件上部署至关重要的情况下表现出色。
对于探索其他选择的用户,Ultralytics 可提供多种模型,包括
- YOLOv8 和 YOLOv9: YOLO 系列的继承者,提供速度和精度的权衡。Ultralytics YOLOv8 一周年:突破与创新的一年,YOLOv9 文档
- YOLO:使用神经架构搜索设计的模型,可实现最佳性能。 Deci AI 公司的YOLO--最先进的物体检测模型
- FastSAM 和MobileSAM:用于实时实例分割任务。FastSAM 文档、MobileSAM 文档
在 RTDETRv2、YOLOX 和其他Ultralytics 模型之间做出选择时,应根据计算机视觉项目的具体需求,仔细权衡准确性、速度和可用资源。请访问Ultralytics 文档和GitHub 存储库,了解更多深入信息和实施细节。