YOLOv10 与 RTDETRv2:物体检测技术比较
选择最佳的物体检测模型是计算机视觉项目的关键决策。从高效的Ultralytics YOLO 系列到高精度的RT-DETR 系列,Ultralytics 为不同的需求提供了一整套量身定制的模型。本页对YOLOv10和RTDETRv2 这两种用于物体检测的尖端型号进行了详细的技术比较,以帮助您做出明智的选择。
RTDETRv2:高精度实时检测
RTDETRv2(Real-Time Detection Transformer v2)是一种先进的物体检测模型,以高精度和实时性能为优先考虑。RTDETRv2 由百度开发,并在 2024 年 7 月发布的Arxiv 论文中作了详细介绍,它基于视觉转换器(ViT)架构,可在要求精确物体定位和分类的场景中实现最先进的结果。
结构和主要功能
RTDETRv2 的架构充分利用了变换器的优势,使其能够通过自我关注机制捕捉图像中的全局上下文。这种基于变换器的方法使模型能够权衡不同图像区域的重要性,从而加强特征提取并提高准确性,尤其是在复杂场景中。与传统的卷积神经网络(CNN)不同,RTDETRv2 擅长理解图像的大背景,从而提高了其强大的检测能力。RT-DETR GitHub 存储库提供了有关其实现的更多详细信息。
性能指标
RTDETRv2 的 mAP 分数令人印象深刻,尤其是 RTDETRv2-x 等较大的变体,mAPval50-95 达到 54.3。推理速度也很有竞争力,适合使用NVIDIA T4 GPU 等硬件加速的实时应用。下表详细列出了不同 RTDETRv2 和 YOLO10 变体的性能指标。
优势和劣势
优势:
- 超高精度:变压器结构有助于实现高物体检测精度。
- 实时能力:实现具有竞争力的推理速度,特别是通过推理引擎的硬件加速,如 TensorRT.
- 有效提取特征:视觉转换器能巧妙地捕捉图像中的全局背景和复杂细节。
弱点
- 模型尺寸更大:与较小的YOLO 模型相比,RTDETRv2-x 等模型的参数数更多,FLOP 更高,因此需要更多计算资源。
- 推理速度限制:虽然具有实时性,但推理速度可能比最快的YOLO 模型慢,尤其是在资源有限的设备上。
理想的使用案例
RTDETRv2 非常适合精度要求高且计算资源充足的应用。这些应用包括
- 自动驾驶汽车:用于可靠、精确的环境感知,这对自动驾驶汽车的安全和人工智能导航至关重要。
- 机器人:使机器人能够与复杂环境中的物体准确互动,提高人工智能在机器人技术中发挥作用的能力。
- 医学影像:用于精确检测医学影像中的异常情况,帮助诊断并提高人工智能在医疗保健领域的效率。
- 高分辨率图像分析:需要对大型图像(如卫星图像或工业检测)进行详细分析的应用,类似于使用计算机视觉分析卫星图像。
YOLOv10:高效、多用途的物体检测
YOLOv10(You Only Look Once 10)是Ultralytics YOLO 系列的最新迭代产品,以其物体检测的速度和效率而闻名。YOLOv10 由清华大学的作者于 2024 年 5 月推出(详见他们的Arxiv 论文),它以之前的YOLO 版本为基础,在保持实时优势的同时提高了准确性和性能。官方 GitHub 代码库提供了PyTorch 的官方实现。
结构和主要功能
YOLOv10 延续了YOLO 单级目标检测的传统,注重简化效率和速度。它采用了架构创新和优化技术,减少了计算冗余,提高了准确性。其主要特点是采用了无 NMS 方法,实现了端到端的部署并减少了推理延迟。这使得 YOLOv10 对于实时应用和在资源有限的设备上部署特别有利。
性能指标
YOLOv10 实现了速度和精度的平衡,提供从 YOLOv10n 到 YOLOv10x 的各种模型尺寸。虽然 YOLOv10 在最高精确度方面略逊于 RTDETRv2,但在推理速度和效率方面却非常出色。例如,YOLOv10n 在TensorRT 上实现了 1.56 毫秒的快速推理速度,非常适合对延迟敏感的应用。YOLO 性能指标指南提供了有关这些指标的更多信息。
优势和劣势
优势:
- 高效快速:针对快速推理进行了优化,这对实时应用和边缘部署至关重要。
- 多功能性:提供多种尺寸(n、s、m、b、l、x),可扩展性能和资源使用。
- 无 NMS 培训:实现端到端部署,减少推理延迟。
- 模型尺寸更小:与 RTDETRv2 相比,参数数和 FLOP 更少,适合资源有限的环境。
弱点
- 精度低于 RTDETRv2:虽然精确度很高,但在复杂场景中可能达不到 RTDETRv2 的顶级精确度。
- 潜在的权衡:与更大、计算更密集的模型相比,实现极快的速度可能需要在精确度上稍作权衡。
理想的使用案例
YOLOv10 的效率和速度使其成为需要实时物体检测的应用的最佳选择,尤其是在资源有限的设备上。这些应用包括
- 边缘计算:在NVIDIA Jetson和Raspberry Pi等边缘设备上部署,进行设备处理。
- 实时视频监控:用于安全警报系统的高效监控和快速响应。
- 机器人和无人机:低延迟和快速处理对导航和交互至关重要的应用,如人工智能无人机操作中的计算机视觉应用。
- 工业自动化:用于快速检测生产过程中的物体,提高人工智能在生产中的应用效率。
型号对照表
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
结论
RTDETRv2 和 YOLOv10 都是功能强大的物体检测模型,各自针对不同的优先事项而设计。RTDETRv2在需要顶级精度和可用计算资源时表现出色,适合复杂和关键的应用。而YOLOv10 则是实时性能、效率和在资源有限平台上部署的首选。
对于探索其他选择的用户,Ultralytics 提供了多样化的模型库,其中包括不同速度-精度权衡的模型:
- YOLOv8 和 YOLOv9:前几代YOLO 模型,兼顾速度和准确性,Ultralytics YOLOv8 一周年:突破与创新之年和YOLOv9 文档对此进行了重点介绍。
- YOLO:采用神经架构搜索技术设计的模型可获得最佳性能,详见 Deci AI 的YOLO 文档。
- FastSAM 和MobileSAM:用于实时实例分割任务,提供高效的解决方案,详见FastSAM 文档和MobileSAM 文档。
最终,如何在 RTDETRv2 和 YOLOv10 或其他Ultralytics 模型之间做出选择,取决于您计算机视觉项目的具体需求,并在准确性、速度和资源限制之间谨慎权衡。请参阅Ultralytics 文档和GitHub 存储库,了解全面的信息和实施指南。