跳至内容

YOLOv10 与 RTDETRv2:物体检测技术比较

选择最佳的物体检测模型是计算机视觉项目的关键决策。从高效的Ultralytics YOLO 系列到高精度的RT-DETR 系列,Ultralytics 为不同的需求提供了一整套量身定制的模型。本页对YOLOv10RTDETRv2 这两种用于物体检测的尖端型号进行了详细的技术比较,以帮助您做出明智的选择。

RTDETRv2:高精度实时检测

RTDETRv2(Real-Time Detection Transformer v2)是一种先进的物体检测模型,以高精度和实时性能为优先考虑。RTDETRv2 由百度开发,并在 2024 年 7 月发布的Arxiv 论文中作了详细介绍,它基于视觉转换器(ViT)架构,可在要求精确物体定位和分类的场景中实现最先进的结果。

结构和主要功能

RTDETRv2 的架构充分利用了变换器的优势,使其能够通过自我关注机制捕捉图像中的全局上下文。这种基于变换器的方法使模型能够权衡不同图像区域的重要性,从而加强特征提取并提高准确性,尤其是在复杂场景中。与传统的卷积神经网络(CNN)不同,RTDETRv2 擅长理解图像的大背景,从而提高了其强大的检测能力。RT-DETR GitHub 存储库提供了有关其实现的更多详细信息。

性能指标

RTDETRv2 的 mAP 分数令人印象深刻,尤其是 RTDETRv2-x 等较大的变体,mAPval50-95 达到 54.3。推理速度也很有竞争力,适合使用NVIDIA T4 GPU 等硬件加速的实时应用。下表详细列出了不同 RTDETRv2 和 YOLO10 变体的性能指标。

优势和劣势

优势:

  • 超高精度:变压器结构有助于实现高物体检测精度。
  • 实时能力:实现具有竞争力的推理速度,特别是通过推理引擎的硬件加速,如 TensorRT.
  • 有效提取特征:视觉转换器能巧妙地捕捉图像中的全局背景和复杂细节。

弱点

  • 模型尺寸更大:与较小的YOLO 模型相比,RTDETRv2-x 等模型的参数数更多,FLOP 更高,因此需要更多计算资源。
  • 推理速度限制:虽然具有实时性,但推理速度可能比最快的YOLO 模型慢,尤其是在资源有限的设备上。

理想的使用案例

RTDETRv2 非常适合精度要求高且计算资源充足的应用。这些应用包括

进一步了解 RTDETRv2

YOLOv10:高效、多用途的物体检测

YOLOv10(You Only Look Once 10)是Ultralytics YOLO 系列的最新迭代产品,以其物体检测的速度和效率而闻名。YOLOv10 由清华大学的作者于 2024 年 5 月推出(详见他们的Arxiv 论文),它以之前的YOLO 版本为基础,在保持实时优势的同时提高了准确性和性能。官方 GitHub 代码库提供了PyTorch 的官方实现。

结构和主要功能

YOLOv10 延续了YOLO 单级目标检测的传统,注重简化效率和速度。它采用了架构创新和优化技术,减少了计算冗余,提高了准确性。其主要特点是采用了无 NMS 方法,实现了端到端的部署并减少了推理延迟。这使得 YOLOv10 对于实时应用和在资源有限的设备上部署特别有利。

性能指标

YOLOv10 实现了速度和精度的平衡,提供从 YOLOv10n 到 YOLOv10x 的各种模型尺寸。虽然 YOLOv10 在最高精确度方面略逊于 RTDETRv2,但在推理速度和效率方面却非常出色。例如,YOLOv10n 在TensorRT 上实现了 1.56 毫秒的快速推理速度,非常适合对延迟敏感的应用。YOLO 性能指标指南提供了有关这些指标的更多信息。

优势和劣势

优势:

  • 高效快速:针对快速推理进行了优化,这对实时应用和边缘部署至关重要。
  • 多功能性:提供多种尺寸(n、s、m、b、l、x),可扩展性能和资源使用。
  • 无 NMS 培训:实现端到端部署,减少推理延迟。
  • 模型尺寸更小:与 RTDETRv2 相比,参数数和 FLOP 更少,适合资源有限的环境。

弱点

  • 精度低于 RTDETRv2:虽然精确度很高,但在复杂场景中可能达不到 RTDETRv2 的顶级精确度。
  • 潜在的权衡:与更大、计算更密集的模型相比,实现极快的速度可能需要在精确度上稍作权衡。

理想的使用案例

YOLOv10 的效率和速度使其成为需要实时物体检测的应用的最佳选择,尤其是在资源有限的设备上。这些应用包括

了解有关 YOLO10 的更多信息

型号对照表

模型 尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

结论

RTDETRv2 和 YOLOv10 都是功能强大的物体检测模型,各自针对不同的优先事项而设计。RTDETRv2在需要顶级精度和可用计算资源时表现出色,适合复杂和关键的应用。而YOLOv10 则是实时性能、效率和在资源有限平台上部署的首选。

对于探索其他选择的用户,Ultralytics 提供了多样化的模型库,其中包括不同速度-精度权衡的模型:

最终,如何在 RTDETRv2 和 YOLOv10 或其他Ultralytics 模型之间做出选择,取决于您计算机视觉项目的具体需求,并在准确性、速度和资源限制之间谨慎权衡。请参阅Ultralytics 文档GitHub 存储库,了解全面的信息和实施指南。

📅创建于 1 年前 ✏️已更新 1 个月前

评论