跳转至内容

YOLOv8 与 RTDETRv2:综合技术比较

在快速发展的计算机视觉领域,选择正确的物体检测模型对于项目的成功至关重要。本比较深入探讨了 YOLOv8 和 YOLOv9 之间的技术区别。 YOLOv8RTDETRv2(百度基于transformer的复杂模型)之间的技术区别。通过分析它们的架构、性能指标和资源要求,我们旨在引导开发人员和研究人员根据自己的具体需求选择最佳解决方案。

可视化性能差异

下图说明了各种型号在速度和精度之间的权衡,突出显示了YOLOv8 如何在所有方面都保持卓越的效率。

性能分析:速度 vs. 准确性

下表是关键指标的直接比较。虽然 RTDETRv2 以其最大的模型实现了很高的精度,但YOLOv8 在推理速度和参数效率方面具有显著优势,尤其是在CPU 硬件上,因为transformer 模型经常面临延迟瓶颈。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ultralytics YOLOv8:多功能和快速的标准

2023 年初推出、 YOLOv8是YOLO 系列的一次重大飞跃,它为多种计算机视觉任务引入了一个统一的框架。其设计目的是在速度和精度之间实现最佳权衡,使其非常适合从工业自动化到智能城市基础设施的实时应用。

主要建筑特点

YOLOv8 采用无锚检测头,简化了训练过程,提高了对不同物体形状的泛化能力。它的架构采用了跨阶段部分(CSP)暗网骨干来实现高效的特征提取,并采用路径聚合网络(PAN)-FPN 颈部来实现稳健的多尺度融合。与许多竞争对手不同的是,YOLOv8 在单一、用户友好的 API 中原生支持图像分类实例分割姿势估计 面向对象检测(旋转框检测)

优势

  • 卓越的效率:优化内存使用和计算负荷,允许在NVIDIA Jetson 和 Raspberry Pi 等边缘设备上部署。
  • 训练速度:与transformer架构相比,训练所需的CUDA 内存和时间大大减少。
  • 丰富的生态系统:以全面的文档、活跃的社区支持以及与以下工具的无缝集成为后盾 TensorRTOpenVINO.
  • 易用性:"pip installultralytics"体验可让开发人员在几分钟内开始培训和预测。

了解更多关于 YOLOv8 的信息

RTDETRv2:推动Transformer 精度

RTDETRv2 是实时检测Transformer RT-DETR)的进化版,其开发目的是利用视觉转换器(ViT)的全局上下文功能,同时试图缓解其固有的延迟问题。它的目标是通过利用自我注意机制,在准确性基准上击败YOLO 模型。

  • 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
  • 组织机构:百度
  • 日期:2024-07-24(第 2 版发布)
  • Arxiv:RT-DETRv2 论文
  • GitHub:RT-DETR

架构概览

RTDETRv2 采用了一种混合方法,使用 CNN 主干网(通常是 ResNet)提取特征,然后由transformer 编码器-解码器进行处理。自我关注机制使模型能够理解图像远处部分之间的关系,这有助于处理有遮挡的复杂场景。第二版引入了离散采样算子,并提高了动态训练的稳定性。

优势与劣势

  • 优势:
    • 全局语境:由于其transformer 的特性,在处理复杂的对象关系和遮挡物方面表现出色。
    • 准确度高:与YOLOv8x 相比,最大的模型在COCO 数据集上获得的mAP 分数略高。
    • 免锚:与YOLOv8 一样,它无需手动调整锚箱。
  • 弱点:
    • 资源密集型:高 FLOPs 和参数数使其在 CPU 上运行较慢,需要昂贵的 GPU 进行训练。
    • 任务支持有限:主要侧重于物体检测,缺乏Ultralytics 框架的本地多任务多功能性(分割、姿势估计等)。
    • 部署复杂:与纯 CNN 相比,为移动和嵌入式目标优化transformer 架构更具挑战性。

了解更多关于 RTDETRv2 的信息

详细比较:架构和可用性

训练效率和记忆力

最明显的区别之一在于训练过程。RTDETRv2 等Transformer模型是出了名的数据饥渴型和内存密集型模型。与YOLOv8 等 CNN 相比,它们往往需要更多的CUDA 内存和更长的训练历时才能收敛。适用于GPU 资源有限的研究人员或初创公司、 Ultralytics YOLOv8提供了更容易进入的门槛,允许在消费级硬件上进行高效的定制训练

多功能性和生态系统

虽然 RTDETRv2 是纯检测任务的有力学术竞争者,但它缺乏围绕Ultralytics 模型的整体生态系统。YOLOv8 不仅仅是一个模型,它还是一个支持以下功能的平台的一部分:

硬件考虑

如果您的部署目标涉及CPU 推理(如标准服务器、笔记本电脑)或低功耗边缘设备、 YOLOv8因其优化的 CNN 架构而成为更好的选择。RTDETRv2 最好用于具有专用高端GPU 加速的场景。

理想用例

何时选择YOLOv8

YOLOv8 是绝大多数实际部署的首选。它兼顾了速度准确性易用性,因此非常适合于以下用途:

  • 实时分析:交通监控、零售分析和体育分析,其中高 FPS 至关重要。
  • 边缘计算:在电力和计算能力有限的无人机、机器人或移动应用程序上运行人工智能。
  • 多任务应用:需要同时进行物体跟踪、分割和分类的项目。

何时选择 RTDETRv2

RTDETRv2 在特定领域大放异彩,在这些领域中,计算成本是次要的,边际精度才是最重要的:

  • 学术研究:研究视觉转换器的特性。
  • 基于云的处理:在功能强大的服务器群上批量处理图像,在这种情况下,延迟比检测困难的遮挡物体更不重要。

代码示例:开始使用YOLOv8

Ultralytics API 设计简单。只需几行Python 代码,您就可以加载预训练模型、运行预测或开始训练。

from ultralytics import YOLO

# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

结论

RTDETRv2展示了transformer 架构在实现高精度方面的潜力、 Ultralytics YOLOv8仍然是实用、生产级计算机视觉的最佳选择。YOLOv8 的架构效率可实现更快的推理速度、更低的训练成本和更广泛的硬件兼容性。此外,强大的Ultralytics 生态系统可确保开发人员获得高效实现人工智能解决方案所需的工具、文档和社区支持。

对于那些追求绝对最新性能和效率的用户,我们还推荐探索 YOLO11,它进一步完善了YOLO 的传统,在精度和速度之间做出了更好的权衡。

探索其他模型

如果您有兴趣了解Ultralytics 生态系统中的更多选项或比较其他 SOTA 模型,请查看这些资源:

  • YOLO11最新型的YOLO 型号。
  • YOLOv10实时端到端物体检测器。
  • RT-DETR最初的实时检测Transformer。
  • YOLOv9侧重于可编程梯度信息。

评论