Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv5 对比 RTDETRv2#

计算机视觉领域在过去几年中得到了极大的扩展,为开发者提供了多种架构来处理复杂的视觉任务。其中最流行的范式是卷积神经网络 (CNN) 和检测 Transformer (DETR)。

本指南深入对比了这两类模型中的两个关键:Ultralytics YOLOv5(一种高效且被广泛采用的基于 CNN 的模型)和 RTDETRv2(一种最先进的基于 Transformer 的实时目标检测器)。

Link to this sectionUltralytics YOLOv5:效率的行业标准#

自发布以来,Ultralytics YOLOv5 已成为 AI 社区的基石,在全球范围内为数千个商业应用和研究项目提供动力。它完全基于 PyTorch 框架构建,在不牺牲实时性能的前提下,优先考虑直观的开发者体验。

主要特性:

Link to this section架构与优势#

YOLOv5 利用简化的 CNN 架构,旨在最大化特征提取效率,同时保持极低的内存占用。它采用 CSPDarknet 主干网络和 PANet 颈部,为多尺度特征融合创造了强大的组合。

YOLOv5 的主要优势之一是其性能平衡。它在速度和准确性之间实现了出色的权衡,是模型部署在资源受限硬件(如 NVIDIA Jetson 设备和智能手机)上的理想选择。

此外,YOLOv5 还拥有无可比拟的多功能性。与仅限于边界框预测的模型不同,YOLOv5 原生支持图像分类实例分割,为不同的视觉任务提供了统一的框架。它的训练效率也非常出色,与基于 Transformer 的架构相比,训练时所需的 CUDA 内存显著减少。

Link to this section弱点#

由于依赖于较旧的 CNN 框架,YOLOv5 在后处理期间固有地依赖非极大值抑制 (NMS) 来消除重复的边界框。尽管在 Ultralytics 框架内进行了高度优化,但 NMS 有时会在专用边缘 NPU 上引入延迟瓶颈。

了解更多关于 YOLOv5 的信息

Link to this sectionRTDETRv2:百度的实时 Transformer#

RTDETRv2 (Real-Time Detection Transformer v2) 代表了将 Transformer 架构应用于实时目标检测的重大飞跃,解决了历史上困扰标准 DETR 的计算效率低下的问题。

主要特性:

  • 作者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 和 Yi Liu
  • 机构: Baidu
  • 日期: 2024-07-24
  • 链接: Arxiv 论文GitHub 仓库

Link to this section架构与优势#

RTDETRv2 在其前身的基础上,利用混合编码器和灵活的解码器设计来处理图像。Transformer 的自注意力机制为模型提供了图像上下文的全局理解,使其在具有严重遮挡的复杂场景中表现出色。

A defining feature of RTDETRv2 is its end-to-end, NMS-free design. By predicting object queries directly without requiring anchor boxes or NMS post-processing, it simplifies the inference pipeline. This architecture achieves an impressive mAP (mean Average Precision) on benchmark datasets like COCO.

Link to this section弱点#

尽管具备实时能力,但与 YOLO 模型相比,RTDETRv2 的内存需求明显更高。Transformer 中的注意力机制随序列长度呈平方级扩展,除非使用大型 GPU 集群,否则可能会在高分辨率训练期间导致内存不足错误。此外,它缺乏 Ultralytics 生态系统的开箱即用多功能性,主要专注于 2D 目标检测,而不支持分割或姿态估计。

了解更多关于 RTDETR 的信息

Link to this section性能对比表#

为了客观地评估这些架构,我们汇总了它们的性能指标。以粗体突出显示的值代表在测试规模中最高效或表现最高的指标。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
性能背景

虽然 RTDETRv2-x 达到了最高的绝对 mAP,但它需要的参数量几乎是 YOLOv5n 的 30 倍。对于在有限硬件上运行的高速应用,Ultralytics 模型始终能提供最佳的计算效率。

Link to this sectionUltralytics 生态系统优势#

当将模型从研究笔记转移到生产环境时,模型周围的软件与神经网络架构同样重要。Ultralytics 提供的维护良好的生态系统极大地加速了开发生命周期。

Link to this section无可比拟的易用性#

Ultralytics 模型优先考虑极其精简的用户体验。无论你是想训练自定义模型、进行验证,还是导出到 TensorRTONNX 等特定硬件格式,Ultralytics Python API 都能让你在几行代码内实现。

这是一个实际的代码示例,展示了使用 Ultralytics 模型进行训练和运行推理是多么简单:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

This simple, unified API natively supports experiment tracking integrations with tools like Weights & Biases and Comet, allowing developers to log metrics seamlessly without writing complex boilerplate code.

Link to this section应用场景与建议#

在 YOLOv5 和 RT-DETR 之间进行选择取决于你的具体项目需求、部署约束和生态系统偏好。

Link to this section何时选择 YOLOv5#

YOLOv5 是以下情况的强力选择:

  • 久经考验的生产系统: 在那些重视 YOLOv5 长期稳定记录、详尽文档和庞大社区支持的现有部署中。
  • 资源受限的训练: 在 GPU 资源有限的环境中,YOLOv5 的高效训练流程和更低的内存需求具有优势。
  • 广泛的导出格式支持: 需要在多种格式(包括 ONNXTensorRTCoreMLTFLite)间进行部署的项目。

Link to this section何时选择 RT-DETR#

推荐使用 RT-DETR 的场景为:

  • 基于 Transformer 的检测研究: 探索注意力机制和 Transformer 架构以实现无 NMS 的端到端目标检测的项目。
  • 高精度、延迟要求宽松的场景: 将检测精度置于首位,且可以容忍稍高推理延迟的应用。
  • 大目标检测: 以中大型目标为主的场景,在这种场景下,Transformer 的全局注意力机制具有天然优势。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section展望未来:YOLO11 和 YOLO26#

如果你今天正在启动一个新的视觉项目,强烈建议探索最新一代的 Ultralytics 模型。

虽然 YOLOv5 依然非常可靠,但 YOLO11 提供了更高的准确性和更广泛的任务集,包括旋转边界框 (OBB) 检测。

更重要的是,尖端的 YOLO26 融合了二者的优点。它实现了端到端无 NMS 设计(首先在 YOLOv10 中开创),消除了后处理开销,同时保持了 CNN 的效率。YOLO26 还引入了受大语言模型训练创新启发的 MuSGD 优化器,以实现更快的收敛。凭借 DFL 移除(移除分布焦点损失以简化导出并提高边缘/低功耗设备兼容性),YOLO26 的 CPU 推理速度提升高达 43%,使其成为边缘 AI 的绝对最佳选择。此外,ProgLoss + STAL 提供了改进的损失函数,在小目标识别方面有显著提升,这对于物联网、机器人和航空影像至关重要。

Link to this section结论#

在 YOLOv5 和 RTDETRv2 之间进行选择很大程度上取决于你的部署约束。RTDETRv2 利用强大的 Transformer 注意力机制突破了 mAP 的界限,但代价是沉重的内存和计算开销。

相反,Ultralytics YOLOv5 提供了一种经过验证、高度优化且多功能的解决方案,可以从云服务器到微控制器随处顺畅运行。对于寻求最高准确性同时又需要无缝部署工具的团队来说,在 Ultralytics 生态系统内升级到 YOLO26 提供了现代视觉 AI 应用的终极最先进解决方案。

评论