YOLOv5 RTDETRv2YOLOv5 :评估卷积神经网络与Transformer 在目标检测中的表现
过去几年间,计算机视觉领域取得了显著发展,为开发者提供了多种架构来处理复杂的视觉任务。其中最受欢迎的范式包括卷积神经网络(CNN)和检测变换器(DETR)。
本指南对这两个类别中的两个关键模型进行了深入的技术比较: Ultralytics YOLOv5——一款基于卷积神经网络的高效通用模型,以及RTDETRv2——transformer实时目标检测器。
Ultralytics YOLOv5:行业效率标杆
自发布以来Ultralytics YOLOv5 人工智能领域的基石,为全球数千个商业应用和研究项目提供支持。该模型完全基于 PyTorch 框架构建,在确保实时性能的同时,优先提供了直观的开发者体验。
主要特点:
- 作者: Glenn Jocher
- 组织:Ultralytics
- 日期: 2020-06-26
- 链接:GitHub 仓库
架构与优势
YOLOv5 精简的卷积神经网络架构,旨在最大化特征提取效率的同时保持极低的内存占用。该架构融合了CSPDarknet主干网络与PANet颈部结构,形成了强大的多尺度特征融合组合。
YOLOv5 的主要优势之一YOLOv5 其性能平衡性。它在速度与准确性之间实现了卓越的权衡,使其成为NVIDIA 设备和智能手机等资源受限硬件上部署模型的理想选择。
此外YOLOv5 无与伦比的多功能性。不同于仅限于边界框预测的模型YOLOv5 图像分类与实例分割,为各类视觉任务提供统一框架。其训练效率同样卓越,相较于transformer架构,训练过程中CUDA 显著减少。
弱点
由于基于较早的卷积神经网络框架,YOLOv5 在后处理阶段YOLOv5 依赖非最大抑制(NMS)来消除重复的边界框。尽管在Ultralytics 经过高度优化,NMS 偶尔NMS 专用边缘NPU上引发延迟瓶颈。
RTDETRv2:百度实时变压器
RTDETRv2(实时检测Transformer )在将transformer 应用于实时目标检测方面实现了重大突破,解决了传统DETR长期存在的计算效率问题。
主要特点:
- 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
- 组织:百度
- 日期: 2024-07-24
- 链接:Arxiv论文,GitHub代码库
架构与优势
RTDETRv2在前代基础上,通过采用混合编码器与灵活解码器设计来处理图像。transformer自我注意机制使模型能够全面理解图像上下文,使其在存在严重物体遮挡的复杂场景中表现尤为出色。
RTDETRv2的标志性特征在于其端到端、NMS的设计。通过直接预测目标查询,无需锚框或NMS ,该架构显著简化了推理流程。在基准数据集上,该架构实现了令人瞩目的mAP 均值平均精度)表现,例如 COCO等基准数据集上取得了显著的mAP(均值平均精度)成绩。
弱点
尽管具备实时处理能力,RTDETRv2YOLO 仍存在显著更高的内存需求。 Transformer模型中的注意力机制随序列长度呈二次增长,这在高分辨率训练时可能导致内存不足错误——除非使用GPU 。此外,该模型Ultralytics 开箱即用灵活性,主要专注于2D目标检测,未原生支持分割或姿势估计 。
性能对比表
为客观评估这些架构,我们汇总了其性能指标。加粗显示的数值代表在测试范围内最高效或表现最优的指标。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
性能背景
尽管RTDETRv2-x实现了最高的绝对mAP,但其参数数量是YOLOv5n的近30倍。对于在有限硬件上运行的高速应用场景,Ultralytics 始终能提供最佳的计算效率。
Ultralytics 生态系统优势
将模型从研究笔记本迁移至生产环境时,围绕模型的软件生态系统与神经网络架构同等重要。Ultralytics 提供的完善生态系统 Ultralytics 加速了开发生命周期。
无与伦比的易用性
Ultralytics 致力于提供极致简化的用户体验。无论您需要训练自定义模型、执行验证,还是导出至硬件特定格式(如 TensorRT 或 ONNXUltralytics Python 仅需寥寥数行代码即可实现。
以下是一个实用的代码示例,展示了Ultralytics 进行训练和运行推理是多么简单:
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
这个简单统一的API原生支持与诸如Weights & Biases等工具的实验追踪集成。 Weights & Biases 和 Comet等工具的实验追踪集成,开发者无需编写复杂的模板代码即可无缝记录指标。
应用场景与建议
YOLOv5 RT-DETR 之间进行选择RT-DETR 您的具体项目需求、部署限制以及生态系统偏好。
何时选择 YOLOv5
YOLOv5 以下场景的强力选择:
- 成熟的生产系统:现有部署场景中YOLOv5长期稳定的track 、详尽的文档支持以及庞大的社区支持而备受推崇。
- 资源受限训练: GPU 有限的环境中,YOLOv5训练管道和较低的内存需求具有显著优势。
- 广泛的导出格式支持:适用于需要跨多种格式部署的项目,包括 ONNX、 TensorRT、 CoreML, TFLite。
何时选择RT-DETR
RT-DETR :
- Transformer检测研究:探索注意力机制与transformer 的项目,用于实现无需NMS端到端目标检测。
- 高精度场景(支持灵活延迟):检测精度为首要目标,且可接受稍高的推理延迟的应用场景。
- 大型物体检测:场景中主要包含中型至大型物体,此时变压器的全局注意力机制具有天然优势。
何时选择Ultralytics YOLO26)
对于大多数Ultralytics 提供了性能与开发者体验的最佳组合:
- NMS边缘部署:适用于需要持续低延迟推理,且无需复杂非最大抑制后处理的应用场景。
- CPU环境:在不具备专用GPU 设备上,YOLO26高达43%CPU 加速优势具有决定性意义。
- 小目标检测: 在无人机航拍图像或物联网传感器分析等挑战性场景中,ProgLoss和STAL能显著提升对微小目标的检测精度。
展望未来:YOLO11
若您今日正着手启动新的视觉项目,强烈建议您探索最新一代Ultralytics 。
尽管YOLOv5 依然极其可靠, YOLO11 在提升准确性的同时,还扩展了任务集,包括方向性边界框检测(旋转框检测 Bounding Box旋转框检测)。
更重要的是,尖端的YOLOv26融合了两种方法的优势。它实现了端到端NMS设计(该设计最早由 YOLOv10),在消除后处理开销的同时保持了卷积神经网络的效率。YOLO26还引入了受LLM训练创新启发的MuSGD优化器,实现更快收敛。通过移除DFL(分布式焦点损失,以简化导出并提升边缘/低功耗设备兼容性),YOLO26实现最高43%CPU 加速,成为边缘AI的绝对首选。 此外,ProgLoss + STAL增强型损失函数显著提升了小目标识别能力,这对物联网、机器人及航空影像领域至关重要。
结论
YOLOv5 进行选择,很大程度上取决于您的部署限制。RTDETRvmAP 强大的transformer 机制突破了mAP 的边界,但其内存和计算开销成本高昂。
Ultralytics YOLOv5 经过验证、高度优化且功能强大的解决方案,能够在从云服务器到微控制器的各种环境中流畅运行。对于追求最高精度与无缝部署工具的团队Ultralytics 升级至YOLOv5,正是现代视觉AI应用领域无可争议的尖端解决方案。