PP-YOLOE+ 与YOLOv5:导航高精度检测和生产就绪状态
选择最佳物体检测模型通常需要在原始学术指标和实际部署能力之间进行权衡。本技术比较研究了来自PaddlePaddle 生态系统的进化版无锚检测器PP-YOLOE+ 和 Ultralytics YOLOv5和 Ultralytics YOLOv5,后者是行业标准型号,因其兼顾速度、准确性和易用性而闻名。PP-YOLOE+ 推动了平均精度mAP)的发展,而YOLOv5 则凭借其无与伦比的开发人员体验和部署的多功能性,始终是实时推理应用的主导力量。
PP-YOLOE+:PaddlePaddle中的精密工程
PP-YOLOE+ 是 PP-YOLOE 的升级版本,由百度研究人员开发,是 PaddleDetection 套件的一部分。PP-YOLOE+ 是 PP-YOLOE 的升级版,由百度公司的研究人员开发,是 PaddleDetection 套件的一部分,旨在成为高效、先进的工业对象检测器,重点关注高精度任务。通过利用无锚架构,它简化了训练管道,减少了与基于锚的方法相关的超参数调整。
作者: PaddlePaddlePaddlePaddle 作者
组织:百度
日期:2022-04-02
Arxiv :https://arxiv.org/abs/2203.16250
GitHubPaddlePaddlehttps://github.com/PaddlePaddle/PaddleDetection/
文档:PaddlePaddle
建筑与创新
PP-YOLOE+ 的结构引入了若干先进机制,以改进特征表示和定位:
- 骨干网利用 CSPRepResNet 主干网,它结合了跨阶段局部(CSP)网络的梯度流优势和 RepVGG 的重新参数化技术。
- 无锚磁头:使用高效任务对齐磁头(ET-Head)来解耦分类和回归任务,从而提高收敛速度和准确性。
- 训练策略:结合任务对齐学习(TAL),动态分配正样本,确保在训练过程中优先考虑最高质量的预测。
- 损失函数采用 VariFocal Loss(VFL)和 Distribution Focal Loss(DFL)来处理类不平衡问题并提高边界框精度。
优势与劣势
PP-YOLOE+ 在对精度要求最高的情况下表现出色。它的无锚点设计消除了对锚点盒聚类的需求,使其能够适应对象形状各异的数据集。不过,它对 PaddlePaddle框架可能会成为使用 PyTorch或TensorFlow 标准化的团队来说是个障碍。虽然存在转换模型的工具,但与更普遍采用的框架相比,原生生态系统的支持范围较小。
生态系统考虑因素
虽然 PP-YOLOE+ 的理论性能令人印象深刻,但采用时往往需要熟悉PaddlePaddle 的特定语法和部署工具,这可能与标准PyTorch 工作流程有很大不同。
Ultralytics YOLOv5:视觉人工智能的全球标准
由 Glenn Jocher 于 2020 年发布、 Ultralytics YOLOv5从根本上改变了计算机视觉的面貌,使各种技能水平的开发人员都能获得最先进的物体检测技术。YOLOv5 由PyTorch 原生构建,注重 "训练效率 "和 "易用性",提供了一条从数据集整理到生产部署的无缝路径。
作者: Glenn JocherGlenn Jocher
组织: Ultralytics
日期:2020-06-26
GitHubyolov5https://github.com/ultralytics/yolov5
文档 :yolov5
架构和主要特性
YOLOv5 采用高度优化的基于锚的架构,在深度和宽度之间取得平衡,从而最大限度地提高吞吐量:
- CSPDarknet 主干网:跨阶段局部网络设计最大限度地减少了冗余梯度信息,在提高学习能力的同时减少了参数。
- 路径聚合网络(PANet Neck):路径聚合网络(PANet)可改善信息流,帮助模型在不同尺度上准确定位物体。
- 马赛克增强:一种先进的数据增强技术,可将四张训练图像合并为一张,从而显著提高模型detect 小型物体和适应新环境的能力。
- 遗传算法:自动超参数演化允许模型进行自我调整,以在自定义数据集上实现最佳性能。
优势和生态系统
YOLOv5 以其易用性而著称。API 非常直观,用户只需几行Python 代码就能加载模型并运行推理。
import torch
# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Print results
results.print()
除了代码之外,维护良好的生态系统也使YOLOv5 与众不同。频繁的更新、庞大的社区论坛以及与Comet 和ClearML 等MLOps工具的无缝集成都让用户受益匪浅。该模型的多功能性不仅限于简单的检测,还支持同一框架内的实例分割和图像分类任务。此外,与transformer架构相比,YOLOv5 模型在训练过程中对内存的要求通常较低,因此可以在消费级 GPU 上使用。
技术性能比较
在比较这两种模型时,除了考虑mAP 等标准精度指标外,还必须考虑推理速度和参数数量等影响实际效用的指标。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
结果分析
- 精度与速度:PP-YOLOE+ 的mAP 分数较高,尤其是在较大的变体(l 和 x)中,这得益于其无锚点头部和 TAL 策略。不过,YOLOv5 在性能平衡方面更胜一筹,在提供极具竞争力的精确度的同时,大大降低了延迟(参见TensorRT 速度)。这使得YOLOv5 特别适合毫秒必争的边缘人工智能应用。
- 资源效率:YOLOv5n (Nano) 非常轻巧,参数只有 2.6M,非常适合移动和物联网设备。虽然 PP-YOLOE+ 具有高效的骨干网,但与YOLOv5 的精简设计相比,其架构的复杂性可能会导致训练过程中内存使用量增加。
- 训练效率:YOLOv5 利用自动锚定(AutoAnchor)和超参数演化技术,从一开始就最大限度地提高性能。高质量的预训练权重允许快速迁移学习,大大缩短了开发时间。
实际应用案例
在这些模式中如何选择,往往取决于具体的部署环境。
PP-YOLOE+ 应用
PP-YOLOE+ 在学术研究和工业应用中经常受到青睐,特别是在百度基础设施普遍存在的亚洲市场。
- 自动缺陷检测:高精度有助于识别生产线上的细微划痕。
- 交通监控:能够在密集的车流中区分类似的车辆类型。
YOLOv5 应用
YOLOv5 的多功能性使其成为全球各行各业的首选解决方案。
- 智能农业:由于其在边缘设备上的运行速度,可用于实时作物健康监测和水果采摘机器人。
- 零售分析:为物品清点和库存管理系统提供动力,在商店服务器硬件上高效运行。
- 自主机器人:低延迟使无人机和机器人能够安全地在复杂环境中航行。
- 安防系统:可轻松集成到安全警报系统中,用于入侵检测。
部署灵活性
YOLOv5 可使用多种格式无缝导出,包括ONNX、TensorRT、CoreML 和TFLite 。 export 模式。这确保了模型一旦训练完成,几乎可以部署到任何地方,从 iPhone 到云服务器。
结论
PP-YOLOE+在无锚点检测方面取得了重大成就,在COCO 等基准测试中的准确性令人印象深刻、 Ultralytics YOLOv5仍然是大多数开发人员和商业应用的最佳选择。它将易用性、强大的维护良好的生态系统和出色的性能平衡完美结合,确保项目快速可靠地从概念转向生产。
对于寻求最新计算机视觉技术的用户,Ultralytics 还提供了 YOLO11,它在YOLOv5 的基础上进一步提高了检测、分割和姿势估计 任务的效率和能力。
了解更多
要了解性能更强的现代替代品,可以考虑查看以下内容:
- Ultralytics YOLO11:最先进的最新型号,提供最先进的精度和速度。
- Ultralytics YOLOv8:一个多功能模型,引入了检测、分割和分类的统一框架。
- RT-DETR:transformer实时检测器,满足高精度要求。
请访问我们的模型页面,查看适用于您下一个项目的全系列视觉人工智能解决方案。