跳转至内容

PP-YOLOE+ 与 YOLOv5:高精度检测与生产就绪性指南

选择最佳物体检测模型通常需要在原始学术指标和实际部署能力之间进行权衡。本技术比较研究了来自PaddlePaddle 生态系统的进化版无锚检测器PP-YOLOE+Ultralytics YOLOv5和 Ultralytics YOLOv5,后者是行业标准型号,因其兼顾速度、准确性和易用性而闻名。PP-YOLOE+ 推动了平均精度mAP)的发展,而YOLOv5 则凭借其无与伦比的开发人员体验和部署的多功能性,始终是实时推理应用的主导力量。

PP-YOLOE+:PaddlePaddle 中的精密工程

PP-YOLOE+ 是 PP-YOLOE 的升级版本,由百度研究人员作为 PaddleDetection 套件的一部分开发。它旨在成为一种高效、最先进的工业级目标 detect 器,专注于高精度任务。通过利用无anchor架构,它简化了训练流程并减少了通常与基于anchor方法相关的超参数调优。

作者: PaddlePaddle 作者
组织: Baidu
日期: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: https://github.com/PaddlePaddle/PaddleDetection/
文档: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

架构与创新

PP-YOLOE+ 的架构引入了几种先进机制,以改进特征表示和定位:

  • 主干网络:利用 CSPRepResNet,该主干网络结合了跨阶段局部(CSP)网络的梯度流优势和 RepVGG 的重参数化技术。
  • Anchor-Free Head: 使用高效的任务对齐头 (ET-Head) 来解耦分类和回归任务,从而提高收敛速度和准确性。
  • 训练策略:融合了任务对齐学习(TAL),以动态分配正样本,确保在训练期间优先考虑最高质量的预测。
  • 损失函数: 采用VariFocal Loss (VFL) 和 Distribution Focal Loss (DFL) 以处理类别不平衡并提高边界框精度。

优势与劣势

PP-YOLOE+ 在最大精度至关重要的场景中表现出色。其无anchor设计消除了对anchor boxes聚类的需求,使其能够适应具有不同对象形状的数据集。然而,它对PaddlePaddle框架的重度依赖可能成为已标准化使用 PyTorch 或 TensorFlow 的团队的障碍。尽管存在模型转换工具,但其原生生态系统支持不如更普遍采用的框架广泛。

生态系统考量

尽管 PP-YOLOE+ 提供了令人印象深刻的理论性能,但其采用通常需要熟悉 PaddlePaddle 特定的语法和部署工具,这可能与标准的 PyTorch 工作流程显著不同。

了解更多关于 PP-YOLOE+ 的信息

Ultralytics YOLOv5:视觉 AI 的全球标准

由 Glenn Jocher 于 2020 年发布,Ultralytics YOLOv5 通过使最先进的目标检测技术对所有技能水平的开发人员都触手可及,彻底改变了计算机视觉领域。YOLOv5 基于 PyTorch 原生构建,专注于“训练效率”和“易用性”,为从数据集整理到生产部署提供了无缝路径。

作者: Glenn Jocher
组织: Ultralytics
日期: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
文档: https://docs.ultralytics.com/models/yolov5/

架构和主要特性

YOLOv5 采用高度优化的基于锚框的架构,平衡了深度和宽度以最大化吞吐量:

  • CSPDarknet 主干网络:交叉阶段部分网络设计最大限度地减少了冗余梯度信息,在减少参数的同时增强了学习能力。
  • PANet 颈部:路径聚合网络 (PANet) 改善了信息流,帮助模型在不同尺度上准确地定位物体。
  • Mosaic 数据增强:一种先进的 数据增强 技术,将四张训练图像组合成一张,显著提高了模型 detect 小目标和泛化到新环境的能力。
  • 遗传算法:自动化超参数演进使模型能够针对自定义数据集进行自调优以获得最佳性能。

优势与生态系统

YOLOv5 以其易用性而备受赞誉。其 API 直观易用,允许用户仅用几行 Python 代码即可加载模型并运行推理。

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

除了代码之外,维护良好的生态系统使YOLOv5脱颖而出。用户受益于频繁的更新、庞大的社区论坛以及与Comet和ClearML等MLOps工具的无缝集成。模型的多功能性超越了简单的检测,在同一框架内支持实例分割图像分类任务。此外,与基于Transformer的架构相比,YOLOv5模型在训练期间通常表现出较低的内存需求,使其可在消费级GPU上使用。

了解更多关于 YOLOv5 的信息

技术性能比较

在比较这两个模型时,除了 mAP 等标准精度指标外,关注影响实际应用效用的指标(如推理速度和参数数量)至关重要。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

结果分析

  • 精度与速度:PP-YOLOE+ 展示了更高的 mAP 分数,尤其是在较大的变体(l 和 x)中,这得益于其无锚框头和 TAL 策略。但是,YOLOv5 提供了卓越的性能平衡,以显著更低的延迟提供极具竞争力的精度(请参阅 TensorRT 速度)。这使得 YOLOv5 特别适合边缘 AI 应用,在这些应用中,每一毫秒都很重要。
  • 资源效率:YOLOv5n (Nano) 极其轻量,仅有2.6M参数,使其成为移动和物联网设备的理想选择。尽管PP-YOLOE+具有高效的骨干网络,但与YOLOv5的流线型设计相比,其架构复杂性可能导致训练期间更高的内存使用。
  • 训练效率:YOLOv5 利用 AutoAnchor 和超参数演化从一开始就最大化性能。高质量预训练权重的可用性允许快速迁移学习,显著缩短了开发时间。

实际应用案例

这些模型之间的选择通常取决于具体的部署环境。

PP-YOLOE+ 应用

PP-YOLOE+ 在学术研究和工业场景中备受青睐,尤其是在百度基础设施普及的亚洲市场。

  • 自动化缺陷检测: 高精度有助于识别生产线上的微小划痕。
  • 交通监控:能够在密集车流中区分相似的车辆类型。

YOLOv5 应用

YOLOv5 的多功能性使其成为全球广泛行业的首选解决方案。

  • 智慧农业:由于其在边缘设备上的速度,可用于实时作物健康监测和采摘机器人。
  • 零售分析:为物体计数和库存管理系统提供支持,并在商店服务器硬件上高效运行。
  • 自动机器人:低延迟使无人机和机器人能够安全地在复杂环境中导航。
  • 安全系统:轻松集成到安全报警系统中,用于入侵检测。

部署灵活性

YOLOv5 可以无缝导出到多种格式,包括 ONNX、TensorRT、CoreML 和 TFLite,使用 export 模式。这确保了模型一旦训练完成,就可以部署到几乎任何地方,从 iPhone 到云服务器。

结论

尽管PP-YOLOE+在无锚点检测方面取得了显著成就,并在COCO等基准测试中展现出令人印象深刻的准确性,但Ultralytics YOLOv5对于大多数开发者和商业应用而言仍然是更优的选择。它在易用性、强大的维护良好的生态系统和卓越的性能平衡方面的成功结合,确保项目能够快速可靠地从概念走向生产。

对于寻求计算机视觉最新技术的用户,Ultralytics 还提供了YOLO11,它在 YOLOv5 的基础上,在检测、分割和姿势估计任务中具有更高的效率和能力。

了解更多

要探索提供增强性能特性的现代替代方案,可以查阅以下内容:

  • Ultralytics YOLO11: 最新的先进模型,提供最前沿的准确性和速度。
  • Ultralytics YOLOv8: 一种通用的模型,引入了用于 detect、segment 和分类的统一框架。
  • RT-DETR: 一种基于Transformer的实时检测器,适用于高精度要求的场景。

访问我们的模型页面,查看可用于您下一个项目的全系列视觉AI解决方案。


评论