PP-YOLOE+ 与YOLO-YOLO:技术比较
选择最佳物体检测模型是开发高效计算机视觉应用的关键一步。这需要在精度、推理延迟和硬件限制之间进行复杂的权衡。本技术比较探讨了亚洲科技巨头的两个著名模型:由百度PaddlePaddle 团队开发的PP-YOLOE+ 和阿里巴巴集团设计的YOLO-YOLO。这两个型号代表了实时探测器发展过程中的重大进步,提供了独特的架构创新和性能配置。
在分析这些模型时,不妨考虑一下视觉人工智能的更广阔前景。像 Ultralytics YOLO11等解决方案提供了令人信服的替代方案,这些方案具有最先进的性能,同时注重可用性和强大的、与框架无关的生态系统。
性能指标比较
下表列出了关键性能指标的直接比较,包括平均精度(mAP)、T4 GPU 使用 TensorRT的推理速度、参数数量和计算复杂度(FLOPs)。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+:桨叶生态系统中的精确度改进
PP-YOLOE+是PP-YOLOE的进化版,代表了百度的旗舰单级无锚检测器。作为PaddleDetection套件的一部分,它于 2022 年发布,强调高精度检测,并针对PaddlePaddle 深度学习框架进行了深度优化。
技术细节:
- 作者: PaddlePaddle Authors
- 组织机构:百度
- 日期: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- 文档:PP-YOLOE+ 文档
架构与核心技术
PP-YOLOE+ 集成了多个先进组件,可简化检测流程,同时提高准确性。
- 无锚机制:通过移除预定义锚框,该模型降低了超参数调整的复杂性,并加快了训练收敛速度,这也是许多现代架构的发展趋势。
- CSPRepResNet 主干网:该模型采用 CSPRepResNet主干网,它将跨阶段局部(CSP)网络的梯度流优势与重新参数化 ResNet 块的推理效率相结合。
- 任务对齐学习(TAL):为了解决分类可信度与定位质量之间的差异,PP-YOLOE+ 采用了 TAL。这种动态标签分配策略可确保在训练过程中优先考虑最高质量的预测。
- 高效任务对齐头(ET-Head):解耦检测头将分类和回归功能分开,使每项任务都能独立优化,互不干扰。
生态系统依赖性
PP-YOLOE+ 是PaddlePaddle 的原生软件。虽然在该环境中非常有效,但熟悉PyTorch 的用户可能会发现过渡和工具(如 paddle2onnx 导出)与本地PyTorch 模型相比,需要额外的学习。
优势与劣势
优势: PP-YOLOE+ 在优先考虑原始精度的情况下表现出色。中型"、"大型 "和 "超大型 "变体在COCO 数据集上显示出强大的mAP 分数,使其适用于工业质量控制等详细检测任务。
弱点:
其主要局限是框架耦合。工具、部署路径和社区资源主要以PaddlePaddle 为中心,这对于在PyTorch 或TensorFlow 生态系统中建立起来的团队来说可能是一个摩擦点。此外,其较小模型(如 s)的效率非常高,但其大型模型的计算量可能很大。
DAMO-YOLO:阿里巴巴以速度为导向的创新
阿里巴巴集团于 2022 年底推出的YOLO 瞄准了低延迟和高性能之间的最佳平衡点。它利用广泛的神经架构搜索(NAS)来自动发现高效结构。
技术细节:
- 作者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang 和 Xiuyu Sun
- 组织机构阿里巴巴集团
- 日期: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- 文档:YOLO 文件
架构和主要特性
YOLO 的特点是积极优化推理速度。
- MAE-NAS 主干网:作者没有手工制作特征提取器,而是使用方法感知高效 NAS 生成具有不同深度和宽度的骨架,优化特定的计算预算。
- 高效的 RepGFPN:颈部架构是广义特征金字塔网络(GFPN),它利用重新参数化来最大限度地提高特征融合效率,同时最大限度地减少硬件延迟。
- ZeroHead 技术:其突出特点是 "ZeroHead",它简化了最终预测层,大大减少了FLOP,将重任留给了骨干和颈部。
- AlignedOTA:这种标签分配策略将分类目标和回归目标统一起来,确保在训练过程中选取的 "正 "样本能最有效地减少最终损失。
优势与劣势
优势: YOLO 速度极快。其 "微小 "和 "小型 "模型的速度提供了令人印象深刻的mAP ,在实时推理场景中优于许多竞争对手。这使其非常适合于毫秒级延迟非常重要的边缘人工智能应用,如自主无人机或交通监控。
弱点 作为一个以研究为中心的版本,DAMO-YOLO 可能缺乏更成熟项目中的完善部署工具和大量文件。它对特定 NAS 结构的依赖也会使希望修改架构的用户的定制和微调变得更加复杂。
Ultralytics 的优势:为什么YOLO11 是最佳选择?
PP-YOLOE+ 和YOLO 则在各自领域提供了具有竞争力的功能、 Ultralytics YOLO11是现代计算机视觉领域最均衡、最多才多艺、对开发人员最友好的解决方案。
无与伦比的易用性和生态系统
Ultralytics 将用户体验放在首位,实现了人工智能的民主化。与可能需要复杂设置的研究资源库不同,YOLO11 可以通过简单的 pip 安装和直观的Python API 访问。Ultralytics 生态系统得到积极维护,确保与最新硬件(如NVIDIA Jetson、苹果 M 系列芯片)和软件库兼容。
最佳性能平衡
YOLO11 的设计目的是在不影响速度的情况下提供最先进的精度。在保持实时应用所需的推理效率的同时,它的精度往往能达到或超过 PP-YOLOE+ 等模型。这种平衡对于实际部署至关重要,因为在实际部署中,精度和吞吐量都是不可妥协的。
效率和多功能性
Ultralytics 模型的主要优势之一是其多功能性。YOLO 和 PP-YOLOE+ 主要侧重于物体检测,而单一的YOLO11 模型架构则支持:
此外,与许多transformer替代方案或旧版YOLO 相比,YOLO 经过优化,在训练和推理过程中对内存的要求更低。这种效率使开发人员能够在标准 GPU 上训练更大的批次规模,并在更受限制的边缘设备上部署。
培训效率
有了现成的预训练权重和优化的训练管道,用户就能以最短的训练时间在自定义数据集上实现高性能。
示例:运行YOLO11
使用Ultralytics 可以直接部署高级视觉功能。
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
结论
PP-YOLOE+ 和YOLO 都是对计算机视觉领域的巨大贡献。PP-YOLOE+是将用户深度嵌入到 PaddlePaddle生态系统中要求高精度的用户的理想选择。YOLO提供了创新的架构选择,可最大限度地提高边缘设备的速度。
然而,对于绝大多数开发人员和企业来说,Ultralytics 并不能满足他们的需求、 Ultralytics YOLO11仍然是值得推荐的选择。它结合了 PyTorch本机支持、多任务通用性、出色的文档和活跃的社区支持,大大缩短了人工智能解决方案的上市时间。无论您是在构建安防报警系统还是制造质量控制管道,YOLO11 都能提供成功所需的可靠性和性能。