PP-YOLOE+ 与YOLO11:综合技术比较
选择最佳的物体检测模型需要对架构、推理速度和集成能力进行仔细分析。本指南对百度PaddlePaddle 生态系统中的高精度模型PP-YOLOE+ 和 Ultralytics 进行了详细的技术比较。 Ultralytics YOLO11进行了详细的技术比较。这两个框架都具有强大的检测能力,而YOLO11 则通过卓越的计算效率、统一的多任务框架和对开发人员无与伦比的易用性脱颖而出。
PP-YOLOE+:PaddlePaddle 生态系统中的高精度
PP-YOLOE+ 是 PP-YOLOE 的进化版,由百度研究人员开发。它是一种无锚、单级对象检测器,旨在提高训练收敛速度和下游任务性能。它严格建立在PaddlePaddle 框架内,利用 CSPRepResNet 主干网和动态标签分配策略,在COCO 等基准测试中获得了极具竞争力的准确率。
作者: PaddlePaddle 作者:
机构:百度
日期:2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHubPaddlePaddle
Docs:PaddlePaddle
主要建筑特点
PP-YOLOE+ 的架构侧重于完善速度与准确性之间的权衡。它采用了高效任务对齐头(ET-Head),以更好地平衡分类和定位任务。该模型采用了一种称为 "任务对齐学习(TAL)"的标签分配机制,有助于在训练过程中选择高质量的阳性结果。然而,由于该模型严重依赖PaddlePaddle 生态系统,将其集成到PyTorch工作流程中往往需要复杂的模型转换过程。
Ultralytics YOLO11:视觉人工智能的新标准
Ultralytics YOLO11 代表了实时计算机视觉的最前沿。它由 Glenn Jocher 和 Jing Qiu 设计,以 YOLOv8 的成功为基础。 YOLOv8的成功基础上,推出了更快、更准确、更高效的模型。YOLO11 不仅仅是一个对象检测器,它还是一个多功能基础模型,能够在一个统一的代码库中处理实例分割、姿势估计 、图像分类和定向边界框(旋转框检测)检测。
作者: Glenn Jocher, Jing QiuGlenn Jocher, Jing Qiu
组织机构:Ultralytics
日期:2024-09-27
GitHubultralytics
文档yolo11
结构和优势
YOLO11 引入了一种改进的架构,在最大限度地提高特征提取效率的同时,最大限度地减少了计算开销。与前几代产品和 PP-YOLOE+ 等竞争对手相比,YOLO11 采用了增强型主干和头部设计,减少了总参数数。这种复杂性的降低使边缘设备和云 GPU 的推理速度更快,同时又不影响准确性。此外,YOLO11 在设计时还考虑到了内存效率,与transformer模型或老式重型架构相比,YOLO11 在训练过程中所需的GPU 内存更少。
性能分析:指标和基准
对性能指标的比较显示,两个模型在效率和可扩展性方面存在明显差异。YOLO11 始终在速度和准确性之间保持着出色的平衡,特别是在考虑到所需计算资源的情况下。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
效率与速度
这些数据凸显了YOLO11 在模型效率方面的显著优势。例如,YOLO11x与 PP-YOLOE+x 的54.7mAP相匹配,但与PaddlePaddle 模型的 9842 万个庞大参数相比,YOLO11x只需5690万个参数即可实现这一目标。这意味着模型大小减少了 40% 以上,直接降低了存储要求,加快了加载时间。
在实时推理方面,YOLO11 在 T4GPU 基准测试的所有模型大小上都优于 PP-YOLOE+。这种差异对于自动驾驶或高速工业分拣等对延迟敏感的应用至关重要。此外,YOLO11 的CPU 基准的可用性强调了其对各种硬件环境的优化,包括那些没有专用加速器的硬件环境。
培训方法和易用性
这两种模式的用户体验大相径庭,这主要是由其底层生态系统造成的。
Ultralytics 生态系统优势
Ultralytics YOLO11 得益于一个成熟、维护良好的生态系统,该系统将开发人员的工作效率放在首位。
- 易于使用:通过简单的Python API,开发人员只需几行代码即可加载、训练和部署模型。入门门槛极低,使初学者和专家都能使用高级人工智能。
- 训练效率: YOLO11 支持使用现成的预训练权重进行高效训练。该框架可自动处理数据扩充和超参数调整等复杂任务。
- 内存要求:与其他架构相比,YOLO 模型经过优化,在训练过程中消耗的CUDA 内存更少,因此用户可以在消费级硬件上训练更大批量或更高分辨率的模型。
简单的Python 界面
在自定义数据集上训练YOLO11 模型就像指向 YAML 文件一样简单:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)
PP-YOLOE+ 工作流程
使用 PP-YOLOE+ 通常需要采用PaddlePaddle 框架。这个生态系统虽然功能强大,但不如PyTorch 那么普及,对于已经在PyTorch 或TensorFlow 环境中建立起来的团队来说,学习曲线可能会比较陡峭。定制培训通常涉及修改复杂的配置文件,而不是使用精简的程序界面,社区资源虽然在不断增长,但不如全球YOLO 社区广泛。
多功能性和实际应用
两者的主要区别在于它们的多功能性。PP-YOLOE+ 主要侧重于物体检测。相比之下,YOLO11 是一个多任务的强大工具。
YOLO11:超越检测
YOLO11 的架构支持多种计算机视觉任务:
- 实例分割:精确勾勒物体轮廓,用于医学图像分析或自动驾驶汽车感知等应用。
- 姿势估计跟踪关键点,用于运动分析或理疗监测。
- 旋转框检测(Oriented Bounding Boxes):检测旋转物体,这对航空图像和卫星分析至关重要。
理想用例
- 制造和质量控制: YOLO11 的高速度使其能够跟上快速装配线的步伐,实时检测缺陷。其细分功能可进一步识别缺陷的确切形状。
- 边缘计算: YOLO11 性能均衡,参数数量较少,是在NVIDIA Jetson或 Raspberry Pi 等边缘设备上部署的最佳选择。
- 智能城市:对于交通监控等应用,YOLO11 能够track 物体并估算速度,在单一型号中提供了全面的解决方案。
结论建议的选择
虽然 PP-YOLOE+ 仍是PaddlePaddle 领域内一款功能强大的探测器、 Ultralytics YOLO11是绝大多数开发人员和研究人员的最佳选择。
YOLO11 在速度和准确性之间进行了更有利的权衡,消耗更少的计算资源,并在多种视觉任务中提供了无与伦比的多功能性。YOLO11 拥有活跃的社区、丰富的文档以及与Ultralytics HUB 等工具的无缝集成,使用户能够更高效、更轻松地构建和部署强大的人工智能解决方案。
对于那些希望充分发挥现代计算机视觉潜力而又不想受框架锁定影响的人来说,YOLO11 是前进的必经之路。
探索其他比较
要进一步了解YOLO11 在竞争中的优势,请浏览我们的其他详细比较: