Ultralytics YOLO26 与 PP-YOLOE+:技术比较
实时目标 detect 领域不断发展,研究人员和工程师都在努力寻求准确性、速度和部署便捷性之间的最佳平衡。该领域有两个突出的模型:Ultralytics YOLO26 和 PP-YOLOE+。尽管这两个模型都代表了计算机视觉领域的重大进步,但它们迎合了不同的生态系统需求和架构理念。
本指南提供了一份全面的技术比较,剖析了它们的架构、性能指标以及对实际应用的适用性。我们将探讨 YOLO26 的现代创新如何与 PP-YOLOE+ 的既定框架形成对比。
模型概述与起源
了解这些模型的演变有助于阐明它们的设计目标和目标用户群。
Ultralytics YOLO26
由 Glenn Jocher 和 Jing Qiu 于 2026 年 1 月在 Ultralytics 发布,YOLO26 代表了著名 YOLO 系列的最新演进。它专为边缘和低功耗设备而设计,侧重于原生端到端效率。
主要创新包括移除非极大值抑制 (NMS) 以简化推理,引入了 MuSGD 优化器(灵感来自 Moonshot AI 的 Kimi K2),以及显著的架构简化,例如移除分布式焦点损失 (DFL)。这些改变使其成为需要速度和简单性而不牺牲准确性的开发人员的强大选择。
PP-YOLOE+
PP-YOLOE+ 是 PP-YOLOE 的升级版,由百度 PaddlePaddle 团队开发。它于 2022 年 4 月左右发布,基于 PaddlePaddle 深度学习框架构建。它专注于改进 CSPRepResStage 主干网络,并利用一种称为 TAL(任务对齐学习)的动态标签分配策略。尽管功能强大,但它与 PaddlePaddle 生态系统紧密耦合,这可能会影响习惯于 PyTorch 或其他框架的用户的部署选择。
架构与设计理念
这两个模型的核心区别在于它们如何处理标签分配、后处理和训练优化。
YOLO26:端到端革命
YOLO26 具有独特的端到端特性,这意味着它直接从网络生成最终预测,而无需单独的 NMS 后处理步骤。这一设计选择在 YOLOv10 中首创,消除了与调整 NMS 阈值相关的延迟和复杂性。
- 移除 DFL:通过移除分布式焦点损失 (Distribution Focal Loss),YOLO26 简化了模型图,使得 ONNX 和 TensorRT 等导出格式更加简洁,并与边缘硬件更兼容。
- MuSGD 优化器:作为 SGD 和 Muon 的混合体,该优化器将 LLM 训练中观察到的稳定性改进引入计算机视觉,确保更快的收敛。
- 小目标聚焦:诸如 ProgLoss 和 小目标感知标签分配 (STAL) 等特性专门针对小目标 detect的改进,这对于航空影像和无人机应用至关重要。
PP-YOLOE+:精炼的无锚点 detect
PP-YOLOE+ 遵循无锚范式,但与 YOLO26 的端到端方法相比,它依赖于更传统的后处理流程。
- 主干网络:它采用 CSPRepResStage 主干网络,该网络将 rep-vgg 风格的块与 CSP(跨阶段部分)连接相结合。
- 标签分配:它采用任务对齐学习 (TAL),动态对齐分类分数和定位质量。
- 重点:“Plus”版本通过使用更好的预训练权重(通常在 Objects365 上)进行初始化,强调训练速度和收敛性的改进。
为何端到端至关重要
对于边缘部署,每一毫秒都至关重要。一个端到端无 NMS 设计意味着模型输出可以立即使用。无需对数千个候选框进行 CPU 密集型排序和过滤,这在 Raspberry Pi 等有限硬件上运行的传统 detect 器中是一个常见的瓶颈。
性能指标比较
下表对比了 YOLO26 和 PP-YOLOE+ 在 COCO 数据集上的性能。YOLO26 展示了卓越的效率,尤其是在参数数量和推理速度方面,突出了其对现代硬件的优化。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
主要收获:
- 效率:YOLO26n 实现了比 PP-YOLOE+t (39.9 mAP) 更高的准确率 (40.9 mAP),同时参数量大约是其一半 (2.4M vs 4.85M),FLOPs 约为其四分之一 (5.4B vs 19.15B)。
- 速度:YOLO26在GPU推理(T4 TensorRT)上显著更快,nano模型耗时1.7毫秒,而同等PP-YOLOE+模型则为2.84毫秒。
- CPU 优化:YOLO26专门针对CPU进行了优化,推理速度可提升高达43%,使其成为缺乏专用加速器的设备的理想选择。
训练与生态系统
开发者体验不仅由模型架构决定,还由其周围的工具决定。
Ultralytics的易用性
Ultralytics优先提供无缝的用户体验。YOLO26集成到一个统一的python包中,支持detect、segment、姿势估计、分类和旋转框检测 (obb)。
开发者可以通过直观的CLI或python API在几秒钟内开始训练:
from ultralytics import YOLO
# Load the YOLO26s model
model = YOLO("yolo26s.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
这个生态系统延伸到轻松部署。该 export 模式支持转换为诸如 OpenVINO, CoreML和 TensorRT 只需一个命令。
PP-YOLOE+ 与 PaddlePaddle
PP-YOLOE+ 深度集成到 PaddlePaddle 框架中。虽然功能强大,但如果用户不熟悉百度生态系统,通常会面临更陡峭的学习曲线。训练通常涉及配置复杂的 yaml 文件并使用特定的 PaddleDetection 脚本。将模型移植到非 Paddle 推理引擎有时可能需要额外的转换步骤(例如,从 Paddle 到 ONNX 再到 TensorRT)。
应用案例与应用
YOLO26 的理想应用场景
- 边缘 AI 和物联网:由于其低 FLOPs 和移除了 DFL,YOLO26 在 Raspberry Pi 或 NVIDIA Jetson 等设备上表现出色。
- 实时视频分析:其高推理速度使其非常适合对帧率要求严格的交通监控或安全监控场景。
- 航空和无人机图像:STAL 和 ProgLoss 函数在从高空检测小目标方面提供了显著优势。
- 多任务需求:需要姿势估计或实例分割以及目标检测的项目,可以使用相同的 API 和模型系列。
PP-YOLOE+ 的理想应用场景
- 数据中心部署:适用于拥有大规模 GPU 集群,且原始参数效率的重要性低于特定架构偏好的场景。
- PaddlePaddle 遗留系统:已在 PaddlePaddle 基础设施上投入大量资源的组织,会发现升级到 PP-YOLOE+ 比切换框架更容易。
结论
虽然 PP-YOLOE+ 仍然是一个有竞争力的检测器,但Ultralytics YOLO26 为绝大多数计算机视觉应用提供了更现代、高效且用户友好的解决方案。其端到端无 NMS 设计,结合了最先进的准确性和最小的资源使用,使其成为寻求在 2026 年部署强大 AI 解决方案的开发人员的卓越选择。
与 Ultralytics 生态系统的无缝集成确保了从数据标注到部署的整个工作流程保持流畅高效。
延伸阅读
对于那些有兴趣探索其他选项或前几代模型的人,请查阅以下文档: