YOLO26 与 YOLOv5:目标检测的代际飞跃
计算机视觉的发展一直由对速度、准确性和可访问性的不懈追求所定义。选择正确的架构对任何 AI 项目的成功都至关重要。在这份全面的指南中,我们比较了 Ultralytics 的两项里程碑式发布:开创性的YOLOv5和突破性的YOLO26。尽管两者都极大地影响了实时目标检测的格局,但其底层技术反映了神经网络处理视觉数据方式的巨大范式转变。
模型概述
在深入探讨架构细节之前,让我们先确立这两种模型的基础细节。
YOLO26 详情:
- 作者:Glenn Jocher 和 邱静
- 组织:Ultralytics
- 日期:2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- 文档:YOLO26 文档
YOLOv5 详情:
- 作者:Glenn Jocher
- 组织:Ultralytics
- 日期:2020-06-26
- GitHub: https://github.com/Ultralytics/YOLOv5
- 文档:YOLOv5 文档
探索其他选项
虽然本指南侧重于 YOLO26 和 YOLOv5,但迁移传统系统的开发者可能也会对比较YOLO11或开创性的无 NMS 架构YOLOv10感兴趣。两者都为特定的部署环境提供了出色的垫脚石。
架构创新
YOLOv5和YOLO26之间长达六年的差距代表了深度学习研究的巨大飞跃。YOLOv5普及了PyTorch在视觉模型中的广泛应用,提供了一种高度优化、基于锚点的检测机制,成为行业标准。然而,它在后处理过程中严重依赖非极大值抑制 (NMS),这可能会在资源受限的设备上引入延迟瓶颈。
YOLO26 通过端到端NMS-Free设计,彻底重塑了推理流程。通过消除NMS后处理的需求,YOLO26 提供了更快、更简化的部署逻辑,这一概念最初由YOLOv10首创,但在此得到了完善。此外,YOLO26 还具备DFL移除(分布焦点损失),这极大地简化了输出头。这使得模型导出到ONNX和TensorRT等格式变得异常顺畅,确保了与边缘和低功耗设备的出色兼容性。
在训练期间,YOLO26 采用了尖端的 MuSGD 优化器,这是一种受 月之暗面 Kimi K2 启发的 SGD 和 Muon 混合优化器。这使得大型语言模型 (LLM) 的训练创新进入计算机视觉领域,与 YOLOv5 中使用的传统 SGD 或 AdamW 优化器相比,保证了高度稳定的训练和显著更快的收敛速度。
性能与指标
在评估模型时,平均精度 (mAP)与推理速度之间的平衡决定了实际应用的可行性。YOLO26 原生优化,适用于高端 GPU 和边缘 CPU。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
基准测试揭示了惊人的改进。例如, YOLO26n 达到 40.9 的 mAP,相比之下 YOLOv5n的28.0,同时提供 CPU 推理速度最高可提升 43%. 这使得YOLO26在嵌入式部署方面具有显著优势,例如 Raspberry Pi 或移动设备。虽然YOLOv5在Nano规模的TensorRT GPU速度上略有优势,但精度权衡明显倾向于YOLO26。
训练生态系统与易用性
这两种模型都极大地受益于维护良好的 Ultralytics 生态系统。它们通过精简的 python API、详尽的文档和活跃的社区支持,提供“从零到精通”的体验。然而,YOLO26 将训练效率提升到了一个新的水平。
Ultralytics 模型在训练期间持续要求显著更低的 CUDA 内存,相比于依赖 Transformer 的替代方案。YOLO26 通过其 ProgLoss + STAL 损失函数进一步增强了这一点。这些进步在不增加内存开销的情况下,显著提升了小目标识别能力。
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
这个简单的脚本使开发者能够快速迭代 自定义数据集,无缝地从数据摄取过渡到生产就绪模型。
轻松部署
使用Ultralytics Platform,您可以自动将训练好的YOLO26模型导出为CoreML或TensorFlow Lite等格式,无需编写任何转换代码。
多功能性和理想用例
何时使用 YOLOv5
YOLOv5仍然是传统系统的可靠主力。如果您现有的工业管线与基于锚点的输出紧密耦合,或者您正在旧款NVIDIA Jetson设备上运行推理,并且使用成熟、固定的TensorRT堆栈,YOLOv5提供了一个稳定且文档完善的解决方案。
何时使用 YOLO26
YOLO26 是现代计算机视觉项目的明确选择。其多功能性远超其前身。虽然 YOLOv5 主要侧重于 detect(后来增加了 segment 功能),但 YOLO26 为实例分割、姿势估计、图像分类和旋转框检测 (OBB)提供了深度原生支持。
YOLO26 引入了 特定任务改进,例如专用的语义分割损失,用于超精确姿势关键点的残差对数似然估计 (RLE),以及用于 obb 的高级角度损失,以解决棘手的边界问题。
- 边缘物联网与机器人技术:无NMS架构以及43%更快的CPU推理速度,使YOLO26成为实时机器人导航和智能家居相机的理想选择。
- 航空影像:ProgLoss + STAL 增强功能使得从无人机 detect 微小目标(例如停车场中的车辆或农田中的作物)变得更加可靠。
- 实时视频分析:无论是 track 体育广播中的运动员还是监控交通流量,YOLO26 的性能平衡确保了高召回率且不丢帧。
最终,Ultralytics 对构建易用、高性能生态系统的承诺,确保从 YOLOv5 到 YOLO26 的过渡无缝顺畅,为研究人员和开发人员解锁最先进的功能。