Link to this sectionYOLO26 与 YOLOv5#
计算机视觉的演进始终由对速度、准确性和易用性的不懈追求所定义。选择正确的架构对于任何 AI 项目的成功都至关重要。在这份综合指南中,我们将比较 Ultralytics 发布的两个里程碑式版本:开创性的 YOLOv5 和突破性的 YOLO26。虽然两者都对实时 目标检测 的领域产生了深远影响,但它们底层的技术反映了神经网络处理视觉数据方式的巨大范式转移。
Link to this section模型概览#
在深入探讨架构细节之前,让我们先了解这两个模型的基础信息。
YOLO26 详细信息:
- 作者:Glenn Jocher 和 Jing Qiu
- 组织:Ultralytics
- 日期:2026-01-14
- GitHub: https://github.com/ultralytics/ultralytics
- 文档:YOLO26 文档
YOLOv5 详细信息:
- 作者:Glenn Jocher
- 组织:Ultralytics
- 日期:2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- 文档:YOLOv5 文档
Link to this section架构创新#
YOLOv5 和 YOLO26 之间六年的差距代表了深度学习研究的巨大飞跃。YOLOv5 普及了 PyTorch 在视觉模型中的广泛应用,提供了高度优化且基于锚框的检测机制,并成为了行业标准。然而,它在后处理过程中严重依赖 非极大值抑制 (NMS),这可能会在资源受限的设备上引入延迟瓶颈。
YOLO26 通过 端到端无 NMS 设计 完全重构了推理流水线。通过消除对 NMS 后处理的需求,YOLO26 提供了更快、更简单的部署逻辑,这一概念最早在 YOLOv10 中引入,并在此得到了完善。此外,YOLO26 引入了 DFL 移除 (Distribution Focal Loss) 功能,极大简化了输出头。这使得将模型导出为 ONNX 和 TensorRT 等格式变得异常顺畅,确保了与边缘设备和低功耗设备的极佳兼容性。
在训练期间,YOLO26 采用了前沿的 MuSGD 优化器,这是一种受 Moonshot AI 的 Kimi K2 启发、结合了 SGD 和 Muon 的混合优化器。这为计算机视觉领域带来了大模型训练的创新,相比 YOLOv5 中使用的传统 SGD 或 AdamW 优化器,确保了极高的训练稳定性并显著加快了收敛速度。
Link to this section性能与指标#
在评估模型时,平均精度均值 (mAP) 与推理速度之间的平衡决定了其在实际场景中的可行性。YOLO26 原生针对高端 GPU 和边缘 CPU 进行了优化。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
基准测试揭示了令人震惊的改进。例如,YOLO26n 的 mAP 达到了 40.9,而 YOLOv5n 为 28.0,同时它还提供了 高达 43% 的 CPU 推理速度提升。这使得 YOLO26 在 Raspberry Pi 等嵌入式部署或移动设备上表现优异。虽然 YOLOv5 在 Nano 尺度的 TensorRT GPU 速度上略有优势,但准确率的权衡使得 YOLO26 更具优势。
Link to this section训练生态系统与易用性#
这两个模型都极大受益于维护完善的 Ultralytics 生态系统。它们通过精简的 Python API、详尽的文档和活跃的社区支持,提供了从零到一的上手体验。不过,YOLO26 将训练效率提升到了新的高度。
相比于重度依赖 Transformer 的替代方案,Ultralytics 模型在训练时始终需要显著更少的 CUDA 内存。YOLO26 通过其 ProgLoss + STAL 损失函数进一步增强了这一优势。这些进步在不增加额外内存开销的情况下,在小目标识别方面取得了显著改善。
from ultralytics import YOLO
# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model with the MuSGD optimizer (default for YOLO26)
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16, device=0)
# Run fast, NMS-free inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()这段简单的脚本允许开发者快速迭代 自定义数据集,无缝地从数据采集过渡到生产就绪模型。
使用 Ultralytics 平台,你可以自动将训练好的 YOLO26 模型导出为 CoreML 或 TensorFlow Lite 等格式,而无需编写任何转换代码。
Link to this section通用性与理想用例#
Link to this section何时使用 YOLOv5#
YOLOv5 仍然是旧系统的可靠主力。如果你的现有工业流水线严重耦合于基于锚框的输出,或者你正在使用带有成熟、固定 TensorRT 栈的旧款 NVIDIA Jetson 设备,YOLOv5 提供了稳定且文档齐全的解决方案。
Link to this section何时使用 YOLO26#
YOLO26 是现代计算机视觉项目的最终选择。其多功能性远超前代产品。虽然 YOLOv5 主要专注于检测(后期增加了分割功能),但 YOLO26 对 实例分割、姿态估计、图像分类 和 旋转边界框 (OBB) 提供了深度原生支持。
YOLO26 引入了 特定任务改进,例如专门的语义分割损失、用于超高精度姿态关键点的残差对数似然估计 (RLE),以及用于解决复杂边界问题的 OBB 高级角度损失。
- 边缘 IoT 和机器人: 无 NMS 架构和快 43% 的 CPU 推理速度使得 YOLO26 成为实时机器人导航和智能家居摄像头的理想之选。
- 航拍影像: ProgLoss + STAL 的增强功能使得从无人机检测微小物体(如停车场中的车辆或农田中的作物)变得更加可靠。
- 实时视频分析: 无论是追踪体育广播中的运动员还是监控交通流量,YOLO26 的性能平衡确保了高召回率且不会掉帧。
归根结底,Ultralytics 对可访问、高性能生态系统的承诺确保了从 YOLOv5 到 YOLO26 的过渡是无缝的,为研究人员和开发者解锁了顶尖的技术能力。