YOLOv5 vs YOLO26:实时detect的代际飞跃。
计算机视觉的发展一直由对更快、更准确、更易于访问模型的持续推动所定义。当比较Ultralytics YOLOv5与尖端Ultralytics YOLO26时,我们看到的是一场范式转变,它弥合了稳健的传统系统与现代 AI 部署前沿之间的差距。
本指南提供了这两种架构的全面技术剖析,重点介绍了它们的性能指标、结构差异和理想部署场景。
模型概述
YOLOv5:行业主力
YOLOv5 于2020年发布,革新了物体检测的易用性。通过将架构原生迁移到 PyTorch 框架,它为开发者提供了前所未有的“从零到英雄”的体验。
- 作者: Glenn Jocher
- 组织:Ultralytics
- 日期: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- 文档:YOLOv5 文档
YOLOv5 为高度维护的 Ultralytics 生态系统奠定了基础。它引入了激进的数据增强技术、高效的训练循环以及到 CoreML 和 ONNX 等边缘格式的高度优化导出路径。其易用性和训练期间的低内存需求使其成为全球初创公司和研究人员的必备工具。
YOLO26:下一代视觉AI标准
快进到 2026 年 1 月,Ultralytics YOLO26 代表了实时视觉 AI 的巅峰。它原生集成了从 YOLOv8 和 YOLO11 等中间代吸取的经验教训,同时引入了受大型语言模型 (LLM) 训练启发的大规模突破。
- 作者:Glenn Jocher 和 Jing Qiu
- 组织:Ultralytics
- 日期: 2026-01-14
- GitHub:https://github.com/ultralytics/ultralytics
- 文档:YOLO26 文档
YOLO26 为性能平衡树立了新标杆,提供最先进的准确性,同时明确设计用于主导边缘计算场景。
其他Ultralytics模型
如果您正在迁移旧代码库,您可能还会对比较 YOLOv5 与YOLO11感兴趣,YOLO11 是引入了对姿势估计和旋转框检测 (OBB) 等多种任务的初始支持的上一代模型。
YOLO26 的架构突破
尽管YOLOv5依赖于基于锚点的detect头和标准损失函数,但YOLO26彻底改革了内部机制以消除部署瓶颈。
- 端到端免NMS设计:最显著的区别在于YOLO26原生的端到端架构。与YOLOv5不同,YOLOv5需要手动进行非极大值抑制(NMS)来过滤冗余边界框,而YOLO26则完全消除了这一后处理步骤。这确保了确定性的推理延迟,并极大地简化了在C++或嵌入式硬件中的集成。
- DFL移除:YOLO26移除了分布式焦点损失(DFL)。这种架构选择大幅简化了模型导出,并增强了与低功耗边缘设备和微控制器的兼容性,这些设备通常难以处理复杂算子。
- MuSGD 优化器:借鉴 Moonshot AI 的 Kimi K2,YOLO26 采用了 MuSGD 优化器,它是 SGD 和 Muon 的混合体。这使得 LLM 训练中观察到的稳定性和快速收敛性得以应用于计算机视觉,与重型 Transformer 模型相比,内存使用量更低,训练周期更快。
- ProgLoss + STAL: YOLO26 采用了先进的 ProgLoss 和 STAL 函数,大幅提升了其 detect 小型和密集目标的能力——这是 YOLOv5 长期以来的一个挑战。
性能对比
在COCO数据集上比较这些模型时,YOLO26在精度(mAP)方面展现出巨大提升,同时减少了参数数量和CPU推理速度。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
注:YOLO26 Nano (YOLO26n) 实现了惊人的 40.9 mAP,而 YOLOv5n 为 28.0 mAP,同时提供高达 43% 更快的 CPU 推理速度,这得益于 DFL 移除和无 NMS 的头部。
通用性与任务支持
YOLOv5主要以detect而闻名。虽然后续更新引入了基本的segment功能,但YOLO26从一开始就被设计为一个统一的多任务引擎。
YOLO26 原生支持:
- 实例 segment: 具有任务特定的多尺度原型和语义 segment 损失。
- 姿势估计:利用残差对数似然估计 (RLE) 实现高精度关键点检测。
- 旋转边界框 (旋转框检测):包括专门的角度损失函数以解决边界不连续性问题,这对于卫星图像分析至关重要。
- 图像分类:标准全图像分类。
生态系统集成
这两种模型都受益于 Ultralytics Platform,提供无缝数据标注、自动化超参数调优和一键式云部署。然而,YOLO26 充分利用了现代 API 结构。
用法与代码示例
Ultralytics python API 使模型之间的切换变得异常简单。因为这两个模型共享同一个维护良好的生态系统,将传统的 YOLOv5 管道更新到 YOLO26 只需更改权重文件。
Python 示例
from ultralytics import YOLO
# To use YOLOv5, load a v5 weights file
# model = YOLO("yolov5su.pt")
# Migrate to the recommended YOLO26 model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset using the efficient MuSGD optimizer
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
batch=32, # YOLO26's low memory footprint allows larger batch sizes
)
# Run an NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()
CLI 示例
您可以通过命令行直接部署 YOLO26,使用 TensorRT 集成以实现最大 GPU 吞吐量:
# Export the model to TensorRT format
yolo export model=yolo26n.pt format=engine
# Run inference with the compiled engine
yolo predict model=yolo26n.engine source=path/to/video.mp4
理想用例
何时选择 YOLO26
对于任何现代计算机视觉项目,YOLO26是无可争议的推荐。
- 边缘 AI 和物联网: 其 CPU 推理速度提升 43% 并移除了 DFL,使其非常适合部署在 Raspberry Pi 或移动设备上。
- 高速流水线:无NMS架构确保了稳定、可预测的延迟,这对于自主机器人和实时安全报警系统至关重要。
- 复杂场景:如果您的应用需要 track 小物体(例如,无人机监控)或旋转物体(OBB),YOLO26 的高级损失函数(ProgLoss + STAL)提供了巨大的精度优势。
何时选择 YOLOv5
- 遗留系统:如果您的生产环境对 YOLOv5 的特定锚点生成或 NMS 解析逻辑存在硬编码依赖,迁移可能需要短暂的重构期。
- 特定学术基线:研究人员常将 YOLOv5 作为经典基线,以展示目标 detect 架构的历史演进。
总结
从 YOLOv5 到 YOLO26 的转变不仅仅是迭代更新;它是目标 detect 模型训练和部署方式的根本性飞跃。通过利用 MuSGD 优化器,通过免 NMS 设计摒弃复杂的后处理,并大幅提升 CPU 速度,Ultralytics YOLO26 实现了速度和精度的不妥协平衡。
尽管YOLOv5将永远被铭记为普及视觉AI的模型,但寻求构建稳健、可用于生产且面向未来的应用程序的开发者应放心地基于YOLO26进行构建。