YOLO26与YOLOv10:端到端目标检测的进化之路
实时物体检测领域正经历着快速变革。2024年, YOLOv10 凭借开创性的无最大值抑制(NMS)训练方法引发轰动,有效消除了推理管道中的重大瓶颈。时至2026年Ultralytics 在这些理念基础上进行优化与扩展,推出原生端到端架构,不仅速度更快、精度更高,更深度融入Ultralytics 。
本指南对这两种具有重要影响力的模型进行了技术对比,旨在帮助开发者、研究人员和工程师为其计算机视觉应用选择合适的工具。
性能指标比较
在评估现代检测器时,速度与精度的权衡至关重要。YOLOv2针对边缘设备和CPU 进行了重大优化,相较于前代产品,在CPU上实现了高达43%的速度提升。而 YOLOv10 仍是高效能模型,YOLO26却以更轻量级的计算资源突破了技术边界。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
架构创新
Ultralytics :新标准
作者:Glenn Jocher, Jing Qiu
机构:Ultralytics
日期:2026年1月14日
YOLO26是效率与易用性研究的集大成之作。它采用端到NMS,YOLOv10类似,但通过若干关键架构改进增强了鲁棒性和部署灵活性。
- DFL移除:通过移除分布式焦点损失(DFL),模型架构得以简化。此项变更对出口兼容性至关重要,使模型更易部署于树莓派或移动设备等受限边缘硬件——在这些平台上,复杂的输出层可能引发延迟问题。
- MuSGD优化器:受大型语言模型(LLMs)训练稳定性的启发,YOLO26采用融合SGD MuonSGD 混合优化器。这项源自Moonshot AI Kimi K2的创新技术,确保更快的收敛速度与稳定的训练过程,从而降低计算成本。
- 渐进损失(ProgLoss)与软目标锚损失(STAL)的引入显著提升了小目标检测性能。这使得YOLO26在航空影像分析或制造业缺陷检测等任务中表现尤为出色。
YOLOv10:NMS先驱者
作者:王洵等
机构:清华大学
日期:2024年5月23日
YOLOv10 具有里程碑意义的版本,它解决了NMS 的冗余问题。其主要创新在于采用一致双目标分配机制,实现了NMS训练。
- 双重标注:在训练过程中,模型同时采用一对多和一对一的标签分配方式。这使得模型能够学习丰富的表示,同时确保在推理阶段每个对象仅生成一个预测结果,从而无需NMS(非最大相似度)处理。
- 整体效率设计:作者引入了轻量级分类头和空间-通道解耦下采样技术以降低计算开销,这体现在其较低的浮点运算次数上。
NMS瓶颈
非最大抑制(NMS)是用于过滤重叠边界框的后处理步骤。虽然该方法有效,但会引入延迟波动并增加部署复杂度。YOLOv2和YOLOv10 均YOLOv10 此步骤,使推理时间具有确定性且更快。
集成与生态系统
最显著的差异之一在于周边生态系统。Ultralytics Ultralytics 旗舰模型,确保对所有任务和模式提供即时支持。
Ultralytics 优势
- 多功能性: YOLOv10 主要YOLOv10 目标检测,而YOLOv26原生支持实例分割、姿势估计 、 旋转框检测以及分类任务。
- Ultralytics : Ultralytics (原HUB)深度集成,支持无缝数据集管理、一键云端训练,并可部署至 TFLite 和 OpenVINO等格式。
- 维护:作为核心产品,YOLO26通过GitHub和Discord平台持续获得频繁更新、漏洞修复及社区支持。
代码对比
两种模型均可通过 ultralytics Python 突显了该库的灵活性。然而,YOLO26受益于最新的实用函数和优化。
from ultralytics import YOLO
# ----------------- YOLO26 -----------------
# Load the latest YOLO26 model (NMS-free, optimized for CPU)
model_26 = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled automatically
model_26.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with simplified output (no NMS overhead)
results_26 = model_26("path/to/image.jpg")
# ----------------- YOLOv10 -----------------
# Load the YOLOv10 model (Historical academic checkpoint)
model_10 = YOLO("yolov10n.pt")
# Train using standard settings
model_10.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results_10 = model_10("path/to/image.jpg")
应用场景与建议
选择这些模型取决于您的具体部署限制和项目目标。
YOLO26 的理想应用场景
- 基于CPU的边缘AI:若您的应用运行在无专用GPU 硬件上GPU 如标准笔记本电脑、低功耗物联网网关),YOLO26凭借其快43%CPU ,无疑是最佳选择。
- 商业解决方案:针对需要长期可维护性、严格许可透明度(企业许可证)及可靠支持的企业级应用,YOLO26专为生产环境设计。
- 复杂任务:无论是需要定向边界框的航测项目,还是用于运动分析的姿势估计 ,都能从YOLO26的多任务能力中获益。
YOLOv10 的理想应用场景
- 学术研究:研究人员若想探索NMS训练或标签分配策略的理论基础YOLOv10 arXiv论文及其架构将提供宝贵的参考价值。
- 传统基准测试:在与2024年代基准进行对比时YOLOv10 注重效率架构的卓越标杆。
部署灵活性
Ultralytics 在可移植性方面表现卓越。您可轻松将训练好的YOLO26模型导出至 ONNXCoreML 单条命令即可调用TensorRT 或CoreML : yolo export model=yolo26n.pt format=onnx.
结论
这两种架构在推动计算机视觉发展方面都发挥了关键作用。 YOLOv10 成功挑战了NMS必要性,证明端到端检测在实时应用中具有可行性。
Ultralytics 在此突破基础上更臻完善。通过融合NMS、MuSGD优化器的稳定性、边缘设备友好的深度全局优化(DFL)移除方案,Ultralytics 全面支持,YOLO26 为当今开发者提供了最均衡的高性能解决方案。无论是构建智能城市交通系统还是移动文档扫描器,YOLO26 都能提供成功所需的速度与精度。