YOLO26 与YOLOv10:端到端目标检测模型对比
计算机视觉领域正不断演进,其驱动力源于对更快、更精确、更高效模型的需求。本指南对实时目标检测领域两项突破性架构——YOLO26与YOLOv10——进行了全面的技术对比。 YOLOv10。通过分析其架构、性能指标及部署能力,我们旨在帮助开发者和研究人员为视觉应用选择最优模型。
NMS架构的演进
多年来YOLO You Only Look Once)家族在后处理阶段主要依赖非最大抑制(NMS)来过滤冗余边界框。尽管该方法有效,NMS 推理延迟,并增加了在树莓派等边缘设备或专用神经处理单元(NPU)上的部署复杂性。
YOLOv10 的问世YOLOv10 范式转变,其开创性的端到端NMS设计YOLOv10 。在此基础性突破之上Ultralytics 针对生产环境优化了架构,在更广泛的任务场景中实现了前所未有的高效性与易用性。
后处理瓶颈
移除NMS 传统上阻碍计算机视觉模型在硬件加速器(如TensorRT)上优化的动态、数据依赖型后处理步骤。 TensorRT 和 OpenVINO等硬件加速器上进行优化时,传统上阻碍计算机视觉模型优化的动态、数据依赖的
YOLOv10:开创性的免 NMS 检测
日期:2024-05-23
作者:王洵、陈辉、刘立浩等
机构:清华大学
资源:ArXiv论文|GitHub仓库
由清华大学研究人员开发的YOLOv10 双目标分配策略,从而消除了对NMS的需求。通过采用整体效率-精度驱动的模型设计,该算法在保持mAP 平均精度均值)的同时,有效减少了计算冗余。
优势:
- NMS: NMS YOLO NMS设计先驱,大幅降低实时应用的延迟。
- 效率:相较于前代模型,在参数数量与推理速度之间实现了显著的权衡。
弱点:
- 有限任务支持:主要专注于标准目标检测,缺乏对分割或姿势估计 高级任务的原生开箱即用支持。
- 学术定位:该代码库虽功能强大,但更侧重于研究用途,而非面向企业级生产环境的精简化部署。
YOLO26:边缘与云计算的新标准
日期:2026-01-14
作者:Glenn Jocher 和 Jing Qiu
机构:Ultralytics
资源:GitHub 仓库|Ultralytics
作为 YOLO11,YOLO26将 NMS概念推向极致。它原生集成端到端检测功能至高度Ultralytics ,为现代机器学习管道提供完整的工具套件。
YOLO26实现了多项架构突破:
- DFL移除:分布式焦点损失已完全移除。此举极大简化了模型导出流程,并提升了与边缘计算及低功耗设备的兼容性。
- CPU 提升高达43%:通过移除DFL层并进行结构优化,YOLO26在CPU上的运行速度显著提升,使其成为物联网和移动端部署的理想选择。
- MuSGD优化器:受大型语言模型(LLM)训练技术(如Moonshot AI的Kimi K2)启发,YOLO26采用SGD 的混合方案。这为计算机视觉领域带来了无与伦比的训练稳定性与更快的收敛速度。
- ProgLoss + STAL:这些先进的损失函数在小目标识别方面取得了显著改进,这对航空影像和无人机安防监控至关重要。
- 任务特异性改进:YOLO26不仅是检测器。它具备语义分割损失与多尺度原型用于分割任务,残差对数似然估计(RLE)用于姿势估计 ,以及专用的角度损失用于定向边界框旋转框检测。
性能分析与指标
下表对比了YOLO26YOLOv10 COCO 中的表现。请注意YOLO26在保持卓越参数效率的同时,实现了更优的检测精度。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
Ultralytics :训练与内存效率
在将模型部署到生产环境时,内存需求和训练效率与推理速度同样关键。Ultralytics (尤其是YOLO26)经过高度优化,可显著降低训练过程中的CUDA 占用。这使得开发者能在消费级GPU上使用更大的批量大小,从而大幅缩短训练时间并降低计算成本。反之,复杂架构或大型transformer (如 RT-DETR 等复杂架构或大型变压器模型,往往需要昂贵的高端硬件才能高效训练。
实际实现:代码示例
Ultralytics 标志性Ultralytics 其行业领先的易用性。凭借直观Python ,从传统模型(如 YOLOv8 到前沿的YOLO26,仅需更新一行代码。
以下是一个100%可运行的示例,演示如何使用YOLO26进行训练和推理:
from ultralytics import YOLO
# 1. Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# 2. Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device="cpu", # Easily switch to 0 for GPU
)
# 3. Perform NMS-free inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# 4. Display the results to screen
predictions[0].show()
# 5. Export to ONNX for simplified edge deployment
export_path = model.export(format="onnx")
print(f"Model exported successfully to {export_path}")
应用场景与建议
选择YOLO26还是YOLOv10 您的具体项目需求、部署限制以及生态系统偏好。
何时选择 YOLO26
YOLO26是以下场景的强力选择:
- NMS边缘部署:适用于需要持续低延迟推理,且无需复杂非最大抑制后处理的应用场景。
- CPU环境:在不具备专用GPU 设备上,YOLO26高达43%CPU 加速优势具有决定性意义。
- 小目标检测: 在无人机航拍图像或物联网传感器分析等挑战性场景中,ProgLoss和STAL能显著提升对微小目标的检测精度。
何时选择 YOLOv10
YOLOv10 推荐YOLOv10 :
- NMS检测:受益于端到端检测且无需非最大抑制的应用,可降低部署复杂性。
- 平衡速度与准确度的权衡:要求在不同模型规模下,在推理速度与检测准确度之间实现强平衡的项目。
- 一致延迟应用:部署场景中,可预测的推理时间至关重要,例如机器人或自主系统。
结论
YOLOv10 通过引入NMS范式为学术界YOLOv10 重大贡献,而YOLO26则将这项技术提升至企业级应用水准。凭借CPU 惊人的43%提升、创新的MuSGD优化器以及在视觉任务中无与伦比的通用性,YOLO26成为边缘计算与大规模云部署的终极选择。
对于重视活跃社区、全面文档和无障碍开发者体验的团队而言Ultralytics 堪称无与伦比。若您正在探索特定场景的解决方案,不妨研究YOLO实现零样本开放词汇检测。但对于绝大多数实际应用场景,YOLO26仍是首选推荐方案。