跳转至内容

YOLO26 对比 YOLO11:计算机视觉工程师的技术比较

实时目标检测和计算机视觉领域正在迅速发展。Ultralytics 始终走在这场演变的前沿,不断突破速度、准确性和易用性的界限。本次技术比较深入探讨了 YOLO26YOLO11 的架构进步、性能指标和理想应用场景,旨在帮助开发人员和研究人员为其部署需求选择最佳模型。

执行摘要

于 2026 年 1 月发布的 YOLO26 代表了 YOLO 系列中最新的最先进(SOTA)技术。它引入了原生端到端(NMS-free)架构,为边缘部署进行了精简,并针对 CPU 性能进行了优化。其前身,于 2024 年 9 月发布的 YOLO11,仍然是一个强大而稳健的选择,尽管 YOLO26 在推理速度(尤其是在非 GPU 硬件上)和架构简洁性方面超越了它。

对于大多数新项目,YOLO26 是推荐的选择,因为它具有卓越的速度-精度权衡和简化的部署流程。

架构演进

从 YOLO11 到 YOLO26 的过渡涉及重大的结构性变化,旨在降低延迟和复杂性,同时保持高精度。

YOLO26:精简且端到端

YOLO26 通过采用原生端到端设计,标志着范式转变。与依赖非极大值抑制(NMS)来过滤重叠边界框的传统 YOLO 模型不同,YOLO26 完全消除了这一步骤。这一突破最初由 YOLOv10 首创,简化了部署流程并降低了推理延迟,使其在 实时应用 中尤其具有优势。

YOLO26 的主要架构创新包括:

  • 移除 DFL: 分布式焦点损失(DFL)模块已被移除。这一简化增强了与 边缘设备 的兼容性,并通过移除可能成为低功耗处理器瓶颈的复杂数学运算,加速了向 ONNX 和 TensorRT 等格式的导出。
  • MuSGD 优化器: 受大型语言模型(LLM)训练技术的启发,YOLO26 采用了一种结合了 SGD 和 Muon(来自 Moonshot AI 的 Kimi K2)的混合优化器。这带来了更稳定的训练动态和更快的收敛速度。
  • ProgLoss + STAL: 渐进式损失平衡(ProgLoss)和小目标感知标签分配(STAL)显著提升了对小目标的性能,这对于无人机图像和 遥感 是一个关键因素。

了解更多关于 YOLO26 的信息

YOLO11:稳健的前代模型

YOLO11 基于 C3k2 模块和 SPPF(空间金字塔池化 - 快速)模块构建,以提供高效率。它采用了一个经过改进的 C2PSA 模块,并结合了注意力机制以增强特征提取。尽管非常有效,但与 YOLO26 的端到端方法相比,它对 NMS 后处理的依赖在推理过程中引入了轻微的计算开销。

了解更多关于 YOLO11 的信息

为何端到端至关重要

YOLO26 中 NMS 的移除意味着模型输出所需的后处理代码更少。这降低了部署错误的风险,并确保了稳定的延迟,因为推理时间不会根据检测到的对象数量而波动。

性能基准

下表突出了两种模型在 COCO 数据集上的性能差异。YOLO26 在准确性(mAP)和 CPU 推理速度方面都表现出明显的优势。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

指标分析

  1. CPU 推理速度: YOLO26n 在 CPU 上的速度比 YOLO11n 快约 43%(38.9 毫秒 vs. 56.1 毫秒)。这使得 YOLO26 成为在 Raspberry Pi、移动设备和标准 CPU 上部署的卓越选择。
  2. 准确性 (mAP): 在所有尺度上,YOLO26 始终实现更高的 平均精度均值。‘nano’模型从 39.5 mAP 显著提升至 40.9 mAP,以更快的速度提供更好的检测质量。
  3. 模型效率:YOLO26 通常需要更少的参数和 FLOPs 即可获得更好的性能,这说明了架构剪枝和移除 DFL 头所带来的效率提升。

训练与优化

这两种模型都受益于强大的 Ultralytics 生态系统,使训练变得易于访问且高效。

  • 易用性: YOLO26 和 YOLO11 都共享相同的统一 python API 和 CLI 接口。在它们之间切换就像更改模型字符串一样简单 yolo11n.ptyolo26n.pt.
  • 训练效率:YOLO26 的 MuSGD 优化器有助于稳定训练过程,可能会减少达到收敛所需的 epoch 数量。这节省了计算成本和时间,特别是对于 ImageNet 等大型数据集。
  • 内存要求:Ultralytics 模型以其相比基于 Transformer 的替代方案更低的内存占用而闻名。YOLO26 通过移除冗余的头部计算进一步优化了这一点,从而在消费级 GPU 上实现更大的批处理大小。

训练示例

以下是如何使用 Ultralytics Python 包训练最新的 YOLO26 模型:

from ultralytics import YOLO

# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

任务多样性与应用场景

这两个模型系列支持广泛的计算机视觉任务,包括detectsegment分类姿势估计旋转框检测 (OBB)

YOLO26 的理想应用场景

  • 边缘计算:凭借高达 43% 更快的 CPU 速度,YOLO26 非常适合物联网设备、智能相机以及 GPU 资源不可用的移动应用程序。
  • 小目标检测:归功于 ProgLoss 和 STAL,YOLO26 在航空侦察、质量检测和医学影像等场景中表现出色,这些场景中检测微小细节至关重要。
  • 实时机器人技术:无 NMS 设计确保了确定性延迟,这对于自主导航和机器人操作中的控制回路至关重要。

YOLO11的理想用例

  • 传统系统:对于已针对 YOLO11 架构优化的工作流程,或特定后处理管道围绕 NMS 输出硬编码的场景,YOLO11 仍然是一个稳定且受支持的选择。
  • 通用 GPU 推理:在强大的数据中心 GPU(如 T4)上,YOLO11 表现出竞争力,使其适用于服务器端批处理,在这种情况下,CPU 延迟不是主要问题。

生态系统与支持

使用 Ultralytics 模型的最强大优势之一是其周围的生态系统。YOLO26 和 YOLO11 都完全集成到 Ultralytics 平台中,从而实现无缝的模型管理、可视化和部署。

  • 文档:全面的指南涵盖了从数据标注到模型导出的所有内容。
  • 社区:GitHubDiscord上活跃的社区确保开发者能够获得支持和共享知识。
  • 集成:这两个模型都支持轻松导出到诸如ONNXOpenVINOTensorRT等格式,从而促进在不同硬件环境中的部署。

结论

尽管 YOLO11 仍然是一个功能强大的模型,但YOLO26在效率和架构简洁性方面代表着一个显著的飞跃。其端到端设计、降低的 CPU 延迟以及在小目标上的更高精度,使其成为现代计算机视觉应用的卓越选择。无论您是在边缘部署还是在云端训练,YOLO26 都提供了当今最佳的性能和可用性平衡。

模型详情

YOLO26 作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2026-01-14
GitHub | 文档

YOLO11 作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2024-09-27
GitHub | 文档

寻求其他选项的开发者也可以探索YOLOv10以了解早期的端到端概念,或YOLO-World以进行开放词汇 detect 任务。


评论