YOLO11 对比 YOLO26:实时视觉AI的演进
计算机视觉领域正在迅速发展,Ultralytics凭借最先进的物体detect模型持续引领潮流。本次比较探讨了于2024年末发布的YOLO11和于2026年1月发布的开创性YOLO26的架构演进、性能指标和实际应用。虽然这两个模型在其各自发布时都代表了视觉AI的巅峰,但YOLO26引入了重大的架构转变,重新定义了边缘部署的效率和速度。
模型概述
YOLO11
作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2024-09-27
GitHub:Ultralytics 仓库
文档:YOLO11 文档
YOLO11标志着YOLO系列的一项重大改进,与YOLOv8相比,参数减少了22%,同时提高了detect精度。它引入了增强的架构设计,平衡了速度和精度,使其成为从物体detect到实例segment等各种计算机视觉任务的可靠选择。
YOLO26
作者:Glenn Jocher 和 Jing Qiu
组织:Ultralytics
日期:2026-01-14
GitHub:Ultralytics 仓库
文档:YOLO26 文档
YOLO26以其原生端到端无NMS设计代表着一场范式转变,消除了非极大值抑制后处理的需要。这项创新,首次开创于YOLOv10,显著简化了部署流程并降低了延迟。YOLO26专门针对边缘计算进行了优化,提供高达43%更快的CPU推理速度,并结合了新颖的训练技术,例如MuSGD 优化器——一种结合了SGD和Muon的混合优化器,灵感来源于LLM训练创新。
端到端延迟优势
通过移除NMS步骤,YOLO26提供一致的推理时间,无论场景中detect到多少物体。这对于自动驾驶等实时应用至关重要,因为后处理峰值可能导致危险的延迟。
性能对比
下表强调了YOLO26相对于YOLO11的性能改进。请注意CPU速度的显著提升,这使得YOLO26在没有专用GPU的设备(例如树莓派或手机)上表现出色。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
架构深度解析
YOLO11 架构
YOLO11基于CSPNet骨干网络概念构建,优化了特征提取层以捕获更精细的细节。它采用了标准的无锚点detect头,并依赖于分布焦点损失(DFL)来优化边界框回归。虽然非常有效,但对NMS的依赖意味着推理速度可能根据场景密度而波动,这是智慧城市监控中的常见瓶颈。
YOLO26架构
YOLO26引入了几项旨在提高效率和稳定性的根本性变革:
- 无NMS端到端:模型在训练期间预测一组固定数量的边界框,采用一对一匹配,从而消除了推理过程中的启发式NMS步骤。
- 移除DFL:移除了分布焦点损失,以简化导出到ONNX和TensorRT等格式的过程,增强了与低功耗边缘设备的兼容性。
- MuSGD 优化器:受月之暗面Kimi K2和大型语言模型(LLM)训练的启发,这种混合优化器结合了SGD和Muon,以确保更快的收敛和更稳定的训练运行,减少了大规模视觉训练中常见的“损失尖峰”。
- ProgLoss + STAL: 新的损失函数(渐进损失和软目标分配损失)专门针对小目标识别,为航空影像分析和物联网传感器提供了巨大提升。
任务多样性
两种模型都支持 Ultralytics 生态系统内的广泛任务,确保开发者无需重写其管道即可切换模型。
- 检测: 标准边界框检测。
- 分割: 像素级掩码。YOLO26 增加了特定的语义分割损失和多尺度原型,以实现更好的掩码质量。
- 分类:整图分类。
- 姿势估计: 关键点检测。YOLO26 利用残差对数似然估计 (RLE) 在复杂姿势中实现更高精度,这对于体育分析很有益。
- 旋转框检测 (Oriented Bounding Box): 用于航空或倾斜物体的旋转框。YOLO26 采用专门的角度损失函数,以解决卫星图像中常见的边界不连续问题。
训练与使用
Ultralytics 生态系统的标志之一是统一 API。无论您是使用 YOLO11 还是升级到 YOLO26,代码几乎保持不变,最大限度地减少了技术债务。
Python 示例
以下是如何使用与 YOLO11 相同的熟悉界面来训练新的 YOLO26 模型。此示例演示了在 COCO8 数据集上进行训练,这是一个包含 8 张图像的小型数据集,非常适合测试。
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device="cpu", # Use '0' for GPU
)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
CLI 示例
命令行界面同样精简,支持快速实验和 模型基准测试。
# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640
# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx
理想用例
如果满足以下条件,请选择 YOLO11:
- 您有一个针对 YOLO11 进行了高度优化的现有生产管线,并且无法承担新架构的验证时间。
- 您的部署硬件针对 YOLO11 层结构进行了特定优化,但尚未针对 YOLO26 进行更新。
选择 YOLO26 的理由:
- 边缘部署至关重要: 移除了 NMS 和 DFL,使 YOLO26 成为 Android/iOS 应用和 CPU 周期宝贵的嵌入式系统的卓越选择。
- 小目标检测: ProgLoss 和 STAL 函数使其在 农业害虫识别或无人机镜头中的远距离物体识别方面表现显著更优。
- 训练稳定性: 如果您正在大型自定义数据集上进行训练并遇到过发散问题,YOLO26 中的 MuSGD 优化器提供了更稳定的训练路径。
- 最简导出: 端到端架构可以更简洁地导出到 CoreML 和 TensorRT 等格式,无需复杂的外部 NMS 插件。
对于有兴趣探索 Ultralytics 系列中其他选项的开发者,YOLOv10(端到端 YOLO 的前身)或 YOLO-World(用于开放词汇检测)等模型也得到全面支持。
结论
虽然 YOLO11 仍然是一个强大且功能强大的模型,但 YOLO26 为实时计算机视觉的可能性设定了新的基准。通过整合受 LLM 启发的训练动态并通过无 NMS 设计简化推理管线,Ultralytics 创建了一个不仅更准确,而且在实际部署中显著更容易的模型。
Ultralytics 生态系统确保升级无缝。凭借训练期间更低的内存需求和推理期间更快的 CPU 速度,YOLO26 是 2026 年所有新项目的推荐起点。