跳转至内容

YOLO11 与 YOLO26:下一代视觉 AI 的演进

计算机视觉的快速发展不断推动着速度、准确性和部署效率的边界。在实时目标检测领域,Ultralytics 始终树立着标杆。本次技术比较探讨了从非常成功的YOLO11到尖端YOLO26的演变,分析了它们的架构、性能指标和理想部署场景。

无论您是构建无人机配送系统还是优化全球智能制造流程,了解这两种模型之间的细微差异将有助于您构建稳健且面向未来的 AI 解决方案。

模型沿袭与生态系统

这两种模型都受益于全面的Ultralytics 生态系统,该生态系统以其直观的 API、持续的维护和活跃的社区为特点。它们提供无与伦比的多功能性,开箱即用地支持目标检测实例分割图像分类姿势估计旋转框检测 (OBB)任务。

YOLO11:既定标准

YOLO11于2024年末发布,在前几代的基础上进行了改进,巩固了其作为生产环境中可靠主力模型的地位。

了解更多关于 YOLO11 的信息

YOLO26:新前沿

YOLO26 于2026年初推出,代表了边缘计算和端到端架构的范式转变,在处理速度和集成便捷性方面带来了显著改进。

了解更多关于 YOLO26 的信息

数据与部署管理

YOLO11 和 YOLO26 都与Ultralytics 平台完全集成,为数据集标注、云训练和车队监控提供了无缝、无代码的工作流。

架构创新

YOLO11 依赖于多年来为计算机视觉提供动力的传统后处理方法,而 YOLO26 则引入了多项结构性突破,旨在消除瓶颈。

端到端NMS-Free设计

YOLO26 最显著的升级之一是其原生端到端架构。它消除了非极大值抑制 (NMS) 后处理,这一概念最初由 YOLOv10 首创。绕过 NMS 大幅简化了部署流程并保证了稳定的延迟,这对于 自动驾驶算法 等实时应用至关重要。

DFL移除以实现边缘优化

YOLO26 移除了分布焦点损失 (DFL)。虽然 DFL 在 YOLO11 中对于细粒度定位很有用,但移除它简化了网络的导出图。这一修改确保了与低功耗硬件的增强兼容性,使 YOLO26 成为 Raspberry PiNVIDIA Jetson 等边缘设备上的绝对主力。

MuSGD优化器

YOLO26 借鉴了大型语言模型 (LLM) 的训练机制,特别是 月之暗面 Kimi K2,采用了革命性的 MuSGD 优化器。这种随机梯度下降 (SGD) 与 Muon 的混合优化器提供了极其稳定的训练过程,收敛速度远超旧架构中使用的标准 AdamW 优化器。

高级损失函数

YOLO26 融合了 ProgLoss + STAL (渐进式损失和尺度感知任务对齐学习)。这种组合显著提升了对小目标和密集排列目标的检测能力。此外,YOLO26 还引入了针对特定任务的增强功能:用于语义分割的专用多尺度原型,用于复杂人体姿势估计的残差对数似然估计 (RLE),以及用于缓解 obb 检测任务中边界问题的专用角度损失。

性能对比

在评估这些模型时,参数量、计算复杂度 (FLOPs) 和速度之间的平衡决定了硬件选择。YOLO26专门针对CPU推理速度进行了优化,相比其前身,实现了高达43%的CPU推理速度提升

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

如所示,YOLO26 Nano (YOLO26n) 的精度显著提升,同时使用 ONNX Runtime 将 CPU 推理时间从 56.1ms 缩短至 38.9ms。

为实现最大速度而导出

为了从这些模型中榨取每一滴性能,请在NVIDIA硬件上使用TensorRT或在Intel CPU上使用OpenVINO导出它们。YOLO26的NMS-free设计使导出过程比以往任何时候都更顺畅。

用例与实际应用

在YOLO11和YOLO26之间进行选择主要取决于您特定的基础设施和项目目标。

边缘计算与物联网

对于受功耗和硬件限制的应用,例如通过无人机进行的智能农业监控或本地安全警报系统YOLO26是无可争议的冠军。移除DFL和CPU速度提升43%意味着您可以在没有专用GPUs的设备上运行复杂的视觉模型,同时保持高帧率。

云和企业级规模

YOLO11仍然是企业级解决方案的卓越选择,尤其是在已针对其tensor结构进行优化的庞大服务器集群中。它非常适合基于云的视频分析和已深度集成其特定输出格式的大规模媒体处理流水线。

复杂多任务处理

如果您的项目需要对微小物体进行精确检测——例如检测电路板上的缺陷或跟踪航空图像中的远距离车辆——那么YOLO26ProgLoss + STAL的实现显著提升了这些困难边缘情况下的召回率和精度。

训练效率与内存需求

Ultralytics 框架的一个主要优势是其在训练期间极低的内存占用。与像RT-DETR或旧版YOLOv8这样会消耗大量 CUDA 内存的大型视觉 Transformer 不同,YOLO11 和 YOLO26 都经过优化,可以在消费级硬件上高效训练。

YOLO26 中 MuSGD 优化器的集成进一步增强了这一点,确保模型更快地找到最优权重,从而减少整体 GPU 计算时长和云计算成本

以下是一个简单示例,演示了使用原生Python API训练最新的YOLO26模型是多么轻松:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

探索替代架构

尽管YOLO26代表了实时 detect 的巅峰,但探索Ultralytics文档中的其他模型可能是有益的。对于受限于传统环境的用户,像YOLOv5这样的早期架构仍然提供稳健的性能。对于无法预先定义类别的零样本能力,YOLO-World提供由文本提示驱动的开放词汇 detect。

结论

从 YOLO11 到 YOLO26 的飞跃不仅仅是增量更新;它是对实时目标 detect 模型在生产环境中如何运作的结构性重塑。通过放弃复杂的后处理步骤并优化边缘优先执行,YOLO26 脱颖而出,成为现代开发者的首选。凭借强大的Ultralytics 生态系统和全面的文档支持,升级到 YOLO26 可确保更快的部署、稳定的训练以及几乎所有计算机视觉任务的 SOTA 精度。


评论