跳转至内容

YOLO11 :实时目标检测的进化之路

计算机视觉领域正经历着持续变革,每个新模型迭代都在推动速度、精度和实用性的边界。在这段旅程中,有两个重要的里程碑: YOLO11 和开创性的YOLO26。YOLO11 2024年末为企业级部署YOLO11 稳健基准,而YOLO11 凭借原生端到端架构与CPU设计,实现了范式变革。

本指南提供全面的技术对比,旨在帮助开发者、研究人员和工程师为其特定的计算机视觉应用选择合适的工具。

执行摘要:关键差异

虽然两种模型都YOLO You Only Look Once)家族的基础原理构建,但在架构理念上却存在显著差异。

  • YOLO11:专为多功能性和生态系统集成而设计。它采用传统后处理方法(如非最大抑制(NMS)),但为各类任务提供了高度稳定且支持完善的框架。
  • YOLO26:专为边缘计算设计,具备前瞻性。它采用原生端到端NMS设计,省去了复杂的后处理步骤。该模型搭载创新的MuSGD优化器,并针对CPU 进行专门优化,在树莓派等设备上运行速度提升高达43%

详细性能分析

不同代际之间的性能差距通常以毫秒和平均精确度(mAP)的百分比点来衡量。下表突显了速度与精度的提升。值得注意的是,CPU 时间显著缩短,这是边缘AI部署的关键指标。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

YOLO11:全能标准

YOLO11
作者:Glenn Jocher 和 Jing Qiu
机构: Ultralytics
日期:2024-09-27
GitHub:Ultralytics

YOLO11 YOLO 中的重大改进,重点提升了特征提取效率。它在 YOLOv8 ,通过优化C3k2模块并引入SPPF增强技术实现了性能突破。

优势:

  • 经过验证的稳健性:在工业领域被广泛采用,拥有丰富的社区插件和支持。
  • GPU : NVIDIA (T4、A100)上采用TensorRT实现高效运行 TensorRT,使其成为云端推理的理想选择。
  • 任务通用性:在检测、分割和姿势估计 方面表现优异。

弱点:

  • NMS :需要非最大抑制后处理,这可能引入延迟波动并增加部署管道的复杂性。
  • 更高的浮点运算性能:计算成本略高于最新架构。

了解更多关于 YOLO11 的信息

YOLO26:边缘优先的创新者

YOLO26
作者:Glenn Jocher 和 Jing Qiu
所属机构: Ultralytics
日期:2026-01-14
GitHub:Ultralytics

YOLO26是一种前瞻性架构,致力于在通用硬件上实现高效运算。通过消除对NMS 的需求NMS CPU 集进行优化,它在以往被认为运行现代AI过于缓慢的设备上实现了实时性能突破。

关键创新:

  • 端到端NMS:通过直接预测一对一匹配,YOLO26NMS 。CoreML 简化了 ONNX CoreML 导出过程
  • DFL移除:移除分布式焦散流可优化输出头结构,增强与低功耗边缘设备的兼容性。
  • MuSGD 优化器:受大型语言模型(LLM)训练技术(特别是 Moonshot AI 的 Kimi K2)启发,这种混合优化器结合了 SGD 与Muon算法,实现更快的收敛速度和更高的稳定性。
  • ProgLoss + STAL:新型损失函数提升小目标检测性能,这是航空影像与机器人技术的重要需求。

了解更多关于 YOLO26 的信息

架构深度解析

从YOLO11 YOLO26的转变不仅在于参数数量的增加,更是模型学习与预测机制的根本性变革。

培训方法与效率

Ultralytics 突出特点之一是训练效率。两种模型均受益于Ultralytics 支持无缝的数据集管理和云端训练。

然而,YOLO26引入了MuSGD优化器,该算法通过调整动量更新机制,能比AdamW SGD更有效地处理视觉模型的复杂损失景观。这使得模型收敛速度更快,从而节省宝GPU 时间,并降低训练过程中的碳足迹。

此外,YOLO26采用了改进的任务特定损失函数:

  • 分割:增强语义分割损失与多尺度原型模块。
  • 姿势估计:残差对数似然估计(RLE)用于更精确的关键点定位。
  • 旋转框检测:通过专门的角度损失项解决定向边界框任务中的边界不连续性问题。

内存要求

Ultralytics YOLO 以其低内存占用而闻名,相较于transformer架构(如 RT-DETRSAM 基于Transformer的架构相比,其内存占用极低。

内存优化

YOLO11 设计为可在消费级GPU(NVIDIA 3060或4070)上训练。与需要24GB+显存的庞大transformer 不同,YOLO 通常只需8GB显存的设备,通过采用适当的批量大小即可进行微调。

实际应用案例

在YOLO11 YOLO26之间进行选择,通常取决于您的部署硬件和具体应用需求。

YOLO11 的理想应用场景

  • 云API服务:在具备强大GPU算力的场景中,高吞吐量(批量处理)比单帧图像的延迟更为重要。
  • 遗留集成:已围绕NMS管道构建的系统,其中后处理逻辑无法更改。
  • 通用分析:采用标准GPU 进行零售热力图分析或顾客计数

YOLO26 的理想应用场景

  • 物联网与边缘设备: 在树莓派、NVIDIA Nano或手机运行物体检测。43%CPU 在此堪称变革性突破。
  • 机器人技术:延迟波动对控制回路具有致命影响。NMS的设计确保了确定性推理时间,这对自主导航至关重要。
  • 航拍测绘: ProgLoss函数显著提升了小目标识别能力,使YOLO26在无人机影像分析中表现更优。
  • 嵌入式系统:计算能力有限的设备,在NMS管理NMS(NMS过程中无法承担对数千个候选盒进行排序的开销。

代码实现

两种模型均Ultralytics 特有的易用性。YOLO11 切换YOLO11 OLO26仅需更改模型字符串。

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, CPU optimized)
model = YOLO("yolo26n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display to screen
    result.save(filename="result.jpg")  # Save to disk

该统一API确保开发人员能够尝试不同的架构,而无需重写整个代码库。

结论

这两种架构都证明了Ultralytics 为何Ultralytics 开源计算机视觉领域的领导者。 YOLO11 提供成熟、多功能且GPU解决方案,完美适用于企业数据中心。而YOLO26则代表了边缘AI的未来CPU 迅捷如电,并通过简化的端到端管道消除了传统瓶颈。

对于大多数新项目——尤其是涉及边缘部署、移动应用或机器人技术的情况——YOLO26是推荐的选择,因其具备卓越的速度与精度比以及现代化的架构设计。

其他值得探索的模型

  • YOLOv10:YOLO 中NMS先驱。
  • RT-DETR:transformer检测器,在速度非首要考虑的场景下提供高精度检测。
  • YOLOv8:一款高度可靠的经典方案,凭借其庞大的资源库至今仍被广泛应用。

评论