YOLO11 vs YOLO26:下一代视觉 AI 的进化

计算机视觉的快速发展不断突破速度、准确性和部署效率的边界。在实时目标检测领域,Ultralytics 始终设定着行业标准。本技术对比探讨了从广受成功的 YOLO11 到前沿 YOLO26 的过渡,并分析了它们的架构、性能指标和理想的部署场景。

无论你是在构建 无人机配送系统,还是在优化全球 智能制造流程,理解这两款模型之间的微妙差异都将帮助你构建稳健且面向未来的 AI 解决方案。

模型谱系与生态系统

这两款模型都受益于全面的 Ultralytics 生态系统,其特点是简单易用的 API、持续的维护和活跃的社区。它们提供了无与伦比的多功能性,开箱即用地支持 目标检测实例分割图像分类姿态估计 以及 旋转目标检测 (OBB) 任务。

YOLO11:行业标杆

YOLO11 于 2024 年末发布,完善了早期版本的进展,巩固了其作为生产环境可靠主力军的地位。

了解关于 YOLO11 的更多信息

YOLO26:前沿新星

YOLO26 于 2026 年初推出,代表了边缘计算和端到端架构的范式转变,在处理速度和集成便捷性方面带来了显著提升。

了解关于 YOLO26 的更多信息

数据与部署管理

YOLO11 和 YOLO26 都与 Ultralytics Platform 完全集成,为数据集标注、云端训练和车队监控提供了无缝的无代码工作流。

架构创新

虽然 YOLO11 依赖于多年来驱动计算机视觉的传统后处理方法,但 YOLO26 引入了多项旨在消除瓶颈的结构性突破。

端到端无 NMS 设计

YOLO26 最重要的升级之一是其原生的端到端架构。它消除了非极大值抑制 (NMS) 后处理,这一概念最早由 YOLOv10 开创。绕过 NMS 极大地简化了部署流水线并保证了稳定的延迟,这对于 自动驾驶算法 等实时应用至关重要。

用于边缘优化的 DFL 移除

YOLO26 移除了分布式焦点损失 (DFL)。虽然 DFL 在 YOLO11 中对细粒度定位很有用,但将其移除简化了网络的导出图。这种修改确保了与低功耗硬件的增强兼容性,使 YOLO26 成为 Raspberry PiNVIDIA Jetson 等边缘设备上的绝对性能担当。

MuSGD 优化器

汲取了大型语言模型 (LLM) 训练机制(特别是 Moonshot AI 的 Kimi K2)的灵感,YOLO26 使用了革命性的 MuSGD Optimizer。这种随机梯度下降 (SGD) 与 Muon 的结合提供了非常稳定的训练过程,收敛速度远快于旧架构中使用的标准 AdamW 优化器。

高级损失函数

YOLO26 集成了 ProgLoss + STAL(渐进式损失和尺度感知任务对齐学习)。这种结合显著改善了对小物和密集目标的检测。此外,YOLO26 还引入了特定于任务的增强功能:用于语义分割的专用多尺度原型、用于复杂人体姿态估计的残差对数似然估计 (RLE),以及用于减轻 OBB 检测任务中边界问题的专门角度损失。

性能对比

When evaluating these models, the balance between parameter count, computational complexity (FLOPs), and speed dictates hardware selection. YOLO26 specifically targets CPU inference speed, achieving up to 43% faster CPU inference compared to its predecessor.

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

如演示所示,使用 ONNX Runtime 时,YOLO26 Nano (YOLO26n) 不仅大幅提升了准确率,还将其 CPU 推理时间从 56.1ms 缩短至 38.9ms。

导出以实现极致速度

为了榨干这些模型的每一分性能,可以在 NVIDIA 硬件上使用 TensorRT 导出,或者在 Intel CPU 上使用 OpenVINO 导出。YOLO26 的无 NMS 设计使得这一导出过程比以往任何时候都更加顺畅。

用例与现实世界应用

在 YOLO11 和 YOLO26 之间进行选择,很大程度上取决于你的具体基础设施和项目目标。

边缘计算与物联网

对于受功耗和硬件限制的应用,例如通过无人机进行智能农业监测或本地 安全报警系统YOLO26 是无可争议的冠军。DFL 的移除和 CPU 速度 43% 的提升意味着你可以在没有专用 GPU 的设备上运行复杂的视觉模型,同时保持高帧率。

云端与企业规模

YOLO11 对于企业级解决方案仍然是一个极佳的选择,因为大规模服务器场已经针对其张量结构进行了优化。它非常适合已经与其特定输出格式深度集成的 云端视频分析 和大规模媒体处理流水线。

复杂的多任务处理

如果你的项目需要对微小目标进行精准定位——例如检测电路板缺陷或追踪 航拍图像 中的遥远车辆——YOLO26 中实现的 ProgLoss + STAL 为这些棘手的边缘情况带来了召回率和精确度的显著提升。

训练效率与内存需求

Ultralytics 框架的一大优势是其训练期间极低的内存占用。与像 RT-DETR 或旧版 YOLOv8 这样可能消耗大量 CUDA 内存的大型视觉 Transformer 不同,YOLO11 和 YOLO26 都经过优化,可以在消费级硬件上高效训练。

YOLO26 中 MuSGD 优化器的集成进一步增强了这一点,确保模型更快地找到最优权重,减少了总体的 GPU 计算时数和 云计算成本

以下是一个简单的示例,展示了使用原生 Python API 训练最新的 YOLO26 模型是多么轻松:

from ultralytics import YOLO

# Initialize the YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The MuSGD optimizer and efficient memory management are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run a quick validation to verify the mAP metrics
metrics = model.val()

# Export the trained model to ONNX for fast CPU inference
model.export(format="onnx")

探索替代架构

虽然 YOLO26 代表了实时检测的巅峰,但探索 Ultralytics 文档中的其他模型也同样有益。对于受限于遗留环境的用户,早期的架构如 YOLOv5 仍然提供了稳健的性能。对于无法预先定义类别的零样本场景,YOLO-World 提供了由文本提示驱动的开放词汇检测。

总结

从 YOLO11 到 YOLO26 的跨越不仅仅是一个增量更新;这是对实时目标检测模型在生产环境中运行方式的结构性重构。通过放弃复杂的后处理步骤并针对边缘优先执行进行优化,YOLO26 脱颖而出,成为现代开发者的首选。在稳健的 Ultralytics 生态系统 和全面文档的支持下,升级到 YOLO26 可确保更快的部署、稳定的训练,并为几乎任何计算机视觉任务提供 SOTA 级别的准确性。

评论