YOLOv8 与 YOLO26:Ultralytics 实时目标 detect 的演进
计算机视觉领域在过去几年中取得了显著进展。在实时应用中最受欢迎的架构中,包括由Ultralytics开发的模型。这份全面的指南详细技术比较了开创性的Ultralytics YOLOv8和最新的最先进Ultralytics YOLO26。我们将分析它们的架构、性能指标和理想用例,以帮助您为部署选择合适的模型。
模型概述
YOLOv8和YOLO26都代表了YOLO模型家族中的重要里程碑。它们秉承了Ultralytics的核心理念:通过统一的Python环境和API,提供快速、准确且极其易用的模型。
YOLOv8:多功能标准
YOLOv8 于2023年初发布,对 YOLO 框架进行了重大改革,带来了无锚设计和对多种计算机视觉任务的强大支持。
- 作者: Glenn Jocher、Ayush Chaurasia 和 Jing Qiu
- 组织:Ultralytics
- 日期: 2023-01-10
- GitHub:Ultralytics 仓库
- 文档:YOLOv8 文档
YOLOv8 因其出色的性能平衡和与 Ultralytics 生态系统的深度集成而迅速成为行业标准。它原生支持目标 detect、实例 segment、姿势估计和图像分类。然而,它依赖于标准的非极大值抑制 (NMS) 进行后处理,这可能在高度受限的边缘环境中引入延迟瓶颈。
YOLO26:下一代边缘强大引擎
YOLO26于2026年1月发布,以其前代模型奠定的基础为起点,并针对现代部署场景进行了积极优化,尤其是在边缘AI和低功耗设备方面。
- 作者:Glenn Jocher 和 Jing Qiu
- 组织:Ultralytics
- 日期: 2026-01-14
- GitHub:Ultralytics 仓库
- 文档:YOLO26 文档
YOLO26 引入了多项范式转变的技术改进。最值得注意的是,它采用了 端到端无 NMS 设计。该架构最初由 YOLOv10 首创,消除了 NMS 后处理的需要,显著简化了导出流程并减少了延迟波动。此外,移除分布焦点损失(DFL)简化了检测头,使其非常适合在边缘 AI 硬件上部署。
架构和训练创新
YOLO26 带来了几项底层改进,大幅提升了YOLOv8的基线性能。
使用 MuSGD 进行优化训练
训练效率是 Ultralytics 模型的一个显著特点,与 RT-DETR 等庞大的基于 Transformer 的架构相比,它们通常具有更低的内存需求。YOLO26 通过引入 MuSGD 优化器 进一步提升了这一点。该优化器受大型语言模型 (LLM) 训练技术(特别是月之暗面 Kimi K2)的启发,这种随机梯度下降 (SGD) 和 Muon 的混合确保了在复杂数据集上更快的收敛和高度稳定的训练动态。
高级损失函数
对于需要高精度的任务,例如无人机图像或物联网传感器,YOLO26 引入了 ProgLoss + STAL。这些改进的损失函数在小目标识别方面提供了显著增强。此外,YOLO26 在各个方面带来了任务特定的改进:用于在 segment 中生成卓越掩码的多尺度原型,用于更精细姿势估计的残差对数似然估计 (RLE),以及用于解决旋转框检测 (OBB)中边界问题的专用角度损失。
性能分析与比较
下表重点介绍了使用COCO 数据集时两种模型之间的性能差异。每个尺寸类别中表现最佳的值以粗体显示。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
分析指标
数据揭示了代际飞跃。YOLO26 在所有指标上均显著优于 YOLOv8。YOLO26 Nano (YOLO26n) 模型实现了卓越的 40.9 mAP,远高于 YOLOv8n 的 37.3,同时使用了更少的参数和 FLOPs。
最显著的改进之一是 CPU 推理速度。由于其优化的架构和移除了 DFL,YOLO26 通过 ONNX 实现了 高达 43% 的 CPU 推理速度提升。这使得 YOLO26 在 Raspberry Pi 和其他低资源边缘设备上表现无与伦比。虽然两种模型在使用 TensorRT 时的 GPU 速度都具有竞争力,但 YOLO26 的整体参数效率意味着在训练和推理期间都具有更低的内存占用。
易用性与生态系统
这两种模型都极大地受益于维护良好的Ultralytics 生态系统。开发人员称赞统一 API 提供的易用性,只需更改模型名称字符串即可在 YOLOv8 和 YOLO26 之间切换。
无论您是进行超参数调优、开展实验跟踪,还是探索新的数据集,Ultralytics 文档都提供了丰富的资源。此外,Ultralytics Platform 提供了一种简化的方式,可以无缝地在云端或本地标注、训练和部署这些模型。
代码示例
开始训练和推理非常简单。下面是一个使用Ultralytics Python API的完整可运行示例:
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The MuSGD optimizer is automatically leveraged for YOLO26
train_results = model.train(
data="coco8.yaml",
epochs=50,
imgsz=640,
device="cpu", # Use '0' for GPU training
)
# Run inference on a sample image
# The NMS-free design provides clean, rapid predictions
results = model("https://ultralytics.com/images/bus.jpg")
# Display the predictions
results[0].show()
# Export seamlessly to ONNX for CPU deployment
export_path = model.export(format="onnx")
理想用例
选择合适的模型决定了您项目的成功。
何时选择 YOLO26:
- 边缘计算与机器人技术:其CPU速度提升43%且无NMS,使其成为嵌入式系统、移动设备和自主机器人的最佳选择。
- 航空和卫星影像:ProgLoss + STAL 的实施赋予 YOLO26 在复杂、高分辨率的场景中 detect 微小目标方面的独特优势。
- 新项目:作为最新的稳定版本,YOLO26 是任何新的机器学习流程的推荐模型,在所有任务中提供卓越的多功能性。
何时保留 YOLOv8:
- 传统基础设施:如果您的当前生产管道与YOLOv8的特定输出tensor和锚点机制紧密耦合,则迁移可能需要进行少量调整。
- Academic Baselines: YOLOv8 仍然是比较旧架构的学术计算机视觉研究中高度引用且稳定的基线。
总之,尽管YOLOv8为实时视觉任务建立了非凡的标准,但YOLO26重新定义了可能性。通过将CPU上的巨大效率提升与创新的LLM启发式训练优化器相结合,YOLO26确保开发者几乎可以在任何硬件环境中部署高精度的AI。