Link to this sectionYOLOv8 与 YOLO26#
计算机视觉领域在过去几年中见证了显著的进步。在实时应用中最受欢迎的架构之一是由 Ultralytics 开发的模型。本综合指南提供了开创性的 Ultralytics YOLOv8 与最新的尖端 Ultralytics YOLO26 之间的详细技术对比。我们将分析它们的架构、性能指标和理想用例,以帮助你为部署选择合适的模型。
Link to this section模型概述#
YOLOv8 和 YOLO26 都代表了 YOLO 模型家族 中的重要里程碑。它们秉承了核心的 Ultralytics 理念:通过统一的 Python 环境 和 API 提供快速、准确且极其易用的模型。
Link to this sectionYOLOv8:多功能的行业标准#
YOLOv8 发布于 2023 年初,对 YOLO 框架进行了重大升级,带来了无锚点(anchor-free)设计,并对多种计算机视觉任务提供了强大的支持。
- 作者: Glenn Jocher, Ayush Chaurasia, and Jing Qiu
- 组织: Ultralytics
- 日期: 2023-01-10
- GitHub: Ultralytics Repository
- 文档: YOLOv8 文档
由于其出色的性能平衡以及与 Ultralytics 生态系统 的深度集成,YOLOv8 迅速成为行业标准。它原生支持 目标检测、实例分割、姿态估计 和 图像分类。然而,它依赖于标准的非极大值抑制(NMS)进行后处理,这在高度受限的边缘环境中可能会带来延迟瓶颈。
Link to this sectionYOLO26:新一代边缘计算强力引擎#
YOLO26 发布于 2026 年 1 月,它在 predecessors 建立的基础上进行了激进优化,特别针对现代部署场景,如边缘 AI 和低功耗设备。
- 作者: Glenn Jocher 和 Jing Qiu
- 组织: Ultralytics
- 日期: 2026-01-14
- GitHub: Ultralytics Repository
- 文档: YOLO26 文档
YOLO26 引入了多项范式转变的技术改进。最显著的是,它采用了端到端无 NMS 设计。该架构最初由 YOLOv10 开创,消除了对 NMS 后处理的需求,极大地简化了导出管道并降低了延迟方差。此外,移除分布焦点损失(DFL)简化了检测头,使其对在边缘 AI 硬件上的部署极其友好。
Link to this section架构与训练创新#
YOLO26 带来了多项幕后进展,在 YOLOv8 的基准上实现了显著改进。
Link to this section使用 MuSGD 进行优化训练#
训练效率是 Ultralytics 模型的标志,与基于 Transformer 的臃肿架构(如 RT-DETR)相比,这些模型通常具有更低的内存需求。YOLO26 通过引入 MuSGD 优化器进一步增强了这一点。受大型语言模型(LLM)训练技术(特别是 Moonshot AI 的 Kimi K2)的启发,这种随机梯度下降(SGD)与 Muon 的混合体确保了更快的收敛速度和跨复杂数据集的高度稳定的训练动态。
Link to this section高级损失函数#
对于需要高精度的任务(例如 无人机影像 或 IoT 传感器),YOLO26 引入了 ProgLoss + STAL。这些改进的损失函数在小目标识别方面提供了显著增强。此外,YOLO26 在各个方面都带来了特定于任务的改进:用于分割中出色掩码生成的多尺度 proto、用于更精细姿态估计的残差对数似然估计(RLE),以及用于解决 旋转边界框(OBB) 检测中边界问题的专业角度损失。
Link to this section性能分析与对比#
下表突出显示了两个模型在使用 COCO 数据集 时的性能差异。各尺寸类别中的最佳性能值均以粗体标出。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Link to this section指标分析#
数据显示了一次代际飞跃。YOLO26 在所有指标上均显著优于 YOLOv8。YOLO26 Nano (YOLO26n) 模型实现了惊人的 40.9 mAP,远高于 YOLOv8n 的 37.3,同时使用的参数和 FLOPs 更少。
最引人注目的改进之一是 CPU 推理速度。由于其优化的架构和对 DFL 的移除,YOLO26 通过 ONNX 实现了最高 43% 的 CPU 推理加速。这使得 YOLO26 在 Raspberry Pi 和其他低资源边缘设备上表现出无可比拟的优势。虽然两个模型使用 TensorRT 时的 GPU 速度均具竞争力,但 YOLO26 的整体参数效率意味着在训练和推理过程中占用更少的内存。
Link to this section易用性与生态系统#
两个模型都从维护良好的 Ultralytics 生态系统 中获益良多。开发者们称赞统一 API 带来的易用性,这使得只需更改模型名称字符串即可在 YOLOv8 和 YOLO26 之间进行切换。
无论你是在进行 超参数调优、执行 实验跟踪,还是探索新的 数据集,Ultralytics 文档都提供了丰富的资源。此外,Ultralytics 平台 提供了一种简化的方式来标注、训练这些模型,并将它们无缝部署到云端或本地。
Link to this section代码示例#
开始训练和推理非常简单。以下是使用 Ultralytics Python API 的完整、可运行示例:
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The MuSGD optimizer is automatically leveraged for YOLO26
train_results = model.train(
data="coco8.yaml",
epochs=50,
imgsz=640,
device="cpu", # Use '0' for GPU training
)
# Run inference on a sample image
# The NMS-free design provides clean, rapid predictions
results = model("https://ultralytics.com/images/bus.jpg")
# Display the predictions
results[0].show()
# Export seamlessly to ONNX for CPU deployment
export_path = model.export(format="onnx")Link to this section理想使用场景#
选择正确的模型决定了项目的成功。
何时选择 YOLO26:
- 边缘计算与机器人: 其 43% 更快的 CPU 速度和无 NMS 设计使其成为嵌入式系统、移动设备和自主机器人的绝对最佳选择。
- 航拍与卫星影像: ProgLoss + STAL 的实施使 YOLO26 在检测复杂高分辨率景观中的微小目标方面具有明显优势。
- 新项目: 作为最新的稳定版本,YOLO26 是所有新 机器学习 管道的推荐模型,在所有任务中提供卓越的多功能性。
何时保留 YOLOv8:
- 遗留基础设施: 如果你当前的生产流水线与 YOLOv8 的特定输出张量和锚点机制深度耦合,迁移可能需要进行微小的调整。
- 学术基准: YOLOv8 仍然是学术界计算机视觉研究中用于对比旧架构的高引用且稳定的基准。
总之,虽然 YOLOv8 为实时视觉任务建立了卓越的标准,但 YOLO26 重新定义了可能性的边界。通过将 CPU 上的巨大效率提升与受 LLM 启发的新型训练优化器相结合,YOLO26 确保开发者能够在几乎任何硬件环境中部署高精度的 AI。