YOLOv10 与 YOLO26:端到端目标检测的演进
近年来,计算机视觉领域见证了显著的进步,已从复杂的、重依赖后处理的架构转向了精简的端到端模型。本次技术对比深入探讨了这一进程中的两个重要里程碑:学术突破 YOLOv10 和前沿的、企业级的 YOLO26。通过分析它们的架构、训练方法以及实际部署能力,开发人员能够在构建下一个视觉 AI 应用时做出明智的决策。
YOLOv10:端到端目标检测的先驱
作者:Ao Wang, Hui Chen, Lihao Liu 等
机构:清华大学
日期:2024-05-23
链接:arXiv 论文 | GitHub 仓库
YOLOv10 发布于 2024 年年中,通过解决实时目标检测中最持久的瓶颈之一——非极大值抑制(NMS),代表了学术计算机视觉研究的重大飞跃。传统目标检测器严重依赖 NMS 来过滤冗余的边界框,这在推理过程中增加了可变延迟,并使边缘部署变得复杂。
清华大学团队引入了一种用于无 NMS 训练的一致性双重分配策略。这使得模型能够在无需后处理过滤步骤的情况下准确预测边界框,直接改善了推理延迟并降低了在硬件加速器上部署的门槛。虽然该模型对于标准检测任务非常高效,但它主要侧重于边界框预测,缺乏对实例分割或姿态估计等更复杂任务的原生支持。
YOLO26:边缘与云端视觉 AI 的新标准
作者:Glenn Jocher 和 Jing Qiu
机构:Ultralytics
日期:2026-01-14
链接:GitHub 仓库 | Ultralytics 平台
基于早先开创的无 NMS 概念,新发布的 YOLO26 代表了性能和通用性的巅峰。它专为学术研究和企业级部署而设计,原生集成了 端到端无 NMS 设计,彻底消除了 NMS 后处理,从而在所有支持的硬件上实现更快、更简单的部署。
YOLO26 引入了多项突破性的架构改进。移除分布式焦点损失(DFL)极大地简化了模型的导出流程,并增强了与低功耗边缘设备的兼容性。伴随着这些结构变化,YOLO26 实现了高达 43% 的 CPU 推理加速,使其成为 IoT 和机器人应用的绝佳选择,尤其是在无法使用 GPU 加速的场景中。
此外,通过使用受 LLM 训练技术启发的 SGD 和 Muon 混合优化器 MuSGD Optimizer,训练稳定性和收敛速度得到了彻底变革。结合 ProgLoss + STAL 等先进损失函数,YOLO26 在小目标识别方面取得了显著改进。它还引入了针对任务的增强功能,包括用于分割的多尺度原型、用于姿态估计的残差对数似然估计(RLE),以及用于解决定向边界框(OBB)检测中边界问题的专用角度损失。
对于寻求扩展其计算机视觉工作流的团队,Ultralytics 平台 提供了与 YOLO26 的无缝集成,无需复杂 MLOps 基础设施即可提供直观的数据标注、自动云端训练和一键部署选项。
技术性能对比
在评估这些模型时,精度、模型大小和推理速度之间的平衡至关重要。下表重点介绍了这两个模型系列在各种规模下的性能,并基于标准的 COCO 数据集 进行了评估。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
数据显示了新架构的演进优势。YOLO26 在所有尺寸类别中均实现了更高的 mAP (平均精度均值),同时保持了极具竞争力的推理速度。YOLO26 中 DFL 的移除特别有助于其出色的 CPU ONNX 性能,这曾是过往模型难以企及的指标。
训练方法与生态系统
模型的价值取决于支持它的生态系统。虽然 YOLOv10 提供了一个基于 PyTorch 的优秀学术实现,但它在处理基础检测之外的任务时通常需要手动配置。
相比之下,YOLO26 完全集成在维护良好的 Ultralytics 生态系统中。这确保了与 RT-DETR 等基于 Transformer 的模型相比,在训练期间的内存需求显著降低,使研究人员能够在消费级硬件上训练最先进的网络。它的易用性是无与伦比的,提供了一个统一的 API,可自动处理数据增强、超参数调优和日志记录。
代码示例:训练 YOLO26
训练一个通用且高精度的模型仅需几行 Python 代码:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")实际应用与使用案例
选择正确的架构完全取决于部署限制。
高速边缘计算
对于需要在微控制器、机器人或老旧移动设备上快速部署的应用,YOLO26 的 CPU 推理速度提升 43% 使其成为最终选择。其无 NMS、无 DFL 的架构可无缝转换为 OpenVINO 和 TensorRT 等格式,是智能城市基础设施中实时视频分析的理想之选。
先进的多任务视觉
虽然 YOLOv10 在纯边界框检测方面表现出色,但需要丰富视觉理解的项目必须依赖 YOLO26。从医疗影像中的 实例分割 到体育分析中的精密 姿态估计,YOLO26 提供了针对任务的损失函数,确保在不同领域内均能获得卓越的精度。
如果你的项目需要强大的开放词汇检测,请考虑探索 YOLO-World。对于维护旧版流水线的用户,YOLO11 在 Ultralytics 框架内仍然是一个完全支持且强大的替代方案。
用例与建议
在 YOLOv10 和 YOLO26 之间进行选择,取决于你的具体项目需求、部署限制和生态系统偏好。
何时选择 YOLOv10
YOLOv10 是以下情况的理想选择:
- 无需 NMS 的实时检测: 得益于端到端检测且无需非极大值抑制,从而降低了部署复杂性的应用。
- 平衡的速度-精度权衡: 需要在不同模型规模下实现推理速度与检测精度之间良好平衡的项目。
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
何时选择 YOLO26
YOLO26 推荐用于:
- 无需 NMS 的边缘部署: 需要持续、低延迟推理且无需复杂非极大值抑制后处理的应用。
- 仅 CPU 环境: 在没有专用 GPU 加速的设备上,YOLO26 的 CPU 推理速度提升高达 43%,这提供了决定性优势。
- 小目标检测: 具有挑战性的场景,如 航拍无人机图像 或 IoT 传感器分析,ProgLoss 和 STAL 在小目标上显著提升了准确性。
总结
从 YOLOv10 到 YOLO26 的转变突显了从学术概念验证到生产就绪型企业解决方案的关键跨越。通过采用开创性的无 NMS 设计并辅以 MuSGD 优化器、ProgLoss 以及精简的边缘兼容性,YOLO26 为实时计算机视觉设立了新的基准。对于旨在实现速度、精度和可用性最佳平衡的开发人员,YOLO26 是首选推荐。