跳转至内容

YOLOv10 vs YOLO26:端到端目标检测的演进

近年来,计算机视觉领域取得了显著进展,从复杂、依赖大量后处理的架构转向精简的端到端模型。本技术比较深入探讨了这一历程中的两个重要里程碑:YOLOv10的学术突破和尖端、企业级的YOLO26。通过研究它们的架构、训练方法和实际部署能力,开发者在构建下一个视觉AI应用时可以做出明智的决策。

YOLOv10:开创端到端目标 detect

作者:王傲、陈辉、刘立豪 等
机构:清华大学
日期:2024-05-23
链接:arXiv 论文 | GitHub 仓库

YOLOv10于2024年中发布,通过解决实时目标检测中最长期存在的瓶颈之一:非极大值抑制(NMS),在学术计算机视觉研究领域取得了重大飞跃。传统目标检测器严重依赖NMS来过滤冗余边界框,这在推理过程中增加了可变延迟,并使边缘部署复杂化。

清华大学团队引入了一种一致的双重分配策略,用于无NMS训练。这使得模型能够准确预测边界框,而无需后处理过滤步骤,直接改善了推理延迟并降低了在硬件加速器上部署的门槛。尽管对于标准detect任务而言效率很高,但该模型主要侧重于边界框预测,缺乏对实例分割或姿势估计等更复杂任务的原生支持。

了解更多关于 YOLOv10

YOLO26:边缘与云视觉AI的新标准

作者:Glenn Jocher 和 Jing Qiu
机构:Ultralytics
日期:2026-01-14
链接:GitHub 仓库 | Ultralytics 平台

在早期开创的NMS-free概念基础上,新发布的YOLO26代表了性能和多功能性的巅峰。它专为学术研究和企业级部署而设计,原生集成了端到端NMS-free设计,完全消除了NMS后处理,从而在所有支持的硬件上实现更快、更简单的部署。

YOLO26 引入了多项开创性的架构改进。移除分布焦点损失(DFL)显著简化了模型的导出过程,并增强了与低功耗边缘设备的兼容性。结合这些结构性变化,YOLO26 实现了高达 43% 更快的 CPU 推理速度,使其成为物联网和机器人应用(可能无法使用 GPU 加速)的卓越选择。

此外,通过使用MuSGD优化器(一种受LLM训练技术启发的SGD和Muon混合体),训练稳定性和收敛速度得到了革新。结合ProgLoss + STAL等高级损失函数,YOLO26在小目标识别方面取得了显著改进。它还引入了任务特定的增强功能,包括用于分割的多尺度原型设计、用于姿势估计的残差对数似然估计(RLE),以及用于解决旋转框检测(OBB)中边界问题的专用角度损失。

了解更多关于 YOLO26 的信息

企业部署

对于希望扩展其计算机视觉工作流程的团队,Ultralytics Platform 提供与 YOLO26 的无缝集成,提供直观的数据标注、自动化云训练和一键部署选项,而无需大量 MLOps 基础设施。

技术性能比较

在评估这些模型时,准确性、模型大小和推理速度之间的平衡至关重要。下表突出显示了这两个模型系列在不同规模下的性能,这些性能均在标准COCO dataset上进行评估。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

数据清楚地表明了新架构的演进优势。YOLO26 在所有尺寸层级上均实现了更高的 mAP(平均精度均值),同时保持了极具竞争力的推理速度。YOLO26 中 DFL 的移除尤其有助于其卓越的 CPU ONNX 性能,这是一个前几代模型常常表现不佳的指标。

训练方法与生态系统

模型的实用性取决于其支持生态系统。尽管YOLOv10提供了一个基于PyTorch的优秀学术实现,但对于基本detect之外的任务,通常需要手动配置。

相比之下,YOLO26 完全集成到维护良好的 Ultralytics 生态系统中。这确保了与 RT-DETR 等基于 Transformer 的模型相比,训练期间的内存需求显著降低,使研究人员能够在消费级硬件上训练最先进的网络。其易用性无与伦比,提供了一个统一的 API,可自动处理数据增强、超参数调整和日志记录。

代码示例:训练 YOLO26

训练一个多功能、高精度的模型只需几行 Python 代码:

from ultralytics import YOLO

# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model efficiently with automatic memory management
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
)

# Export natively to TensorRT without NMS complexities
model.export(format="engine")

实际应用与用例

选择正确的架构完全取决于部署限制。

高速边缘计算

对于需要在微控制器、机器人或老旧移动设备上快速部署的应用,YOLO26 43%更快的CPU推理速度使其成为明确的选择。其无NMS、无DFL架构可以无缝转换为OpenVINOTensorRT等格式,非常适合智慧城市基础设施中的实时视频分析。

高级多任务视觉

尽管YOLOv10在纯边界框 detect 方面表现出色,但需要丰富视觉理解的项目必须依赖YOLO26。从医学影像中的实例 segment到体育分析中的精准姿势估计,YOLO26提供任务特定的损失函数,确保在不同领域实现卓越的准确性。

替代选项

如果您的项目需要强大的开放词汇检测,请考虑探索YOLO-World。对于维护传统流水线的用户,YOLO11在 Ultralytics 框架内仍然是一个完全受支持且强大的替代方案。

应用场景与建议

在YOLOv10和YOLO26之间选择取决于您具体的项目需求、部署限制和生态系统偏好。

何时选择 YOLOv10

YOLOv10是以下场景的有力选择:

  • 免NMS的实时检测:受益于无需非极大值抑制的端到端检测,从而降低部署复杂性的应用。
  • 速度-精度平衡权衡:适用于需要在推理速度和 detect 精度之间取得良好平衡的各种模型规模的项目。
  • 一致延迟应用:部署场景中,可预测的推理时间至关重要,例如机器人技术或自主系统。

何时选择 YOLO26

YOLO26 推荐用于:

  • 免NMS的边缘部署:需要一致的低延迟推理,且无需非极大值抑制后处理复杂性的应用。
  • 纯CPU环境:在没有专用GPU加速的设备上,YOLO26高达43%的CPU推理速度提升提供了决定性优势。
  • 小目标 detect:无人机航拍图像 或物联网传感器分析等挑战性场景中,ProgLoss 和 STAL 显著提高了微小目标的准确性。

结论

从 YOLOv10 到 YOLO26 的转变标志着从学术概念验证到生产就绪型企业解决方案的关键性飞跃。通过采用开创性的免 NMS 设计,并结合 MuSGD 优化器、ProgLoss 和简化的边缘兼容性,YOLO26 为实时计算机视觉领域树立了新的标杆。对于旨在实现速度、准确性和可用性最佳平衡的开发人员来说,YOLO26 是最终的推荐。


评论