跳转至内容

YOLO26 vs YOLOv10:端到端目标检测的演进

实时目标检测领域发展迅速,正从复杂的多阶段流水线转向精简的端到端架构。在此转变过程中,两个关键模型是来自Ultralytics的最新最先进产品YOLO26,以及清华大学的一项学术突破YOLOv10

尽管这两个模型都倡导移除非极大值抑制(NMS)以简化部署,但它们在优化目标、生态系统支持和架构改进方面存在显著差异。本指南将深入探讨它们之间的技术差异,以帮助您为计算机视觉项目选择合适的工具。

性能基准

下表比较了YOLO26和YOLOv10在COCO验证数据集上的性能。YOLO26展现出卓越的准确性(mAP)和推理速度,尤其是在CPU硬件上,它针对边缘部署进行了专门优化。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Ultralytics YOLO26

YOLO26代表了Ultralytics模型家族的巅峰,于2026年1月发布。它在YOLOv8YOLO11的遗产基础上,引入了原生的端到端设计,消除了NMS后处理的需要,同时在边缘设备上实现了显著的速度提升。

主要架构创新

  • 端到端无NMS推理:与YOLOv10类似,YOLO26移除了NMS步骤。这简化了部署流程,确保模型输出立即可用于下游逻辑,减少了实时系统中的延迟波动。
  • 移除DFL:该架构移除了分布焦点损失(DFL)。这一改变显著简化了向ONNXTensorRT等格式的导出过程,并增强了与可能难以处理复杂输出层的低功耗边缘硬件的兼容性。
  • MuSGD优化器:一种新颖的训练优化器,将随机梯度下降(SGD)与Muon(灵感来自Moonshot AI的LLM训练技术)相结合。与传统的AdamW或SGD设置相比,这带来了更快的收敛和更稳定的训练运行。
  • ProgLoss + STAL:渐进式损失平衡(Progressive Loss Balancing)和小目标感知标签分配(Small-Target-Aware Label Assignment, STAL)的集成直接解决了目标检测中的常见弱点,特别是提高了在航空图像或物流中发现的小目标的性能。

了解更多关于 YOLO26 的信息

应用场景与优势

YOLO26被设计为一个通用视觉模型。除了检测之外,它原生支持实例分割姿势估计旋转框检测(OBB)图像分类

其针对CPU推理的优化使其成为边缘AI应用的理想选择,例如在树莓派或移动设备上运行,在这些设备上GPU资源不可用。

边缘效率

YOLO26经过优化,与前几代产品相比,CPU推理速度提升高达43%,这使其成为电池供电的物联网设备和嵌入式系统的颠覆性技术。

YOLOv10

由清华大学研究人员开发的YOLOv10是为YOLO家族引入无NMS训练的开创性模型。它主要侧重于减少模型头部的冗余并消除后处理的计算瓶颈。

主要功能

  • 一致的双重分配:YOLOv10在训练期间采用双重分配策略——使用一对多分配进行丰富监督,以及一对一分配以提高效率。这使得模型能够有效训练,同时在推理期间以端到端方式运行。
  • 整体效率设计:该架构利用轻量级分类头和空间-通道解耦下采样以减少计算开销(FLOPs)。
  • 秩引导块设计:为提高效率,YOLOv10根据网络阶段调整块设计,减少了深层中的冗余。

局限性

尽管具有创新性,YOLOv10主要是一个学术研究项目。它缺乏YOLO26中广泛的任务支持(例如官方仓库中原生的obb或姿势估计模型),并且无法从Ultralytics生态系统提供的相同水平的持续维护和集成支持中受益。

了解更多关于 YOLOv10

详细技术比较

训练与优化

YOLO26 引入了MuSGD 优化器,这是一种混合方法,将大型语言模型 (LLM) 训练中的稳定性创新引入计算机视觉领域。这与依赖标准优化技术的 YOLOv10 形成对比。此外,YOLO26 采用 ProgLoss (渐进损失) 在训练期间动态调整损失权重,确保模型随着训练的进行专注于更难的样本。

推理速度与部署

两种模型都提供端到端推理,消除了 NMS 瓶颈。然而,YOLO26 更进一步,移除了 DFL,这通常会使 CoreMLTFLite 导出复杂化。基准测试显示 YOLO26 在 CPU 上推理速度提高高达 43%,这突显了其专注于实际的、真实的边缘部署,而不仅仅是理论上的 GPU FLOP 减少。

多功能性与生态系统

Ultralytics YOLO26 不仅仅是一个检测模型;它是一个平台。用户可以使用相同的 API 无缝切换任务,例如分割姿势估计旋转框检测

from ultralytics import YOLO

# Load a YOLO26 model for different tasks
model_det = YOLO("yolo26n.pt")  # Detection
model_seg = YOLO("yolo26n-seg.pt")  # Segmentation
model_pose = YOLO("yolo26n-pose.pt")  # Pose Estimation

# Run inference
results = model_det("image.jpg")

相比之下,YOLOv10 主要专注于目标检测,对这些复杂的下游任务的官方支持有限。

为何选择 Ultralytics YOLO26?

对于开发者和企业而言,YOLO26 提供了一个更强大的解决方案:

  1. 易用性: Ultralytics Python API 和 CLI 是行业内简洁性的标准。训练、验证和导出都只需单行命令。
  2. 完善的生态系统: Ultralytics 提供频繁的更新、错误修复,并在 DiscordGitHub 上拥有活跃的社区。
  3. 训练效率: 针对所有任务和尺寸提供预训练权重,迁移学习快速高效,相比于 RT-DETR 等基于 Transformer 的替代方案,所需的 GPU 内存更少。
  4. 部署就绪: 广泛支持导出格式,包括 OpenVINO、TensorRT 和 ONNX,确保您的模型可以在任何地方运行。

结论

尽管 YOLOv10 开创了无 NMS 的 YOLO 架构,但 YOLO26 在此基础上进行了改进和扩展,使其成为一个生产就绪的强大模型。凭借其卓越的准确性、专门的边缘优化和全面的任务支持,YOLO26 是现代计算机视觉应用的推荐选择,涵盖从 智慧城市分析农业监测等领域。

其他值得探索的模型

如果您有兴趣探索 Ultralytics 生态系统中的其他选项,请考虑:

  • YOLO11 可靠的先行者,提供出色的通用性能。
  • YOLO-World 适用于开放词汇检测,当您需要检测训练数据中不存在的对象时。
  • RT-DETR 一种基于 Transformer 的检测器,适用于推理速度不那么关键的高精度场景。

评论