Link to this sectionYOLOv10 与 YOLO26 对比#
近年来,计算机视觉领域见证了显著的进步,已从复杂的、重度依赖后处理的架构转向精简的端到端模型。这份技术对比深入探讨了这一历程中的两个重要里程碑:学术突破 YOLOv10 和前沿的企业级应用 YOLO26。通过分析它们的架构、训练方法和实际部署能力,开发者可以在构建下一个视觉 AI 应用时做出明智的决策。
Link to this sectionYOLOv10:端到端目标检测的先行者#
作者:Ao Wang, Hui Chen, Lihao Liu 等
所属机构:清华大学
日期:2024-05-23
链接:arXiv 论文 | GitHub 仓库
YOLOv10 发布于 2024 年年中,它通过解决实时目标检测中最持久的瓶颈之一:非极大值抑制 (NMS),在学术计算机视觉研究中实现了跨越式进步。传统的目标检测器严重依赖 NMS 来过滤冗余的边界框,这不仅在推理时增加了不确定的延迟,还使边缘设备部署变得更加复杂。
清华大学团队提出了一种用于 NMS-free 训练的一致性双重分配策略。这使得模型无需后处理过滤步骤即可准确预测边界框,直接改善了推理延迟并降低了在硬件加速器上部署的门槛。尽管对于标准检测任务非常高效,但该模型主要关注边界框预测,缺乏对实例分割或姿态估计等更复杂任务的原生支持。
Link to this sectionYOLO26:边缘与云端视觉 AI 的新标准#
作者:Glenn Jocher 和 Jing Qiu
所属机构:Ultralytics
日期:2026-01-14
链接:GitHub 仓库 | Ultralytics 平台
在早期开创的 NMS-free 概念基础上,新发布的 YOLO26 代表了性能与多功能性的巅峰。它专为学术研究和企业级部署而设计,原生集成了 端到端 NMS-free 设计,彻底消除了 NMS 后处理,从而在所有受支持的硬件上实现更快、更简单的部署。
YOLO26 引入了多项突破性的架构改进。移除了分布焦点损失 (DFL) 后,模型导出过程显著简化,并增强了与低功耗边缘设备的兼容性。结合这些结构调整,YOLO26 实现了高达 43% 的 CPU 推理加速,使其成为 GPU 加速受限时 IoT 和机器人应用的出色选择。
此外,通过使用受大语言模型训练技术启发、结合 SGD 和 Muon 的 MuSGD 优化器,训练稳定性和收敛速度得到了彻底变革。配合 ProgLoss + STAL 等先进损失函数,YOLO26 在小目标识别方面取得了显著提升。它还引入了针对任务的增强功能,包括用于分割的多尺度原型、用于姿态估计的残差对数似然估计 (RLE),以及用于解决旋转目标检测 (OBB) 中边界问题的专用角度损失。
对于希望扩展计算机视觉工作流的团队,Ultralytics 平台 提供了与 YOLO26 的无缝集成,提供直观的数据标注、自动化云训练和一键部署选项,而无需复杂的 MLOps 基础设施。
Link to this section技术性能对比#
在评估这些模型时,精度、模型大小和推理速度之间的平衡至关重要。下表重点介绍了这两个模型系列在不同规模下的性能表现,并在标准的 COCO 数据集 上进行了评估。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
数据清晰地展示了较新架构的进化优势。YOLO26 在所有尺寸类别中均实现了更高的 mAP (平均精度均值),同时保持了极具竞争力的推理速度。YOLO26 中 DFL 的移除特别有助于其实现卓越的 CPU ONNX 性能,这在之前版本中往往是一个短板。
Link to this section训练方法与生态系统#
模型的价值取决于支持它的生态系统。虽然 YOLOv10 提供了一个基于 PyTorch 的优秀学术实现,但对于基础检测之外的任务,它通常需要手动配置。
相比之下,YOLO26 完全集成在维护良好的 Ultralytics 生态系统中。与 RT-DETR 等基于 Transformer 的模型相比,这确保了训练期间的内存需求显著降低,使研究人员能够在消费级硬件上训练最先进的网络。其易用性是无与伦比的,提供了统一的 API,可以自动处理数据增强、超参数调优和日志记录。
Link to this section代码示例:训练 YOLO26#
训练一个多功能、高精度的模型仅需几行 Python 代码:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")Link to this section实际应用与使用案例#
选择正确的架构完全取决于部署约束。
Link to this section高速边缘计算#
对于需要在微控制器、机器人或老旧移动设备上快速部署的应用,YOLO26 快 43% 的 CPU 推理速度使其成为最终选择。其 NMS-free 和 DFL-free 的架构可以无缝转换为 OpenVINO 和 TensorRT 等格式,非常适合智能城市基础设施中的实时视频分析。
Link to this section先进的多任务视觉#
虽然 YOLOv10 在纯边界框检测方面表现出色,但需要丰富视觉理解的项目必须依赖 YOLO26。从医疗影像中的 实例分割 到体育分析中的精确 姿态估计,YOLO26 提供了针对特定任务的损失函数,确保在不同领域中实现卓越的准确性。
如果你的项目需要强大的开放词汇检测,请考虑探索 YOLO-World。对于维护旧版工作流的用户,YOLO11 在 Ultralytics 框架内仍然是一个完全受支持且功能强大的替代方案。
Link to this section应用场景与建议#
选择 YOLOv10 还是 YOLO26 取决于你的具体项目要求、部署约束和生态系统偏好。
Link to this section何时选择 YOLOv10#
YOLOv10 是以下情况的有力选择:
- 无需 NMS 的实时检测: 得益于无需非极大值抑制(Non-Maximum Suppression)的端到端检测,能够降低部署复杂性的应用。
- 平衡的速度与精度权衡: 需要在推理速度和检测精度之间取得良好平衡的各类项目,适用于多种模型规模。
- 延迟一致的应用: 在机器人或自动驾驶系统等对可预测推理时间有严格要求的部署场景中。
Link to this section何时选择 YOLO26#
建议在以下情况下选择 YOLO26:
- 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
- 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
- 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。
Link to this section结论#
从 YOLOv10 到 YOLO26 的过渡凸显了从学术概念验证到生产级企业解决方案的关键转变。通过采用领先的 NMS-free 设计,并辅以 MuSGD 优化器、ProgLoss 和精简的边缘兼容性,YOLO26 为实时计算机视觉的可能性设定了新的标杆。对于旨在实现速度、精度和易用性最佳平衡的开发者而言,YOLO26 是最终的首选推荐。