Link to this sectionYOLOv10 与 YOLOv9#
实时计算机视觉的发展历程中,速度、精度和架构效率不断取得突破。在评估用于下一次部署的现代解决方案时,比较 YOLOv10 和 YOLOv9 可以让你以全新的视角审视解决深度学习瓶颈的两种不同方法。YOLOv9 专注于在训练过程中最大化梯度信息流,而 YOLOv10 则开创性地采用了原生端到端设计,彻底消除了传统的后处理障碍。
本综合指南分析了它们的架构创新、性能指标以及理想的使用场景,旨在帮助开发者和研究人员为其特定的计算机视觉任务选择最优模型。
Link to this sectionYOLOv10:无 NMS 的端到端先驱#
为了解决传统目标检测器的延迟瓶颈,YOLOv10 引入了一种革命性的端到端架构,从原生层面消除了对非极大值抑制(NMS)的需求。
技术细节与渊源:
- 作者: Ao Wang, Hui Chen, Lihao Liu 等
- 组织: 清华大学
- 日期: 2024 年 5 月 23 日
- 链接: Arxiv 出版物, GitHub 仓库, Ultralytics 文档
Link to this section架构与优势#
YOLOv10 对该领域最重要的贡献在于其用于无 NMS 训练的一致双分配策略。通过消除 NMS,该模型大幅降低了推理延迟,尤其是在边缘设备上——因为后处理往往会成为整个流水线的瓶颈。它从效率和精度两个角度优化了各个组件,从而使模型在 速度与参数的权衡 方面表现出色。例如,YOLOv10-S 变体速度极快,非常适合高速 视频分析 和实时机器人导航。
Link to this section弱点#
虽然无 NMS 设计在边界框检测方面具有开创性,但 YOLOv10 主要被优化为纯目标检测器。它缺乏较新生态系统中那种开箱即用的多功能性,无法原生支持 实例分割 或 姿态估计。此外,早期的实现需要谨慎处理导出步骤,以确保像 cv2 这样的操作能从推理图中完全优化掉。
在将 YOLOv10 用于生产环境时,务必确保将模型导出为 TensorRT 或 ONNX 等优化格式。在部署中运行原始 PyTorch 权重可能会因图操作未经优化而导致推理速度低于预期。
Link to this sectionYOLOv9:可编程梯度信息#
在 YOLOv10 之前,YOLOv9 引入了新颖的架构概念来解决深度神经网络中固有的信息瓶颈问题,实现了极高效率的参数利用。
技术细节与渊源:
- 作者: Chien-Yao Wang 和 Hong-Yuan Mark Liao
- 组织: 台湾中央研究院信息科学研究所
- 日期: 2024 年 2 月 21 日
- 链接: Arxiv 出版物, GitHub 仓库, Ultralytics 文档
Link to this section架构与优势#
YOLOv9 introduces Programmable Gradient Information (PGI) alongside the Generalized Efficient Layer Aggregation Network (GELAN). PGI ensures that crucial target information is not lost as data passes through the network's deep layers, generating reliable gradients for weight updates. GELAN maximizes the efficiency of the network's parameters. Together, these innovations allow YOLOv9 to achieve incredibly high mean Average Precision (mAP) on the MS COCO dataset, often outperforming heavier models while using fewer FLOPs. It is an exceptional model for researchers focused on maximizing theoretical accuracy metrics.
Link to this section弱点#
尽管精度很高,但 YOLOv9 仍然依赖于标准的 NMS 后处理。这意味着虽然神经网络运算速度很快,但最终的边界框过滤可能会根据场景中物体的密度产生不同的延迟。此外,与其后续模型相比,其训练过程可能会占用大量内存,在对自定义数据集进行微调时需要更强大的 GPU 资源。
Link to this section性能比较#
下表列出了两个模型的核心指标。请注意 YOLOv10 通常如何通过 TensorRT 实现更低的延迟,而 YOLOv9 则在其最大配置下将精度推向了极限。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Link to this section下一代:为什么 YOLO26 是最终推荐#
虽然 YOLOv9 和 YOLOv10 是令人印象深刻的里程碑,但机器学习领域发展迅速。对于现代生产环境,开发者越来越多地依赖于 Ultralytics 平台 这一集成且维护良好的生态系统。截至 2026 年,无论是对于研究还是企业,明确的推荐都是新发布的 YOLO26。
YOLO26 汲取了其前代产品的基本概念,并通过精简的用户体验、简单的 API 以及与庞大的基于 Transformer 的架构相比极低的训练内存需求将其提升到了新的高度。
Link to this sectionYOLO26 的关键创新#
- 端到端无 NMS 设计: 在 YOLOv10 突破的基础上,YOLO26 原生实现了端到端设计,完全消除了 NMS 后处理,从而实现了更简单的部署和高度确定性的延迟配置。
- CPU 推理速度提升高达 43%: 专为 边缘 AI 开箱即用而优化,使其成为缺乏专用 GPU 的嵌入式系统的绝佳选择。
- MuSGD 优化器: 由 SGD 和 Muon(受大语言模型优化启发)组成的开创性混合体,确保了高度稳定的训练过程和极快的收敛时间。
- DFL 移除: 通过移除分布式焦点损失 (DFL),YOLO26 简化了模型导出过程,显著增强了与低功耗设备及各种边缘部署框架的兼容性。
- 特定任务增强: 与专业化的单任务检测器不同,YOLO26 是一个多功能的强大工具。它利用语义分割损失来实现精细的像素级精度,利用残差对数似然估计 (RLE) 来实现完美的姿态估计,并使用专门的角度损失来解决 OBB(旋转边界框)边界问题。
Link to this section实际应用#
利用 Python SDK 可以轻松训练和部署这些模型。以下示例展示了如何利用 Ultralytics 生态系统高效的训练流程,它会自动处理超参数调度和最优内存分配。
from ultralytics import YOLO
# Load the recommended state-of-the-art model
model = YOLO("yolo26n.pt") # Also compatible with 'yolov10n.pt' or 'yolov9c.pt'
# Train the model efficiently on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0, batch=16)
# Run ultra-fast inference
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to ONNX for simplified edge deployment
model.export(format="onnx")Link to this section应用场景与建议#
在 YOLOv10 和 YOLOv9 之间进行选择取决于你的具体项目需求、部署约束和生态系统偏好。
Link to this section何时选择 YOLOv10#
YOLOv10 是以下情况的有力选择:
- 无需 NMS 的实时检测: 得益于无需非极大值抑制(Non-Maximum Suppression)的端到端检测,能够降低部署复杂性的应用。
- 平衡的速度与精度权衡: 需要在推理速度和检测精度之间取得良好平衡的各类项目,适用于多种模型规模。
- 延迟一致的应用: 在机器人或自动驾驶系统等对可预测推理时间有严格要求的部署场景中。
Link to this section何时选择 YOLOv9#
YOLOv9 推荐用于:
- 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
- 梯度流优化研究: 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
- 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。
Link to this section何时选择 Ultralytics (YOLO26)#
对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:
- 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
- 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
- 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。
Link to this section结论#
YOLOv9 和 YOLOv10 都各具优势。YOLOv9 是最大化网络参数效率和理论梯度流的证明,从而实现了顶级的精度。与此同时,YOLOv10 作为学术先驱,实现了端到端的边界框检测,且没有 NMS 带来的延迟损失。
然而,对于寻求性能、多功能性和易用性完美平衡的开发者来说,升级到最新模型至关重要。凭借其先进的 MuSGD 优化器、用于卓越小目标检测的 ProgLoss + STAL 功能以及全面的多任务支持,YOLO26 代表了解决任何现实世界计算机视觉挑战的终极最先进解决方案。