Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 与 YOLOv10:实时目标检测演进的技术深度剖析#

实时计算机视觉领域取得了巨大进步,这很大程度上得益于研究人员不断突破性能与效率的边界。在分析最先进的视觉模型演进时,YOLOv9YOLOv10 代表了两个关键里程碑。这两个模型均于 2024 年初发布,引入了范式转变的架构设计,以解决深度神经网络中长期存在的问题,从信息瓶颈到后处理延迟。

这份全面的技术比较探讨了它们的架构、性能指标和理想部署场景,帮助你在现代 目标检测 生态系统的复杂性中游刃有余。

Link to this section模型起源与架构突破#

了解这些模型的渊源和理论基础,对于为你的具体 计算机视觉 项目选择合适的架构至关重要。

Link to this sectionYOLOv9:掌控信息流#

YOLOv9 于 2024 年 2 月 21 日推出,旨在解决数据通过深度神经网络时出现的信息丢失这一理论问题。

YOLOv9 引入了 广义高效层聚合网络 (GELAN),通过结合 CSPNet 和 ELAN 的优势最大化参数利用率。此外,它采用了 可编程梯度信息 (PGI),这是一种辅助监督机制,确保深层能够保留关键的空间信息。这使得 YOLOv9 在需要高特征保真度的任务中表现异常出色,例如 医学图像分析 或远程监控。

了解更多关于 YOLOv9 的信息

Link to this sectionYOLOv10:实时端到端效率#

YOLOv10 于 2024 年 5 月 23 日发布,通过消除目标检测中最臭名昭著的延迟瓶颈之一:非极大值抑制 (NMS),重塑了部署流水线。

YOLOv10 在训练期间利用 一致的双重分配,实现了原生的 NMS-free 设计。这消除了推理过程中的后处理开销,显著降低了延迟。结合整体效率与准确性驱动的模型设计,YOLOv10 实现了出色的平衡,在降低计算开销 (FLOPs) 的同时保持了竞争力的精度,使其对 边缘计算 应用极具吸引力。

了解更多关于 YOLOv10 的信息

Link to this section性能与指标对比#

当在标准的 MS COCO 数据集上对这两个强大的模型进行基准测试时,纯准确率与推理延迟之间会出现明显的权衡。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Link to this section数据分析#

  1. 延迟与准确度: YOLOv10 模型通常提供更快的推理速度。例如,YOLOv10s 在 TensorRT 上仅需 2.66ms 即可实现 46.7% mAP,而 YOLOv9s 则需要 3.54ms 才能达到几乎相同的 46.8% mAP。
  2. 顶级精度: 对于需要最高检测准确度的研究场景,YOLOv9e 仍然是一个强大的选择,达到了惊人的 55.6% mAP。其 PGI 架构确保了细微特征能够被可靠地提取。
  3. 效率: YOLOv10 在 FLOPs 效率 方面表现卓越。这直接转化为更低的功耗,对于运行 视觉 AI 模型 的电池供电型设备来说,这是一个至关重要的指标。
部署提示

如果你要部署到 CPU 或资源受限的边缘硬件(如 Raspberry Pi),YOLOv10 的 NMS-free 架构通常会通过消除非确定性的后处理步骤来提供更流畅的流水线。

Link to this sectionUltralytics 的优势:训练与生态系统#

虽然架构差异至关重要,但周围的软件生态系统在很大程度上决定了项目的成功。YOLOv9 和 YOLOv10 都已完全集成到 Ultralytics 生态系统 中,提供了无与伦比的开发体验。

Link to this section易用性与内存效率#

与那些因内存过度臃肿而苦恼的复杂 Transformer 架构不同,Ultralytics YOLO 模型专为优化 GPU 内存 使用而设计。这使得研究人员能够在消费级硬件上利用更大的 批次大小,让最先进的 AI 技术触手可及。

统一的 Python API 抽象了 数据增强超参数调优 的复杂性。你只需更改权重文件字符串,即可无缝切换不同架构。

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

无论你是需要将指标记录到 MLflow 还是导出到 TensorRT 以进行高速硬件部署,Ultralytics 平台都能原生处理。

Link to this section理想使用场景#

在这些模型之间进行选择取决于你的部署限制:

  • 选择 YOLOv9 的场景: 如果你正在进行 小目标检测 任务,如航拍无人机图像或 检测微小肿瘤,此时 GELAN 架构的特征保留能力能够提供最高的保真度。
  • 选择 YOLOv10 的场景: 如果你的主要目标是边缘设备上的 实时推理。NMS-free 设计使其非常适合自动机器人、实时交通监控和 智能监控 场景。

Link to this section面向未来:转向 YOLO26#

虽然 YOLOv8、YOLOv9 和 YOLOv10 都是出色的模型,但寻求构建现代 AI 解决方案的开发者应考虑 2026 年 1 月发布的 Ultralytics YOLO26

YOLO26 代表了前几代技术的终极综合,结合了 YOLOv9 的准确性和 YOLOv10 的效率方面的最佳特性。

Link to this sectionYOLO26 的关键创新#

  • 端到端 NMS-free 设计: 基于 YOLOv10 打下的基础,YOLO26 原生地消除了 NMS 后处理,以简化部署。
  • MuSGD 优化器: SGD 和 Muon 的混合体,将大语言模型 (LLM) 训练的先进创新引入到计算机视觉中,实现了极高稳定且快速的收敛。
  • CPU 推理速度最高提升 43%: 针对边缘计算和没有专用 GPU 的设备进行了特别优化。
  • 移除 DFL: 移除了分布焦点损失 (Distribution Focal Loss),以简化 模型导出 并提高对低功耗设备的兼容性。
  • ProgLoss + STAL: 这些改进的损失函数在小目标识别方面带来了显著提升,达到了甚至超过了 YOLOv9 的能力。

对于评估遗留架构的研究人员,RT-DETRYOLO11 也是 Ultralytics 生态系统中记录完备的替代方案。然而,为了在所有视觉任务中实现最大的通用性,转向 Ultralytics 平台 上的 YOLO26 能确保你利用的是开源视觉 AI 的巅峰之作。

评论