YOLOv9 与 DAMO-YOLO:目标检测模型技术对比

计算机视觉的快速演进产生了一系列针对不同部署限制和精度要求而定制的强大架构。该领域有两个显著的代表,一个是因其稳健处理信息瓶颈而备受赞誉的 YOLOv9,另一个是高度关注神经架构搜索 (NAS) 和高效特征金字塔的 DAMO-YOLO

本指南深入对比了 YOLOv9 和 DAMO-YOLO 的技术细节,强调了它们的架构差异、训练方法以及理想的部署场景。我们还将探讨 Ultralytics 生态系统 如何提供从开发到生产的无缝路径,以及为什么像 YOLO26 这样的现代模型已成为新项目的推荐标准。

架构深度剖析

了解驱动每个模型的核心机制,有助于揭示它们在不同指标上表现差异的原因。

YOLOv9:可编程梯度信息

YOLOv9 的设计初衷是直接解决数据在深度神经网络中流动时发生的信息丢失问题。

作者: Chien-Yao Wang, Hong-Yuan Mark Liao
组织: 台湾中央研究院资讯科学研究所
日期: 2024 年 2 月 21 日
链接: Arxiv, GitHub, 文档

了解关于 YOLOv9 的更多信息

YOLOv9 引入了 可编程梯度信息 (PGI)广义高效层聚合网络 (GELAN)。PGI 确保在向前传播过程中保留重要的空间和语义信息,防止用于权重更新的梯度退化。GELAN 通过最大化参数效率来补充这一点,使模型能够以比许多传统 CNN 更少的 FLOPs 实现最先进的 平均精度均值 (mAP)

DAMO-YOLO:NAS 驱动的效率

DAMO-YOLO 由阿里巴巴集团开发,采用了不同的方法,利用自动化架构搜索在速度和精度之间找到最佳平衡点。

作者: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, 和 Xiuyu Sun
组织: 阿里巴巴集团
日期: 2022 年 11 月 23 日
链接: Arxiv, GitHub

了解更多关于 DAMO-YOLO 的信息

DAMO-YOLO 依赖于 MAE-NAS(用于神经架构搜索的掩码自动编码器)主干来自动生成高效的网络结构。它利用 RepGFPN(重参数化广义特征金字塔网络)进行稳健的特征融合,并采用“ZeroHead”设计来最大限度地减少检测头的计算负担。此外,它还结合了用于标签分配的 AlignedOTA 和知识蒸馏技术,以提升其较小变体的性能。

NAS 在计算机视觉中的作用

神经架构搜索 (NAS) 可以自动设计人工神经网络。虽然它能产生像 DAMO-YOLO 这样高效的模型,但它往往需要巨大的计算资源来搜索架构空间,这与 YOLOv9 等模型更确定性的设计哲学形成了鲜明对比。

性能与指标对比

在选择 目标检测 模型时,平衡精度、速度和计算占用至关重要。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

分析

  • 精度与参数: YOLOv9 通常表现出更优的参数精度比。例如,YOLOv9c 以 25.3M 参数达到 53.0% mAP,而 DAMO-YOLOl 达到 50.8% mAP 但需要更多的参数 (42.1M)。
  • 推理速度: DAMO-YOLO 的架构在 T4 GPU 上提供了极具竞争力的 TensorRT 推理速度,在中等层级上略胜 YOLOv9 一筹。然而,YOLOv9 在 FLOPs 和参数数量上的效率转化为卓越的 GPU 内存效率
  • 内存需求: 包括 YOLOv9 在内的 Ultralytics YOLO 模型,与复杂的 NAS 生成模型或笨重的 Transformer 架构相比,在训练和推理过程中通常表现出更低的内存使用率,这使得它们非常易于部署在受限的边缘硬件上。

Ultralytics 生态系统的优势

虽然理论指标很重要,但实际实施在很大程度上决定了项目的成功。这就是 Ultralytics 平台 及其全面的软件生态系统优于像 DAMO-YOLO 这种独立存储库的原因。

易用性与训练效率

训练自定义 YOLOv9 模型几乎不需要冗余代码。Ultralytics Python API 抽象化了诸如 数据增强、分布式训练和硬件优化等复杂流程。

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

相反,使用 DAMO-YOLO 通常需要处理僵化的配置文件和特定于其独特训练流水线的复杂依赖链,这导致了更高的学习曲线。

跨任务的多功能性

Ultralytics 模型的一个标志是其固有的通用性。除了标准边界框检测外,Ultralytics 框架还无缝支持 实例分割姿态估计图像分类旋转边界框 (OBB) 检测等任务。DAMO-YOLO 严格针对 2D 目标检测进行了优化,若要适应其他视觉范式,则需要进行大量的重新工程。

导出到边缘设备

Ultralytics 通过提供一键式 模型导出 功能简化了部署流程,支持导出为 TensorRTOpenVINO 和 CoreML 等格式,确保无论你的目标硬件如何,都能获得最佳性能。

用例与建议

在 YOLOv9 和 DAMO-YOLO 之间进行选择取决于你的具体项目需求、部署限制和生态系统偏好。

何时选择 YOLOv9

YOLOv9 是以下情况的有力选择:

  • 信息瓶颈研究: 研究可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)架构的学术项目。
  • 梯度流优化研究: 专注于理解并减轻深度网络层在训练过程中信息丢失的研究。
  • 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准性能作为架构对比参考点的场景。

何时选择 DAMO-YOLO

DAMO-YOLO 推荐用于:

  • 高吞吐量视频分析: 在固定 NVIDIA GPU 基础设施上处理高 FPS 视频流,其中 batch-1 吞吐量是主要指标。
  • 工业制造生产线: 专用硬件上具有严格 GPU 延迟约束的场景,例如装配线上的实时质量检测。
  • 神经架构搜索研究: 研究自动化架构搜索(MAE-NAS)和高效重参数化骨干网络对检测性能的影响。

何时选择 Ultralytics (YOLO26)

对于大多数新项目,Ultralytics YOLO26 提供了性能与开发者体验的最佳结合:

  • 无需 NMS 的边缘部署: 需要持续、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 在没有专用 GPU 加速的设备上,YOLO26 的 CPU 推理速度提升高达 43%,这提供了决定性优势。
  • 小目标检测: 具有挑战性的场景,如 航拍无人机图像 或 IoT 传感器分析,ProgLoss 和 STAL 在小目标上显著提升了准确性。

未来:转向 YOLO26

虽然 YOLOv9 和 DAMO-YOLO 代表了重要的历史里程碑,但现代计算机视觉已经转向原生的端到端架构。对于任何新的开发,YOLO26 都是推荐的标准。

YOLO26 于 2026 年发布,建立在其前辈成功的经验之上,在精度和部署简便性上都实现了飞跃。

YOLO26 的关键创新

  • 端到端无 NMS 设计: YOLO26 完全消除了非极大值抑制 (NMS) 后处理。这创建了一个精简的部署流水线,它是原生端到端的,这一突破最早在 YOLOv10 中被引入。
  • 移除 DFL: 移除了分布焦点损失 (Distribution Focal Loss),以便于导出并增强与边缘/低功耗设备的兼容性。
  • CPU 推理速度提升高达 43%: 通过移除复杂的后处理并优化核心卷积,YOLO26 特别适用于缺乏专用 GPU 的边缘计算场景。
  • MuSGD 优化器: 受 LLM 训练创新的启发,YOLO26 利用 SGD 和 Muon 的混合体 (MuSGD) 来保证更稳定的训练运行和明显更快的收敛速度。
  • ProgLoss + STAL: 这些先进的损失函数在小目标识别方面提供了显著的增强,使 YOLO26 成为高空航拍图像和物联网设备的理想选择。

如果你目前正在调研 YOLO11YOLOv8 以用于下一个项目,升级到 YOLO26 可确保你使用的是当今可用的最优化、最先进的视觉 AI 框架。

总结

选择合适的模型取决于你具体的运营限制:

  • DAMO-YOLO 提供了一个迷人的视角,让我们看到了 NAS 驱动的优化,为那些其 RepGFPN 架构表现优异的特定硬件配置文件提供了极具竞争力的速度。
  • YOLOv9 是专注于保留细粒度视觉细节的研究人员的绝佳选择,利用其 PGI 架构防止深度网络中的信息丢失。
  • Ultralytics YOLO26 是现代企业和研究应用的首选。其无与伦比的易用性、无 NMS 架构以及尖端的 MuSGD 训练优化,使其成为计算机视觉领域中最可靠、最准确且最易于部署的模型。

评论