Link to this sectionDAMO-YOLO 与 YOLOv9 对比#

实时目标检测领域的发展正以惊人的速度演进。随着工程团队和研究人员力求在准确性、推理速度和计算效率之间取得完美平衡，研究界出现了两种值得关注的架构：DAMO-YOLO 和 YOLOv9。这两种模型都引入了重要的架构创新，旨在突破计算机视觉的可能性边界。

这份详细的技术指南深入分析了这两种模型，比较了它们独特的架构方法、训练方法以及现实世界的部署能力。我们还将探讨更广泛的软件生态系统如何在现代 AI 开发中发挥关键作用，并重点介绍像 Ultralytics Platform 这样的集成平台以及像 YOLO26 这样新一代模型的优势。

Link to this section执行摘要：选择合适的架构#

虽然这两种模型都代表了深度学习研究的重要里程碑，但它们迎合了略有不同的部署理念。

DAMO-YOLO 在可以利用繁重的神经网络架构搜索 (NAS) 来榨取特定性能配置的环境中表现出色，这使其成为定制化边缘部署的一个有趣研究对象。相反，YOLOv9 重点解决深度学习信息瓶颈问题，提供了极高的参数效率。

然而，对于生产就绪的部署，工程团队始终建议利用统一的 Ultralytics ecosystem。对于新项目，最新的 YOLO26 模型兼具两者的优势：顶尖的准确性以及无需复杂后处理的原生端到端设计。

让你的计算机视觉管线具备未来保障

虽然 DAMO-YOLO 和 YOLOv9 是强大的学术模型，但在生产环境中部署它们通常需要大量的自定义工程工作。使用 Ultralytics YOLO26 可以通过精简且易于维护的 API 获得前沿的性能。

Link to this section技术规格与作者信息#

了解这些模型的起源和开发重点为它们各自的优势提供了必要的背景。

Link to this sectionDAMO-YOLO#

DAMO-YOLO 由阿里巴巴集团的研究人员开发，重点关注自动架构生成和高效特征融合。

作者： Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, 和 Xiuyu Sun
组织： 阿里巴巴集团
发布日期： 2022 年 11 月 23 日
Arxiv 论文： DAMO-YOLO Research Paper
官方 GitHub： tinyvision/DAMO-YOLO Repository
文档： DAMO-YOLO README

了解关于 DAMO-YOLO 的更多信息

Link to this sectionYOLOv9#

作为解决深度卷积网络中信息丢失问题的方案，YOLOv9 在训练期间将梯度保持的理论极限推向了新高。

作者： Chien-Yao Wang 和 Hong-Yuan Mark Liao
组织： 中央研究院资讯科学研究所，中国台湾
发布日期： 2024 年 2 月 21 日
Arxiv 论文： YOLOv9 Research Paper
官方 GitHub： WongKinYiu/yolov9 Repository
文档： YOLOv9 Ultralytics Docs

了解更多关于 YOLOv9 的信息

Link to this section架构创新#

Link to this sectionDAMO-YOLO：由神经网络架构搜索驱动#

DAMO-YOLO 通过高度定制的机器生成组件脱颖而出。其骨干网络是使用神经网络架构搜索 (NAS) 生成的，专门针对不同硬件上的低延迟推理进行了优化。

该架构采用了高效的 RepGFPN（重参数化广义特征金字塔网络）进行特征融合，在不显著增加计算开销的情况下增强了多尺度目标检测。此外，它采用了 ZeroHead 设计来简化检测头，并利用 AlignedOTA 进行标签分配，同时在训练过程中配合复杂的蒸馏增强过程。虽然这些技术带来了快速推理，但多阶段蒸馏过程通常需要大量的 VRAM 和较长的训练时间。

Link to this sectionYOLOv9：解决信息瓶颈#

YOLOv9 解决了深度网络中的一个基本问题：输入数据在通过连续层时会逐渐丢失信息。

为了克服这个问题，作者引入了 可编程梯度信息 (PGI)，这是一个辅助监督框架，旨在为深层保留关键细节，从而为权重更新生成高度可靠的梯度。与 PGI 配套的是 GELAN（广义高效层聚合网络） 架构。GELAN 通过结合 CSPNet 和 ELAN 的优势来优化参数效率，在严格最小化浮点运算 (FLOPs) 的同时最大化信息流。

Link to this section性能分析与指标#

在评估性能时，这两种模型在 COCO 等标准基准测试上都表现出了很强的平均精度 (mAP)。YOLOv9 在同等模型尺寸下实现了更高的绝对准确度，利用其 PGI 架构在困难数据集上保持了高保真度。

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	参数量 ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

如上所示，YOLOv9-E 实现了最高的准确度，而较小的 DAMO-YOLO 和 YOLOv9 变体通过 TensorRT optimizations 保持了极具竞争力的推理速度。

Link to this section训练方法与生态系统#

虽然原始架构很重要，但模型生态系统所决定的易用性和训练效率对于实际应用至关重要。

DAMO-YOLO 对知识蒸馏的依赖通常需要在将知识转移到目标“学生”模型之前训练一个繁琐的“教师”模型。这种传统的研究方法显著增加了内存需求和训练周期时间。同样，原始的 YOLOv9 存储库需要处理复杂的配置文件，这可能会减慢敏捷开发的速度。

相比之下，将模型集成到 Ultralytics Platform 可以彻底改变开发人员的体验。Ultralytics Python 包抽象了样板代码，使团队能够轻松处理数据增强、超参数调整和模型导出。

Link to this section实际应用与使用案例#

不同的架构自然会根据其资源需求和准确性概况在特定行业中表现出色。

边缘 AI 中的 DAMO-YOLO： 由于其 NAS 优化的骨干网络，DAMO-YOLO 经常被探索用于嵌入式系统，在这些系统中，硬件特定的重参数化是严格的必要条件，例如在基本的 manufacturing quality control 中的自定义 ASIC 部署。
精密分析中的 YOLOv9： 凭借其高参数效率和 PGI 驱动的梯度保留，YOLOv9 非常适合密集目标检测场景，例如 analyzing aerial imagery 或在拥挤的零售环境中跟踪微小物体。

Link to this section应用场景与建议#

在 DAMO-YOLO 和 YOLOv9 之间进行选择，取决于你的具体项目需求、部署约束和生态系统偏好。

Link to this section何时选择 DAMO-YOLO#

DAMO-YOLO 是以下场景的理想选择：

高吞吐量视频分析： 在固定的 NVIDIA GPU 基础设施上处理高 FPS 视频流，其中 batch-1 吞吐量是主要指标。
工业生产线： 在专用硬件上对 GPU 延迟有严格限制的场景，例如生产线上的实时质量检查。
神经架构搜索研究： 研究自动化架构搜索 (MAE-NAS) 和高效重参数化骨干网络对检测性能的影响。

Link to this section何时选择 YOLOv9#

YOLOv9 推荐用于：

信息瓶颈研究： 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
梯度流优化研究： 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
高精度检测基准测试： 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目，Ultralytics YOLO26 提供了性能和开发者体验的最佳组合：

无 NMS 的边缘部署： 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
仅 CPU 环境： 没有专用 GPU 加速的设备，YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
小目标检测： 具有挑战性的场景，如 aerial drone imagery 或 IoT 传感器分析，其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this sectionUltralytics 的优势：进阶至 YOLO26#

对于比较遗留架构的用户来说，过渡到现代 Ultralytics 生态系统——特别是 latest YOLO26 models——提供了无可比拟的优势。

YOLO26 通过其 端到端无 NMS 设计 从根本上改变了部署格局。通过完全消除非极大值抑制 (NMS) 后处理，它提供了更快、大幅简化的部署架构。结合移除分布焦点损失 (DFL)，YOLO26 为边缘和低功耗设备提供了卓越的兼容性。

此外，YOLO26 结合了革命性的 MuSGD 优化器，这是受大语言模型训练创新启发，结合了随机梯度下降 (SGD) 和 Muon 优化的混合体。与基于 Transformer 的替代方案相比，这在保持极低内存利用率的同时，实现了高度稳定的训练收敛。

使用 YOLO26 简化训练

得益于直观的 Ultralytics API，你只需几行 Python 代码即可训练出具有内置实验跟踪功能的顶尖 YOLO26 模型。

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

无论你是需要高级 instance segmentation、高精度的 pose estimation，还是标准的边界框检测，Ultralytics 框架的多功能性都能确保你的团队减少配置深度学习环境的时间，并花更多时间部署强大的 AI 解决方案。凭借针对小目标识别增强的 ProgLoss + STAL 等专业任务改进，YOLO26 是下一代视觉应用的首选。

贡献者

GLglenn-jocher¹³

创建于 2025年1月27日更新于 3周前