Link to this sectionYOLOv8 与 DAMO-YOLO#

计算机视觉领域在不断演进，新的架构不断突破边缘设备和大规模云集群的性能极限。在本次深度技术解析中，我们将对比两款出色的实时目标检测模型：YOLOv8 和 DAMO-YOLO。通过研究它们的架构、性能指标和训练方法，机器学习工程师可以为部署流程做出明智的决策。

Link to this section模型背景与起源#

这两款模型推出时间相近，但源于不同的设计理念和研究目标。

Link to this sectionYOLOv8 详情#

作者：Glenn Jocher, Ayush Chaurasia, 和 Jing Qiu
组织：Ultralytics
日期：2023-01-10
GitHub: Ultralytics GitHub 仓库
文档：YOLOv8 官方文档

了解更多关于 YOLOv8 的信息

Link to this sectionDAMO-YOLO 详情#

作者：Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang 和 Xiuyu Sun
组织：阿里巴巴集团
日期：2022-11-23
Arxiv：DAMO-YOLO 研究论文
GitHub：DAMO-YOLO GitHub 存储库

了解关于 DAMO-YOLO 的更多信息

Link to this section架构创新#

Link to this sectionYOLOv8：多功能的无锚框 (Anchor-Free) 设计#

Ultralytics YOLOv8 在前代基础上进行了重大改进，巩固了其作为高度可靠的行业领先模型的地位。它采用无锚框检测头，减少了盒预测数量并加快了推理速度。该架构使用了去耦头，将目标性、分类和回归任务分离，从而实现更准确的边界框预测。

此外，YOLOv8 在 CIoU loss 之外还实现了 Distribution Focal Loss (DFL)，增强了模型精确定位物体边界的能力，特别是在面对小型或被遮挡目标时。其精简的主干网络针对 GPU 和 CPU 执行均进行了高度优化。

Link to this sectionDAMO-YOLO：由架构搜索驱动#

DAMO-YOLO 采取了不同的方法，严重依赖神经架构搜索 (NAS) 来自动设计其主干网络。阿里巴巴团队引入了“MAE-NAS”，旨在寻找在 TensorRT 加速下能够提供最优延迟与准确度平衡的结构。

该模型结合了 RepGFPN（重参数化广义特征金字塔网络）以实现高效的特征融合，并采用“ZeroHead”设计来最大限度地减少检测头的计算负担。在训练期间，它利用 AlignedOTA 进行标签分配，并高度依赖复杂的知识蒸馏过程，需要更大的教师模型来监督目标学生模型。

训练复杂度

虽然 DAMO-YOLO 通过 NAS 和蒸馏实现了令人印象深刻的延迟指标，但与 YOLOv8 高度优化的单阶段训练流程相比，这在训练过程中需要消耗更多的 CUDA 内存和计算时间。

Link to this section性能与指标#

将计算机视觉模型部署到生产环境时，平衡准确度 (mAP) 与推理速度至关重要。下表展示了两种模型在不同尺寸下的性能。

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	参数量 ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8 展示了卓越的性能平衡。YOLOv8n (nano) 模型仅需 320 万个参数，而 DAMO-YOLOt 则需要 850 万个，这使得它在移动设备或内存要求严格的环境中表现出巨大优势。此外，YOLOv8 提供了更丰富的尺寸选择，并可扩展至用于云端工作负载的高精度 YOLOv8x 版本。

Link to this section开发者体验与生态系统#

Link to this section易用性与训练效率#

最大的差异化因素之一是用户体验。Ultralytics 生态系统专为提升开发者效率而设计。训练自定义 YOLOv8 模型所需的内存使用量极低，并且可以通过统一的 Python API 或命令行界面执行。

相反，复现 DAMO-YOLO 的蒸馏增强训练通常需要处理复杂的配置文件以及多阶段的教师-学生实验跟踪。

以下是使用 Python 训练、验证和导出 YOLOv8 是多么简单的一个示例：

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Link to this section跨视觉任务的通用性#

DAMO-YOLO 专门针对边界框目标检测构建。相比之下，YOLOv8 架构原生支持多种任务。开发者只需更换模型权重，无需更改底层部署代码库，即可执行实例分割、图像分类和姿态估计。这种多功能性使得 Ultralytics 模型在处理复杂应用时更加实用。

Link to this section实际应用场景#

Link to this section何时使用 YOLOv8#

YOLOv8 在速度、准确度和部署便捷性方面的结合使其成为以下场景的理想选择：

智慧零售分析： 执行目标追踪以监测顾客行为或自动化库存盘点。
农业机器人： 利用其在各种硬件上的出色表现，实时识别农作物或害虫。
医疗诊断： 使用实例分割快速准确地绘制医学影像中的异常情况。
边缘部署： 与 OpenVINO 和 CoreML 等导出格式的无缝集成，使 YOLOv8 在受限设备上能够大放异彩。

Link to this section何时使用 DAMO-YOLO#

DAMO-YOLO 在特定场景中可能具有优势，特别是：

学术 NAS 研究： 适用于研究重参数化或自动化架构设计方法的团队。
严格受限于 GPU 的流水线： 仅在特定 NVIDIA 硬件上运行的应用程序，且 NAS 结构针对 TensorRT 执行限制进行了深度优化。

Link to this section应用场景与建议#

在 YOLOv8 和 DAMO-YOLO 之间进行选择，取决于你的具体项目需求、部署限制以及生态系统偏好。

Link to this section何时选择 YOLOv8#

YOLOv8 是以下场景的有力选择：

多任务部署： 需要在 Ultralytics 生态系统中进行检测、分割、分类和姿态估计的成熟模型项目。
已建立的生产系统： 已经在 YOLOv8 架构上构建，并拥有稳定、经过良好测试的部署流水线的现有生产环境。
广泛的社区和生态支持： 从 YOLOv8 丰富的教程、第三方集成和活跃的社区资源中受益的应用。

Link to this section何时选择 DAMO-YOLO#

建议在以下场景使用 DAMO-YOLO：

高吞吐量视频分析： 在固定的 NVIDIA GPU 基础设施上处理高 FPS 视频流，其中 batch-1 吞吐量是主要指标。
工业生产线： 在专用硬件上对 GPU 延迟有严格限制的场景，例如生产线上的实时质量检查。
神经架构搜索研究： 研究自动化架构搜索 (MAE-NAS) 和高效重参数化骨干网络对检测性能的影响。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目，Ultralytics YOLO26 提供了性能和开发者体验的最佳组合：

无 NMS 的边缘部署： 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
仅 CPU 环境： 没有专用 GPU 加速的设备，YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
小目标检测： 具有挑战性的场景，如 aerial drone imagery 或 IoT 传感器分析，其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section展望未来：更新的 Ultralytics 模型#

尽管 YOLOv8 仍然是一个非常可靠的支柱，但计算机视觉领域发展迅速。用户也应考虑探索更新一代的模型：

YOLO26： 最新一代的 Ultralytics YOLO26 代表了范式的转变。它引入了原生的 端到端无 NMS 设计，彻底消除了与非极大值抑制后处理相关的延迟瓶颈。得益于全新的 MuSGD 优化器（SGD 和 Muon 的混合体）以及专用的 ProgLoss + STAL 损失函数，YOLO26 实现了极其稳定的训练和大幅改进的小目标识别能力。通过 DFL 移除（移除分布焦点损失以简化导出并提高边缘/低功耗设备的兼容性），架构调整使得 CPU 推理速度提升高达 43%（对比前代），使其成为现代边缘计算的最终选择。

YOLO11： 另一个绝佳选择，Ultralytics YOLO11 在 YOLOv8 的基础上进行了增量架构改进，并且仍然是社区中备受青睐的稳健模型。

简化你的工作流

准备好将你的模型从原型推向生产了吗？利用 Ultralytics Platform 自动标注数据集、跟踪实验，并无缝地将模型部署到云端或边缘设备。

总之，虽然 DAMO-YOLO 在架构搜索方面提供了有趣的学术见解，但 Ultralytics 模型提供了一个更加成熟、多功能且对开发者友好的生态系统。无论你是继续使用经受时间考验的 YOLOv8，还是升级到速度极快、无 NMS 的 YOLO26 架构，Ultralytics 套件依然是实时视觉 AI 的首选。

贡献者

GLglenn-jocher¹³

创建于 2025年1月27日更新于 4周前