跳转至内容

YOLO11 vs DAMO-YOLO:技术比较

在快速发展的计算机视觉领域,选择正确的物体检测模型对于项目的成功至关重要。本页详细介绍了 Ultralytics YOLO11YOLO 这两种高性能架构的详细技术比较。YOLO 引入了学术研究中的创新技术,而YOLO11 则是以强大的生态系统为后盾的通用型生产就绪解决方案。

执行摘要

Ultralytics YOLO11代表了 YOLO 系列的最新演进,优化了从边缘设备到云服务器等各种硬件上的实时推理。它原生支持多项任务——包括 detect、segment 和姿势估计——使其成为复杂 AI 流水线的统一解决方案。

DAMO-YOLO,由阿里巴巴集团开发,专注于利用神经架构搜索 (NAS) 和新颖的特征融合技术来平衡检测速度和准确性。它主要是一个面向研究的检测器,针对 GPU 吞吐量进行了优化。

Ultralytics YOLO11

作者: Glenn Jocher, Jing Qiu
机构:Ultralytics
日期: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
文档:https://docs.ultralytics.com/models/yolo11/

YOLO11 通过引入架构改进,在保持高效率的同时增强了特征提取能力,从而提升了最先进水平。与前几代模型相比,它采用改进的 CSPNet 主干网络和先进的无锚点头部,以更少的参数实现了卓越的准确性。

主要特性和优势

  • 多功能性:与许多专用模型不同,YOLO11是一个多任务框架。它支持目标检测实例分割图像分类姿势估计旋转框检测 (OBB)
  • 精炼架构:融合了C3k2块和C2PSA(带空间注意力的跨阶段局部)模块,以有效捕获复杂模式,从而提高对小目标和复杂背景的性能。
  • 广泛硬件支持:针对 CPU 和 GPU 推理进行了优化,提供不同模型规模(Nano 到 X-Large),以适应从 Raspberry Pi 到 NVIDIA A100 集群的各种限制。
  • 易用性:Ultralytics Python API 和 CLI 让开发者能够以最少的代码训练、验证和部署模型。

生产就绪生态系统

YOLO11 与 Ultralytics 生态系统无缝集成,包括数据管理工具、通过 Ultralytics HUB 进行模型训练,以及一键导出到 ONNXTensorRT 和 CoreML 等格式。

了解更多关于 YOLO11 的信息

DAMO-YOLO

作者: 徐贤哲、蒋一奇、陈卫华、黄一伦、张远、孙秀宇
机构:阿里巴巴集团
日期: 2022-11-23
预印本:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO 的设计侧重于工业应用的低延迟和高吞吐量。它向 YOLO 家族引入了多项“新技术”组件,以突破速度-精度权衡的极限。

架构创新

  • MAE-NAS 主干网络: 利用以平均绝对误差 (MAE) 为指导的神经架构搜索 (NAS) 自动发现高效的网络拓扑。
  • 高效RepGFPN:一种采用重参数化的广义特征金字塔网络(GFPN),允许在训练期间进行复杂的特征融合,同时在推理期间坍缩成更快、更简单的结构。
  • ZeroHead: 一种轻量级检测头,它解耦了分类和回归任务,显著降低了最终输出层的计算开销。
  • AlignedOTA: 一种增强的标签分配策略,用于解决训练期间分类置信度和回归准确性之间的不匹配问题。

尽管DAMO-YOLO在特定指标上表现出色,但它主要是一个研究型代码库。它缺乏Ultralytics生态系统中广泛的文档、持续更新和广泛的社区支持。

了解更多关于 DAMO-YOLO 的信息

性能指标:直接对比

下表比较了 YOLO11 和 DAMO-YOLO 在COCO val2017 数据集上的性能。关键指标包括平均精度均值 (mAP) 以及在 CPU 和 GPU 硬件上的推理速度。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

结果分析

  1. 效率优势: YOLO11 展现出卓越的参数效率。例如,YOLO11m 模型仅用 2010 万参数即可达到 51.5 mAP,而可比较的 DAMO-YOLOm 则以 2820 万参数的更大占用空间,落后于 49.2 mAP。
  2. 极致精度:最大的变体YOLO11x达到了惊人的54.7 mAP,超越了所列出的最大 DAMO-YOLO 模型。这使得 YOLO11 成为医学影像或缺陷检测等高精度任务的首选。
  3. 边缘部署: YOLO11n (Nano) 模型极其轻量(2.6M 参数)且快速(在 T4 上 1.5 毫秒),使其非常适合内存稀缺的嵌入式系统。相比之下,最小的 DAMO-YOLO 模型明显更重(8.5M 参数)。
  4. CPU 性能:Ultralytics 提供了透明的 CPU 基准测试,突出了 YOLO11 在没有专用加速器的部署中的可行性。DAMO-YOLO 未正式报告 CPU 速度,这限制了其在低功耗物联网应用中的评估。

技术深度解析

训练与架构

DAMO-YOLO 严重依赖神经网络架构搜索 (NAS)来定义其骨干网络。虽然这可以产生理论上最优的结构,但它通常会导致不规则的模块,可能无法在所有设备上实现硬件友好。相比之下,YOLO11 利用手工制作的精炼模块(C3k2、C2PSA),这些模块是为标准GPU和 CPU 加速库直观设计的。

YOLO11 还强调训练效率。由于优化的超参数和数据增强策略,它能快速收敛。其在训练期间的内存需求通常低于复杂的基于 Transformer 或 NAS 的架构,使研究人员能够在消费级硬件上训练出有效的模型。

生态系统与可用性

最显著的差异化因素之一是生态系统。DAMO-YOLO 主要是一个用于重现研究论文结果的代码库。

然而,Ultralytics YOLO11 是一个全方位服务平台:

  • 文档:涵盖管道各个方面的全面指南。
  • 集成:原生支持 MLFlowTensorBoardWeights & Biases 用于实验 track。
  • 社区:GitHub和Discord上拥有庞大而活跃的社区,确保bug能迅速修复,问题能得到解答。
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

用例推荐

何时选择 Ultralytics YOLO11

  • 实际部署:如果您需要在各种硬件(iOS、Android、Edge TPU、Jetson)上部署,YOLO11的导出能力是无与伦比的。
  • 复杂视觉管线: 当您的项目不仅仅需要边界框时,例如 track 对象或估计 身体姿势估计,YOLO11 原生支持这些功能。
  • 快速原型开发:易用性使开发者能够在几分钟内从数据到可工作的演示。
  • 资源限制:Nano和Small模型为电池供电设备提供了最佳的精度尺寸比。

何时考虑 DAMO-YOLO

  • 学术研究: 研究人员研究 NAS 在目标检测中的有效性或重新参数化技术可能会发现 DAMO-YOLO 是一个有价值的基线。
  • 特定GPU配置: 在DAMO-YOLO的特定架构块恰好与目标加速器的缓存层次结构完美对齐的场景中,它可能会提供具有竞争力的吞吐量。

结论

尽管DAMO-YOLO引入了MAE-NAS和RepGFPN等令人印象深刻的学术概念,但Ultralytics YOLO11仍然是绝大多数开发者和企业的卓越选择。它结合了最先进的精度、轻量级架构和蓬勃发展的生态系统,确保项目不仅性能卓越,而且易于维护和扩展。

对于寻求可靠、多功能且高性能计算机视觉解决方案的开发者而言,YOLO11 提供了在2025年及以后取得成功所需的工具和指标。

探索其他模型对比

为了进一步了解目标检测模型的全貌,请查阅这些相关的比较:


评论