跳转至内容

DAMO-YOLO 与 YOLO11 的技术对比

在快速发展的计算机视觉领域,选择正确的物体检测模型对于应用的成功至关重要。本篇综合比较分析了两种重要的架构:阿里巴巴集团开发的YOLOUltralytics YOLO11是Ultralytics 最新推出的最先进模型。虽然这两种模型都旨在优化速度和准确性之间的权衡,但它们的主要目的各不相同,并根据部署场景的不同而具有不同的优势。

本指南深入探讨了它们的架构、性能指标和理想用例,旨在帮助开发人员和研究人员做出明智的决策。

DAMO-YOLO

作者: 徐贤哲、蒋一奇、陈卫华、黄一伦、张远、孙秀宇
机构:阿里巴巴集团
日期: 2022-11-23
预印本:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
文档:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO 是一个目标检测框架,它集成了多项尖端技术以实现高性能。通过阿里巴巴研究驱动的一系列架构创新,它致力于在保持竞争性准确性的同时降低延迟。

了解更多关于 DAMO-YOLO 的信息

架构与创新

DAMO-YOLO 引入了“蒸馏与选择”方法,并整合了以下关键组件:

  • MAE-NAS 主干网络: 利用神经架构搜索 (NAS),主干网络在特定约束下进行优化,以确保高效的特征提取。
  • 高效RepGFPN:一种广义特征金字塔网络(GFPN),大量使用重参数化机制,以改进跨不同尺度的特征融合,同时在推理过程中不产生高昂的计算成本。
  • ZeroHead: 这种轻量级 detect 头部解耦了分类和回归任务,旨在最大限度地提高推理速度。
  • AlignedOTA: 一种标签分配策略,用于解决分类和回归目标之间的不匹配问题,从而增强训练期间的收敛性。

尽管DAMO-YOLO展现了令人印象深刻的理论进展,但它主要是一个以研究为导向的框架,专注于对象检测。它通常缺乏更全面的生态系统中原生的多任务支持。

Ultralytics YOLO11

作者: Glenn Jocher, Jing Qiu
机构:Ultralytics
日期: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
文档:https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 代表了实时计算机视觉的巅峰,通过在架构、效率和易用性方面的显著改进,进一步完善了 YOLO 系列的传承。它不仅仅被设计为一个模型,更是一个多功能工具,适用于在各种硬件环境中进行实际的、真实世界的部署。

了解更多关于 YOLO11 的信息

架构与生态系统

YOLO11 在之前的成功基础上,采用了精炼的无锚点架构。它具有改进的主干网络,可实现卓越的特征提取,以及改进的颈部设计,增强了不同尺度信息流的传输。

Ultralytics YOLO11 框架的主要优势包括:

  • 多功能性:与许多竞争对手不同,YOLO11原生支持广泛的任务,包括目标检测实例分割姿势估计图像分类旋转框检测 (OBB)
  • 易用性:该模型封装在用户友好的 Python APICLI 中,使其对初学者和专家都易于使用。
  • 训练效率:YOLO11针对更快的收敛进行了优化,利用高效的数据增强和损失函数,允许用户在诸如COCO这样的数据集上以更低的资源开销训练自定义模型。
  • 完善的生态系统:Ultralytics团队的支持下,用户受益于频繁更新、详尽文档以及与Ultralytics HUB等MLOps工具的无缝集成。

您知道吗?

YOLO11 旨在 边缘 AI 设备上实现高效率。其优化的架构确保在 NVIDIA Jetson 和 Raspberry Pi 等硬件上实现低内存使用和高推理速度,使其成为嵌入式应用优于更重型 Transformer 模型的一个卓越选择。

性能对比

以下图表和表格说明了DAMO-YOLO和YOLO11之间的性能差异。Ultralytics YOLO11始终表现出卓越的准确性(mAP)和理想的推理速度,尤其是在DAMO-YOLO缺乏官方基准测试的CPU硬件上。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

结果分析

  • 精度: YOLO11 明显优于同类 DAMO-YOLO 模型。例如,YOLO11m 实现了 51.5 mAP,明显高于 DAMO-YOLOm 的 49.2 mAP,尽管参数更少(20.1M vs 28.2M)。
  • 推理速度:在GPU(T4 TensorRT)上,YOLO11提供了极具竞争力的延迟。YOLO11n速度快得惊人,仅1.5毫秒,使其适用于超低延迟应用。
  • CPU 性能:Ultralytics 模型的一个主要优势是其 CPU 性能的透明度。YOLO11 通过 ONNX 和 OpenVINO 针对 CPU 推理进行了优化,而 DAMO-YOLO 则主要侧重于 GPU,通常不明确 CPU 部署性能。
  • 模型效率:YOLO11 在参数与性能之间实现了更好的平衡。其架构效率使得模型文件更小,这意味着在边缘设备上下载速度更快,存储要求更低。

主要区别因素和用例

Ultralytics YOLO11 的优势

利用Ultralytics YOLO11的开发者可以获得一个强大的生产级环境。

  • 性能平衡: 模型架构经过精心调优,以在推理速度和精度之间提供最佳权衡,这对于实时视频分析至关重要。
  • 多任务能力:如果您的项目范围从 detect 扩展到track或 segment,YOLO11 可以在同一代码库中无缝处理。
  • 易用性: 字段 ultralytics 包简化了整个流程。加载模型、运行预测以及导出到CoreML、TFLite或TensorRT等格式,仅需几行代码即可完成。
  • 内存需求更低:与基于Transformer的检测器或未优化的架构相比,YOLO11在训练期间通常需要更少的CUDA内存,使研究人员能够在消费级GPU上进行训练。
from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

DAMO-YOLO 的优势

DAMO-YOLO 在学术研究领域是一个强有力的竞争者。

  • 研究创新:MAE-NAS和ZeroHead等特性为神经架构搜索和头部分离提供了有趣的见解。
  • GPU 吞吐量: 对于专门在受支持 GPU 上运行的特定工业应用,DAMO-YOLO 提供高吞吐量,尽管在纯粹的每参数精度效率方面通常落后于 YOLO11。

结论

尽管DAMO-YOLO引入了阿里巴巴研究团队提出的新颖概念,但Ultralytics YOLO11脱颖而出,成为绝大多数开发者和企业的卓越选择。其主导地位不仅体现在更高的mAP分数和更快的推理速度,更在于其背后全面的生态系统支持。

易用性多功能性良好维护的代码库和活跃的社区支持,YOLO11 降低了创建高级 AI 解决方案的门槛。无论是部署在云服务器还是资源受限的边缘设备上,YOLO11 都为现代计算机视觉应用提供了必要的可靠性和性能。

探索其他模型对比

要更好地了解 Ultralytics 模型与其他架构的比较,请查阅我们的详细比较页面:


评论