DAMO-YOLO 与 YOLO11 的技术对比
在快速发展的计算机视觉领域,选择正确的物体检测模型对于应用的成功至关重要。本篇综合比较分析了两种重要的架构:阿里巴巴集团开发的YOLO 和 Ultralytics YOLO11是Ultralytics 最新推出的最先进模型。虽然这两种模型都旨在优化速度和准确性之间的权衡,但它们的主要目的各不相同,并根据部署场景的不同而具有不同的优势。
本指南深入探讨了它们的架构、性能指标和理想用例,旨在帮助开发人员和研究人员做出明智的决策。
DAMO-YOLO
作者: 徐贤哲、蒋一奇、陈卫华、黄一伦、张远、孙秀宇
机构:阿里巴巴集团
日期: 2022-11-23
预印本:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
文档:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO 是一个目标检测框架,它集成了多项尖端技术以实现高性能。通过阿里巴巴研究驱动的一系列架构创新,它致力于在保持竞争性准确性的同时降低延迟。
架构与创新
DAMO-YOLO 引入了“蒸馏与选择”方法,并整合了以下关键组件:
- MAE-NAS 主干网络: 利用神经架构搜索 (NAS),主干网络在特定约束下进行优化,以确保高效的特征提取。
- 高效RepGFPN:一种广义特征金字塔网络(GFPN),大量使用重参数化机制,以改进跨不同尺度的特征融合,同时在推理过程中不产生高昂的计算成本。
- ZeroHead: 这种轻量级 detect 头部解耦了分类和回归任务,旨在最大限度地提高推理速度。
- AlignedOTA: 一种标签分配策略,用于解决分类和回归目标之间的不匹配问题,从而增强训练期间的收敛性。
尽管DAMO-YOLO展现了令人印象深刻的理论进展,但它主要是一个以研究为导向的框架,专注于对象检测。它通常缺乏更全面的生态系统中原生的多任务支持。
Ultralytics YOLO11
作者: Glenn Jocher, Jing Qiu
机构:Ultralytics
日期: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
文档:https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 代表了实时计算机视觉的巅峰,通过在架构、效率和易用性方面的显著改进,进一步完善了 YOLO 系列的传承。它不仅仅被设计为一个模型,更是一个多功能工具,适用于在各种硬件环境中进行实际的、真实世界的部署。
架构与生态系统
YOLO11 在之前的成功基础上,采用了精炼的无锚点架构。它具有改进的主干网络,可实现卓越的特征提取,以及改进的颈部设计,增强了不同尺度信息流的传输。
Ultralytics YOLO11 框架的主要优势包括:
- 多功能性:与许多竞争对手不同,YOLO11原生支持广泛的任务,包括目标检测、实例分割、姿势估计、图像分类和旋转框检测 (OBB)。
- 易用性:该模型封装在用户友好的 Python API 和 CLI 中,使其对初学者和专家都易于使用。
- 训练效率:YOLO11针对更快的收敛进行了优化,利用高效的数据增强和损失函数,允许用户在诸如COCO这样的数据集上以更低的资源开销训练自定义模型。
- 完善的生态系统:在Ultralytics团队的支持下,用户受益于频繁更新、详尽文档以及与Ultralytics HUB等MLOps工具的无缝集成。
您知道吗?
YOLO11 旨在 边缘 AI 设备上实现高效率。其优化的架构确保在 NVIDIA Jetson 和 Raspberry Pi 等硬件上实现低内存使用和高推理速度,使其成为嵌入式应用优于更重型 Transformer 模型的一个卓越选择。
性能对比
以下图表和表格说明了DAMO-YOLO和YOLO11之间的性能差异。Ultralytics YOLO11始终表现出卓越的准确性(mAP)和理想的推理速度,尤其是在DAMO-YOLO缺乏官方基准测试的CPU硬件上。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
结果分析
- 精度: YOLO11 明显优于同类 DAMO-YOLO 模型。例如,YOLO11m 实现了 51.5 mAP,明显高于 DAMO-YOLOm 的 49.2 mAP,尽管参数更少(20.1M vs 28.2M)。
- 推理速度:在GPU(T4 TensorRT)上,YOLO11提供了极具竞争力的延迟。YOLO11n速度快得惊人,仅1.5毫秒,使其适用于超低延迟应用。
- CPU 性能:Ultralytics 模型的一个主要优势是其 CPU 性能的透明度。YOLO11 通过 ONNX 和 OpenVINO 针对 CPU 推理进行了优化,而 DAMO-YOLO 则主要侧重于 GPU,通常不明确 CPU 部署性能。
- 模型效率:YOLO11 在参数与性能之间实现了更好的平衡。其架构效率使得模型文件更小,这意味着在边缘设备上下载速度更快,存储要求更低。
主要区别因素和用例
Ultralytics YOLO11 的优势
利用Ultralytics YOLO11的开发者可以获得一个强大的生产级环境。
- 性能平衡: 模型架构经过精心调优,以在推理速度和精度之间提供最佳权衡,这对于实时视频分析至关重要。
- 多任务能力:如果您的项目范围从 detect 扩展到track或 segment,YOLO11 可以在同一代码库中无缝处理。
- 易用性: 字段
ultralytics包简化了整个流程。加载模型、运行预测以及导出到CoreML、TFLite或TensorRT等格式,仅需几行代码即可完成。 - 内存需求更低:与基于Transformer的检测器或未优化的架构相比,YOLO11在训练期间通常需要更少的CUDA内存,使研究人员能够在消费级GPU上进行训练。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
DAMO-YOLO 的优势
DAMO-YOLO 在学术研究领域是一个强有力的竞争者。
- 研究创新:MAE-NAS和ZeroHead等特性为神经架构搜索和头部分离提供了有趣的见解。
- GPU 吞吐量: 对于专门在受支持 GPU 上运行的特定工业应用,DAMO-YOLO 提供高吞吐量,尽管在纯粹的每参数精度效率方面通常落后于 YOLO11。
结论
尽管DAMO-YOLO引入了阿里巴巴研究团队提出的新颖概念,但Ultralytics YOLO11脱颖而出,成为绝大多数开发者和企业的卓越选择。其主导地位不仅体现在更高的mAP分数和更快的推理速度,更在于其背后全面的生态系统支持。
从易用性和多功能性到良好维护的代码库和活跃的社区支持,YOLO11 降低了创建高级 AI 解决方案的门槛。无论是部署在云服务器还是资源受限的边缘设备上,YOLO11 都为现代计算机视觉应用提供了必要的可靠性和性能。
探索其他模型对比
要更好地了解 Ultralytics 模型与其他架构的比较,请查阅我们的详细比较页面: