DAMO-YOLO 与 YOLO11 的技术对比
本页提供了两个最先进的目标检测模型之间的详细技术比较:阿里巴巴集团开发的 DAMO-YOLO 和 Ultralytics YOLO11。虽然这两种模型都专为高性能实时目标检测而设计,但它们采用了不同的架构理念,并在不同领域表现出色。我们将分析它们的架构差异、性能指标和理想应用,以帮助您为您的计算机视觉项目做出明智的决定。
DAMO-YOLO
作者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang 和 Xiuyu Sun
组织: Alibaba Group
日期: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
文档: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO 是由阿里巴巴集团开发的一种快速而精确的目标检测方法。它引入了几项创新技术,旨在突破 YOLO 风格检测器的性能界限。该模型旨在实现精度和延迟之间的卓越平衡,尤其是在 GPU 硬件上。
架构和主要特性
DAMO-YOLO 的架构是旨在协同工作的尖端组件的组合:
- NAS-Powered Backbones: 它利用 神经架构搜索 (NAS) 来生成优化的高效骨干网络(如 GiraffeNet),这些骨干网络针对特定硬件进行了优化,从而在保持强大的特征提取能力的同时,降低了计算成本。
- 高效 RepGFPN Neck: 该模型结合了一种基于广义特征金字塔网络(GFPN)且具有重参数化技术的高效颈部结构,以增强多尺度特征融合。
- ZeroHead: DAMO-YOLO 引入了一种轻量级的、无锚框的检测头,称为 ZeroHead,它将分类和回归任务分离,并减少了计算开销。
- AlignedOTA 标签分配: 它使用一种改进的标签分配策略,称为 AlignedOTA,该策略基于分类和定位分数动态地将真实对象与最合适的预测相匹配,从而实现更好的训练收敛。
- 知识蒸馏: 训练过程通过知识蒸馏得到增强,其中一个更大、更强大的教师模型指导一个较小的学生模型的训练,以提高其最终准确性。
优势
- GPU 上的高精度: DAMO-YOLO 实现了令人印象深刻的 mAP 分数,尤其是在其较大的变体中,展示了其在 COCO 数据集上的强大性能。
- 快速 GPU 推理: 该模型针对 GPU 推理进行了高度优化,可提供低延迟,这对于在专用图形硬件上运行的实时应用程序至关重要。
- 创新技术: 它展示了 NAS、高级标签分配和蒸馏等现代技术在目标检测中的有效性。
弱点
- 有限的通用性: DAMO-YOLO 主要设计用于目标检测。它缺乏对其他计算机视觉任务(如实例分割、姿势估计或分类)的本机支持,而这些任务在 Ultralytics 等框架中是标准的。
- 复杂生态系统: 与 Ultralytics 生态系统相比,该存储库和文档的功能虽然完善,但不够精简。 这可能会给新用户带来更陡峭的学习曲线。
- 硬件重点: 它的性能主要在 GPU 上进行基准测试,关于 CPU 性能的信息有限,这使其成为在仅 CPU 或各种 边缘设备 上部署的灵活性较低的选择。
Ultralytics YOLO11
作者: Glenn Jocher、Jing Qiu
组织: Ultralytics
日期: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
文档: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 是著名 YOLO (You Only Look Once)系列的最新进化,代表了实时目标检测及其他领域的最先进水平。它在先前版本(如 YOLOv8)的成功基础上建立,在成熟且用户友好的生态系统中提供了更高的精度、速度和多功能性。
架构和主要特性
YOLO11 具有精简的单阶段无锚框架构,该架构经过高度优化,可在性能和效率之间实现出色的平衡。它的设计侧重于简化的特征提取和轻量级网络结构,从而减少了参数数量和计算负载。这使得 YOLO11 非常适合在各种硬件上进行部署,从强大的云服务器到资源受限的边缘设备(如 NVIDIA Jetson)。
然而,YOLO11 的真正强大之处在于它与 维护良好的 Ultralytics 生态系统 的集成,这提供了显著的优势:
- 易用性: 简单的 Python API 和强大的 CLI 使训练、验证和推理变得非常简单。大量的文档为所有技能水平的用户提供了清晰的指导。
- 通用性: 与 DAMO-YOLO 不同,YOLO11 是一种多任务模型,它在一个统一的框架内原生支持目标检测、实例分割、图像分类、姿势估计和旋转框检测 (OBB)。
- 性能平衡: YOLO11 模型在 CPU 和 GPU 上都提供了出色的速度和准确性平衡,确保在各种实际场景中灵活高效地部署。
- 训练效率: 该框架针对快速训练时间进行了优化,并且与更复杂的架构相比,具有更低的内存要求。 随时可用的预训练权重可加速自定义训练工作流程。
- 稳健的生态系统: 用户受益于积极的开发、通过 GitHub 和 Discord 提供的强大社区支持、频繁的更新以及与 Ultralytics HUB 等工具的无缝集成,以实现端到端 MLOps。
优势
- 顶尖性能: 以针对速度和精度优化的架构实现了顶级的 mAP 分数。
- 无与伦比的通用性: 单个模型框架可以处理五个不同的视觉任务,从而为复杂的项目提供全面的解决方案。
- 卓越的可用性: 简化的 API、清晰的文档和集成的生态系统使其非常容易上手和部署。
- 硬件灵活性: 在 CPU 和 GPU 上都非常高效,使其适用于更广泛的部署目标。
- 积极维护和支持: 由 Ultralytics 的专业团队和庞大且活跃的开源社区提供支持。
弱点
- 像 YOLO11x 这样的大型模型需要大量的计算资源,但对于其性能级别而言,它们仍然非常高效。
性能对比
下表提供了 DAMO-YOLO 和 YOLO11 在 COCO val 数据集上的性能指标的直接比较。
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4 TensorRT10 (毫秒) |
参数 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
从数据中,我们可以得出以下几个结论:
- 准确率: 虽然DAMO-YOLO具有竞争力,但YOLO11模型,特别是中大型变体(YOLO11m、l、x),实现了更高的mAP分数,其中YOLO11x达到了令人印象深刻的54.7 mAP。
- GPU 速度: DAMO-YOLO 显示出非常有竞争力的 GPU 延迟。但是,YOLO11 模型也经过高度优化,其中 YOLO11n 以 1.5 毫秒 的速度实现了最快的 GPU 速度。
- CPU 速度: YOLO11 的一个关键优势是其出色且有据可查的 CPU 性能。 CPU 基准的可用性使其成为没有 GPU 的应用的可靠选择。 DAMO-YOLO 缺乏官方 CPU 速度指标,限制了其适用性。
- 效率: YOLO11 模型非常高效。例如,YOLO11l 仅用 25.3M 参数就实现了 53.4 mAP,在精度和参数效率方面均优于 DAMO-YOLOl。YOLO11n 仅用 2.6M 参数就为轻量级模型树立了标准。
结论与建议
DAMO-YOLO 是一种功能强大的目标检测器,它展示了令人印象深刻的学术创新,并在 GPU 硬件上提供强大的性能。对于研究人员探索先进的架构概念,或者对于部署在 GPU 资源丰富的环境中且仅需要目标检测的应用程序来说,它是一个极佳的选择。
然而,对于绝大多数开发者、研究人员和企业来说,Ultralytics YOLO11是明确且更佳的选择。它不仅提供了最先进的准确性和速度,而且还在一个成熟、易于使用且极其通用的框架内实现了这一点。对多个任务的本机支持、在CPU和GPU上都具有出色的性能,以及文档、社区支持和像Ultralytics HUB这样的MLOps工具的强大生态系统使YOLO11成为构建实际计算机视觉应用程序的更实用、可扩展和强大的解决方案。
探索其他模型
如果您有兴趣了解 DAMO-YOLO 和 YOLO11 与其他领先模型的比较,请查看以下其他对比: