DAMO-YOLO 与 YOLO11 的技术对比
在快速发展的计算机视觉领域,选择正确的物体检测模型对于应用的成功至关重要。本篇综合比较分析了两种重要的架构:阿里巴巴集团开发的YOLO 和 Ultralytics YOLO11是Ultralytics 最新推出的最先进模型。虽然这两种模型都旨在优化速度和准确性之间的权衡,但它们的主要目的各不相同,并根据部署场景的不同而具有不同的优势。
本指南深入介绍了它们的架构、性能指标和理想用例,以帮助开发人员和研究人员做出明智的决定。
DAMO-YOLO
作者:徐先哲、蒋一琪、陈伟华、黄一伦、张远、孙秀玉Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHubYOLO
DocsYOLO
YOLO 是一个对象检测框架,集成了多项前沿技术以实现高性能。在阿里巴巴的研究推动下,DAMO-YOLO 在架构上进行了一系列创新,在保持具有竞争力的准确性的同时,重点降低了延迟。
建筑与创新
YOLO 引入了 "提炼和选择 "方法,并包含以下关键要素:
- MAE-NAS 主干网:利用神经架构搜索(NAS),在特定约束条件下对主干网进行优化,以确保高效的特征提取。
- 高效的 RepGFPN:广义特征金字塔网络(GFPN)大量使用重参数化机制来改进不同尺度的特征融合,而不会在推理过程中产生高昂的计算成本。
- ZeroHead:这种轻量级检测头将分类和回归任务分离开来,旨在最大限度地提高推理速度。
- AlignedOTA:一种标签分配策略,可解决分类目标和回归目标之间的错位问题,从而提高训练过程中的收敛性。
虽然YOLO 在理论上取得了令人印象深刻的进步,但它主要是一个以研究为导向的框架,侧重于物体检测。它通常缺乏更全面的生态系统中的本地多任务支持。
Ultralytics YOLO11
作者: Glenn Jocher, Jing QiuGlenn Jocher, Jing Qiu
组织机构:Ultralytics
日期:2024-09-27
GitHubultralytics
文档yolo11
Ultralytics YOLO11 代表了实时计算机视觉的顶峰,它完善了YOLO 系列的传统,在架构、效率和易用性方面都有显著改进。它不仅是一个模型,更是一个多功能工具,可在不同硬件环境中进行实际部署。
建筑与生态系统
YOLO11 在以往成功的基础上,改进了无锚架构。它的特点是改进了主干网以实现卓越的特征提取,并改进了颈部设计以增强各种尺度的信息流。
Ultralytics YOLO11 框架的主要优势包括
- 多功能性:与许多竞争对手不同,YOLO11 本机支持一系列任务,包括对象检测、实例分割、姿势估计 、图像分类和定向边界框(旋转框检测)。
- 易用性:该模型由用户友好的Python 应用程序接口和 CLI包装,使初学者和专家都能使用。
- 训练效率: YOLO11 经过优化,收敛速度更快,利用高效的数据增强和损失函数,允许用户在以下数据集上训练自定义模型 COCO等数据集上训练自定义模型,降低资源开销。
- 维护良好的生态系统:由 Ultralytics团队的支持,用户可以从频繁的更新、丰富的文档以及与 MLOps 工具(如Ultralytics HUB)的无缝集成中获益。
你知道吗?
YOLO11 专为边缘人工智能设备的高效率而设计。其优化的架构可确保在NVIDIA Jetson和 Raspberry Pi 等硬件上实现低内存使用率和高推理速度,使其成为嵌入式应用的上佳选择,胜过transformer重型机型。
性能对比
下图和表格说明了YOLO 和YOLO11 之间的性能差异。Ultralytics YOLO11 始终表现出卓越的准确性mAP)和良好的推理速度,尤其是在CPU 硬件上,而YOLO 缺乏官方基准。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
结果分析
- 精确度: YOLO11 明显优于同类YOLO 模型。例如,YOLO11m实现了51.5mAP,明显高于 DAMO-YOLOm 的 49.2mAP,尽管其参数较少(20.1M 对 28.2M)。
- 推理速度:在GPU (T4TensorRT)上,YOLO11 的延迟极具竞争力。YOLO11n的速度快得惊人,仅为1.5 毫秒,适合超低延迟应用。
- CPU 性能: Ultralytics 模型的一大优势是其在CPU 性能方面的透明度。YOLO11 针对CPU 推理进行了优化,通过 ONNX和OpenVINO 对CPU 推理进行了优化,而YOLO 则主要侧重于GPU,CPU 部署性能往往无法确定。
- 模型效率: YOLO11 在参数与性能之间实现了更好的平衡。架构效率使模型文件更小,从而加快了下载速度,降低了边缘设备的存储要求。
主要区别因素和用例
Ultralytics YOLO11的优势
开发人员利用 Ultralytics YOLO11的开发人员可以访问强大的生产级环境。
- 性能平衡:模型架构经过精心调整,可在推理速度和准确性之间实现最佳平衡,这对实时视频分析至关重要。
- 多任务功能:如果您的项目范围从检测扩展到跟踪或分割,YOLO11 可在同一代码库中无缝处理。
- 易用性: 字段
ultralytics软件包简化了整个流程。加载模型、运行预测以及导出为CoreML、TFLite 或TensorRT 等格式只需几行代码即可完成。 - 更低的内存要求:与transformer检测器或未优化的架构相比,YOLO11 在训练过程中所需的CUDA 内存通常更少,使研究人员能够在消费级 GPU 上进行训练。
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
YOLO的优势
YOLO 是学术研究界的有力竞争者。
- 研究创新:MAE-NAS 和 ZeroHead 等功能为神经架构搜索和头部解耦提供了有趣的见解。
- GPU 吞吐量:对于仅在支持的 GPU 上运行的特定工业应用,YOLO -YOLO 可提供较高的吞吐量,但在纯精度/参数效率方面往往落后于YOLO11 。
结论
而YOLO 则引入了阿里巴巴研究团队的新概念、 Ultralytics YOLO11是绝大多数开发人员和企业的最佳选择。其优势不仅体现在更高的 mAP分数和更快的推理速度,而且还有支持它的全面生态系统。
从易用性和多功能性到维护良好的代码库和活跃的社区支持,YOLO11 降低了创建高级人工智能解决方案的门槛。无论是部署在云服务器还是资源有限的边缘设备上,YOLO11 都能提供现代计算机视觉应用所需的可靠性和性能。
探索其他模型对比
要更好地了解Ultralytics 模型与其他架构的比较,请浏览我们的详细比较页面: