跳转至内容

YOLO11 vs DAMO-YOLO:技术比较

在快速发展的计算机视觉领域,选择正确的物体检测模型对于项目的成功至关重要。本页详细介绍了 Ultralytics YOLO11YOLO 这两种高性能架构的详细技术比较。YOLO 引入了学术研究中的创新技术,而YOLO11 则是以强大的生态系统为后盾的通用型生产就绪解决方案。

执行摘要

Ultralytics YOLO11代表了YOLO 系列的最新发展,优化了从边缘设备到云服务器等各种硬件的实时推理。它原生支持多种任务,包括检测、分割和姿势估计 ,是复杂人工智能管道的统一解决方案。

YOLO 由阿里巴巴集团开发,主要利用神经架构搜索(NAS)和新颖的特征融合技术来平衡检测速度和准确性。它主要是一款面向研究的检测器,针对GPU 吞吐量进行了优化。

Ultralytics YOLO11

作者: Glenn Jocher, Jing QiuGlenn Jocher, Jing Qiu
组织机构:Ultralytics
日期:2024-09-27
GitHubultralytics
文档yolo11

YOLO11 在保持高效率的同时,通过引入结构改进来加强特征提取,从而完善了最先进的技术。与前几代产品相比,YOLO11 利用改进的 CSPNet 主干网和先进的无锚头,以更少的参数提供更高的精度。

主要特性和优势

  • 多功能性:与许多专业模型不同,YOLO11 是一个多任务框架。它支持对象检测实例分割图像分类姿势估计 定向边界框(旋转框检测)。
  • 完善的架构:采用 C3k2 模块和 C2PSA(跨阶段部分空间注意力)模块,可有效捕捉复杂模式,提高对小物体和困难背景的处理性能。
  • 广泛的硬件支持:针对以下应用进行了优化 CPU和GPU 推理,提供不同的模型规模(从纳米到 X-大型),以适应从Raspberry Pi到NVIDIA A100 集群的各种限制。
  • 易用性: Ultralytics Python API 和CLI 允许开发人员用最少的代码训练、验证和部署模型。

生产就绪生态系统

YOLO11 与Ultralytics 生态系统无缝集成,包括数据管理工具、通过Ultralytics HUB进行模型训练,以及一键导出至以下格式,如 ONNX, TensorRT和CoreML 等格式。

了解更多关于 YOLO11 的信息

DAMO-YOLO

作者:徐先哲、蒋一琪、陈伟华、黄一伦、张远、孙秀玉Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:YOLO

YOLO 的设计重点是为工业应用提供低延迟和高吞吐量。它在YOLO 系列中引入了多个 "新技术 "组件,在速度和精度的权衡中推陈出新。

建筑创新

  • MAE-NAS 主干网:利用以平均绝对误差 (MAE) 为指导的神经架构搜索 (NAS),自动发现高效的网络拓扑结构。
  • 高效 RepGFPN:广义特征金字塔网络(GFPN)采用重参数化技术,允许在训练过程中进行复杂的特征融合,同时在推理过程中折叠成更快、更简单的结构。
  • ZeroHead:一种轻量级的检测头,它将分类和回归任务分离开来,大大减少了最终输出层的计算开销。
  • AlignedOTA:一种增强型标签分配策略,可解决训练过程中分类置信度与回归准确度之间的不一致问题。

虽然YOLO 在特定指标方面表现出色,但它主要是一个研究资源库。它缺乏Ultralytics 生态系统中的大量文件、持续更新和广泛的社区支持。

了解更多关于 DAMO-YOLO 的信息

性能指标:正面交锋

下表比较了YOLO11 和YOLO 在COCO val2017 数据集上的性能。主要指标包括平均精度mAP)以及在CPU 和GPU 硬件上的推理速度。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

结果分析

  1. 效率优势: YOLO11 显示出卓越的参数效率。例如,YOLO11m模型仅用 2 010 万个参数就实现了51.5mAP,而同类的 DAMO-YOLOm 模型则落后于YOLO11m模型,仅用 2 820 万个参数就实现了 49.2mAP 。
  2. 极致精确:最大的型号YOLO11x 可达到54.7mAP,超过了所列最大的YOLO 型号。这使得YOLO11 成为医疗成像或探伤等高精度任务的首选。
  3. 边缘部署: YOLO11n(Nano) 型号重量极轻(2.6M 参数),速度极快(T4 为 1.5 ms),非常适合内存不足的嵌入式系统。相比之下,最小的YOLO 型号要重很多(8.5M 参数)。
  4. CPU 性能: Ultralytics 提供了透明的CPU 基准,突出了YOLO11 在没有专用加速器的情况下部署的可行性。YOLO 没有正式报告CPU 速度,这限制了其对低功耗物联网应用的评估。

技术深潜

培训与建筑

YOLO 主要依靠神经架构搜索(NAS)来定义其主干网。虽然这可以产生理论上的最优结构,但往往会产生不规则的区块,可能不适合所有设备的硬件。与此相反,YOLO11 采用手工制作的精炼块(C3k2、C2PSA),这些块直观地设计用于标准的 GPU和CPU 加速库。

YOLO11 还强调训练效率。得益于优化的超参数和数据增强策略,它能快速收敛。与复杂的transformer或 NAS 的架构相比,YOLO11 在训练过程中对内存的要求通常较低,因此研究人员可以在消费级硬件上训练有效的模型。

生态系统和可用性

最重要的区别之一是生态系统。YOLO 主要是一个用于复制研究论文成果的代码库。

Ultralytics YOLO11 则是一个全方位服务平台:

  • 文档:管道各方面的综合指南。
  • 集成:本机支持MLFlowTensorBoardWeights & Biases用于实验跟踪。
  • 社区: GitHub和 Discord 上有一个庞大而活跃的社区,可确保快速修复错误并解答问题。
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

用例建议

何时选择 Ultralytics YOLO11

  • 实际部署:如果您需要在不同的硬件(如iOS、Android、EdgeTPU、Jetson)上部署,YOLO11 的导出功能是无与伦比的。
  • 复杂视觉管道:当您的项目需要的不仅仅是边界框,例如跟踪物体或估算身体姿势估计可以原生处理这些问题。
  • 快速原型开发:简单易用,让开发人员在几分钟内就能完成从数据到工作演示的转换。
  • 资源限制:对于电池供电的设备而言,纳米和小型模型具有最佳的精度尺寸比。

何时考虑 DAMO-YOLO

  • 学术研究:研究人员在研究 NAS 在物体检测或重新参数化技术方面的功效时,可能会发现YOLO 是一个很有价值的基准。
  • 特定的GPU 设置:如果YOLO 的特定架构模块恰好与目标加速器的高速缓存层次结构完美匹配,那么它就能提供具有竞争力的吞吐量。

结论

YOLO 引入了 MAE-NAS 和 RepGFPN 等令人印象深刻的学术概念、 Ultralytics YOLO11仍然是绝大多数开发人员和企业的最佳选择。它结合了最先进的准确性、轻量级架构和蓬勃发展的生态系统,不仅能确保项目的性能,还具有可维护性和可扩展性。

对于寻求可靠、多功能和高性能计算机视觉解决方案的开发人员来说,YOLO11 提供了在 2025 年及以后取得成功所必需的工具和指标。

探索其他模型对比

要进一步了解物体检测模型的发展状况,请浏览这些相关比较:


评论