YOLO11 vs YOLOv9:目标检测技术对比
Ultralytics 始终如一地提供最先进的 YOLO 模型,不断突破实时对象检测的界限。本页提供了两个高级模型之间的技术比较:Ultralytics YOLO11 和 YOLOv9。我们分析了它们的架构创新、性能基准和适用应用,以指导您选择最适合您计算机视觉任务的模型。
Ultralytics YOLO11:前沿技术
Ultralytics YOLO11是Ultralytics YOLO系列中的最新迭代,它建立在YOLOv8等先前成功的基础上。YOLO11专为提高各种计算机视觉任务的准确性和效率而设计,这些任务包括目标检测、实例分割、图像分类和姿势估计。
技术细节:
- 作者: Glenn Jocher, Jing Qiu
- 组织: Ultralytics
- 日期: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- 文档: https://docs.ultralytics.com/models/yolo11/
架构和主要特性
YOLO11 具有专为改进特征提取和加快处理速度而设计的架构。它通常以比前代产品更少的参数实现更高的准确性,从而增强了实时性能,并支持跨各种平台(从 NVIDIA Jetson 和 Raspberry Pi 等边缘设备到云基础设施)的部署。YOLO11 的一个关键优势是它无缝集成到维护良好的 Ultralytics 生态系统中,通过简单的 Python API 和广泛的 文档 提供简化的用户体验。该生态系统通过随时可用的预训练权重确保高效的训练,并受益于积极的开发、通过 GitHub 和 Discord 提供的强大的社区支持以及频繁的更新。此外,YOLO11 通过支持检测之外的多种视觉任务来展示多功能性,这是竞争模型通常缺乏的功能。与其他变压器等模型类型相比,它通常在训练和推理期间需要更低的内存。
优势
- 性能平衡: 速度和准确性之间实现了出色的权衡。
- 易用性: 简单的 API、全面的文档和集成的生态系统(Ultralytics HUB)。
- 多功能性: 支持检测、分割、分类、姿势估计和旋转框检测任务。
- 效率: 针对各种硬件进行了优化,训练效率高,内存占用更少。
- 维护良好: 积极开发,强大的社区支持,以及频繁的更新。
弱点
- 作为一种单阶段检测器,与某些双阶段检测器相比,可能在极小物体检测方面面临挑战。
- 较大的模型需要更多的计算资源,但通常比基于Transformer的模型少。
理想用例
YOLO11 非常适合需要高精度和实时处理的应用:
YOLOv9:通过新颖概念提高准确性
YOLOv9于2024年初推出,代表了对目标检测的重大学术贡献,专注于克服深度神经网络中的信息丢失问题。
技术细节:
- 作者: Chien-Yao Wang, Hong-Yuan Mark Liao
- 组织: 台湾中研院资讯所
- 日期: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- 文档: https://docs.ultralytics.com/models/yolov9/
架构和主要特性
YOLOv9 引入了两项主要的架构创新:可编程梯度信息 (PGI) 和 广义高效层聚合网络 (GELAN)。PGI 旨在为损失函数计算提供完整的输入信息,从而缓解可能降低深度网络性能的信息瓶颈问题。GELAN 是一种新颖、高效的网络架构,可优化参数利用率和计算效率。这些特性共同使 YOLOv9 能够在 COCO 数据集 上设置新的精度基准。
优势
- Enhanced Accuracy: 在 COCO 数据集上为实时对象检测器设置了新的最先进的结果,在 mAP 方面超越了许多以前的模型。
- 更高的效率: GELAN 和 PGI 有助于减少模型所需的参数和计算资源 (FLOP),从而实现与以前的模型相当或更好的性能。
- 信息保留: PGI 有效地解决了信息瓶颈问题,这对于准确训练更深、更复杂的网络至关重要。
弱点
- 训练资源: 正如YOLOv9 文档中所述,与 Ultralytics YOLOv5 相比,训练 YOLOv9 模型可能需要更多的资源和时间。
- 更新的架构: 作为一个来自不同研究团队的较新模型,与已建立的 Ultralytics 生态系统相比,其生态系统、社区支持和第三方集成不够成熟。
- 任务通用性: 主要侧重于目标检测,缺乏对分割、分类和姿势估计的内置支持,而Ultralytics模型(如YOLO11和YOLOv8)则提供此类支持。
理想用例
YOLOv9 非常适合以实现尽可能高的对象检测精度为主要目标的应用:
- 高级视频分析:在复杂场景中进行高精度跟踪和分析。
- 高精度工业检测:检测制造过程中的细微缺陷。
- 研究与基准测试: 推动标准数据集上检测精度的极限。
性能正面交锋:YOLO11 vs. YOLOv9
YOLO11 和 YOLOv9 都提供了一系列模型尺寸,使开发人员能够根据其特定需求找到速度和准确性之间的适当平衡。下表直接比较了它们在 COCO 数据集上的性能指标。
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4 TensorRT10 (毫秒) |
参数 (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
从数据中可以看出,YOLO11 模型在性能方面提供了出色的平衡。例如,YOLO11s 以更少的 FLOPs 实现了比 YOLOv9s 更高的 mAP。 同样,YOLO11l 在精度上超过了 YOLOv9c,同时具有明显更低的 FLOPs 和更快的 GPU 推理速度。 虽然最大的 YOLOv9-E 模型实现了最高的 mAP,但 YOLO11 在其模型范围内提供了更实用的权衡,尤其是在考虑到 Ultralytics 框架提供的全面速度基准和易于部署的特性时。
架构和生态系统差异
核心区别在于它们的设计理念。Ultralytics YOLO11 专为从业者而打造。它的架构不仅针对性能进行了优化,还针对可用性、多功能性和集成进行了优化。统一框架开箱即用地支持多项任务,从而大大缩短了复杂 AI 系统的开发时间。周围的生态系统,包括 Ultralytics HUB、丰富的文档和活跃的社区,使其成为构建和部署可用于生产的应用程序的首选。
另一方面,YOLOv9 是一个以研究为中心的模型,它引入了突破性的学术概念。它的优势在于其解决深度学习挑战(如信息丢失)的新颖方法。虽然功能强大,但这种关注意味着它缺乏定义 Ultralytics 模型的整体的、对开发者友好的生态系统。将 YOLOv9 集成到多任务流水线中或将其部署在不同的硬件上可能需要更多的人工和专业知识。
结论:您应该选择哪种模型?
对于绝大多数开发人员、研究人员和企业来说,Ultralytics YOLO11 是推荐的选择。它提供了卓越的高性能、速度、多功能性和无与伦比的易用性组合。强大的生态系统和积极的维护确保您可以快速高效地从概念到生产。它在单个框架内处理检测、分割、分类等的能力使其成为一个强大且面向未来的解决方案。
YOLOv9 对于那些主要目标是在基准测试中实现绝对最高的检测精度,并且愿意处理在集成生态系统之外进行训练和部署的额外复杂性的专家和研究人员来说,是一个出色的模型。
探索其他模型
目标检测领域在不断发展。除了YOLO11和YOLOv9之外,您可能还会对Ultralytics生态系统中提供的其他强大模型感兴趣。查看我们对YOLOv10、前代产品YOLOv8和基于Transformer的RT-DETR的比较,以找到最适合您项目的模型。