YOLOv9 vs. EfficientDet:全面技术比较
选择合适的目标检测模型是计算机视觉开发中的关键决策,直接影响您应用的速度、准确性和资源效率。本指南提供了Ultralytics YOLOv9和EfficientDet之间的深入技术比较,分析了它们的架构创新、性能指标以及对现代部署场景的适用性。
性能分析
目标检测的发展迅速,新架构的性能显著优于其前身。下表直接比较了关键指标,突出了YOLOv9在推理速度和参数效率方面相对于较旧的EfficientDet系列的进步。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
主要收获:
- 速度优势: YOLOv9模型在GPU硬件上展现出显著优越的推理速度。例如,YOLOv9c (53.0% mAP) 比精度相当的EfficientDet-d6 (52.6% mAP) 快 12倍以上。
- 参数效率:YOLOv9的架构使其能够以更少的参数实现更高的精度。YOLOv9s仅用7.1M参数就达到了46.8%的mAP,而EfficientDet需要更大的D3变体(12.0M参数)才能达到47.5%的相似精度水平。
- 领先的准确性:最大的模型 YOLOv9e 以 55.6% 的 mAP 设定了高标准,超越了最重的 EfficientDet-d7 模型,同时保持了极低的延迟。
YOLOv9:可编程梯度信息的新纪元
YOLOv9 于 2024 年初推出,代表了 YOLO 系列的重大飞跃。它由 Chien-Yao Wang 和 Hong-Yuan Mark Liao 开发,解决了深度学习中与特征传输过程中的信息丢失相关的根本问题。
技术细节:
- 作者: Chien-Yao Wang, Hong-Yuan Mark Liao
- 组织:台湾中央研究院信息科学研究所
- 日期: 2024-02-21
- Arxiv:YOLOv9:使用可编程梯度信息学习您想学习的内容
- GitHub:WongKinYiu/yolov9
- 文档:Ultralytics YOLOv9 文档
架构创新
YOLOv9 引入了两个核心概念来解决“信息瓶颈”问题:
- 可编程梯度信息 (PGI):一种辅助监督框架,生成可靠梯度以更新网络权重,确保模型在深层中保留关键信息。
- 广义高效层聚合网络 (GELAN):一种结合了 CSPNet 和 ELAN 优势的新颖轻量级架构。它优先考虑梯度路径规划,从而在不牺牲准确性的情况下实现更高的参数效率和更快的推理速度。
您知道吗?
GELAN 架构旨在实现硬件无关性,不仅优化了高端 GPU 的推理,而且还优化了计算资源有限的边缘设备的推理。
优势与用例
- 性能平衡:YOLOv9 在速度和准确性之间提供了卓越的权衡,使其成为自动驾驶和视频分析等 实时推理 应用的理想选择。
- Ultralytics 生态系统:与 Ultralytics 的集成提供了精简的Python API和 CLI,简化了训练、验证和部署。
- 训练效率:得益于其高效架构,YOLOv9 在训练期间通常比基于 Transformer 的替代方案需要更少的内存,从而更易于在消费级 GPU 上进行自定义训练。
代码示例:将 YOLOv9 与 Ultralytics 结合使用
您可以使用 Ultralytics 包轻松运行推理或训练 YOLOv9。
from ultralytics import YOLO
# Load a pre-trained YOLOv9c model
model = YOLO("yolov9c.pt")
# Run inference on an image
results = model.predict("path/to/image.jpg")
# Train the model on a custom dataset (e.g., COCO8)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
EfficientDet:开创性的可扩展架构
EfficientDet,由谷歌研究团队于2019年末发布,是一个开创性的模型,它引入了一种系统化的目标检测器扩展方法。该模型专注于优化各种资源限制下的效率。
技术细节:
- 作者: Mingxing Tan、Ruoming Pang、Quoc V. Le
- 组织:Google Research
- 日期: 2019-11-20
- Arxiv:EfficientDet: Scalable and Efficient Object Detection
- GitHub:google/automl/efficientdet
架构亮点
EfficientDet 基于EfficientNet 骨干网络,并引入了几个关键特性:
- 双向特征金字塔网络 (BiFPN):与传统的 FPN 不同,BiFPN 通过为不同的输入特征引入可学习权重,实现了简单的多尺度特征融合。
- 复合缩放: 该方法统一缩放骨干网络、特征网络和边界框/类别预测网络的分辨率、深度和宽度,从而形成一个针对不同资源预算的模型系列(D0 到 D7)。
优势与劣势
- 可扩展性: D0-D7 系列结构允许用户选择适合其特定 FLOPs 预算的模型。
- 历史意义:它在2020年设定了效率标准,极大地影响了后续在神经架构搜索方面的研究。
- 传统性能:尽管 EfficientDet 在当时效率很高,但现在在 GPU 上的延迟方面已落后于 YOLOv9 等现代检测器。它大量使用深度可分离卷积,虽然在 FLOP 方面效率高,但与 YOLO 架构中使用的优化密集卷积相比,在 NVIDIA T4 等硬件上通常会导致推理速度较慢。
详细比较分析
在 YOLOv9 和 EfficientDet 之间进行选择时,除了原始 mAP 之外,还有几个因素需要考虑。以下是它们在实际开发环境中的比较分析。
速度与延迟
最显著的区别在于推理速度。YOLOv9 利用 GELAN 架构,该架构针对 GPU 上的大规模并行化进行了优化。相比之下,EfficientDet 对复杂特征融合 (BiFPN) 和深度可分离卷积的依赖可能会在加速器上造成内存访问瓶颈。如性能表所示,YOLOv9 模型在TensorRT上的速度始终比具有相似准确性的 EfficientDet 模型快 2 到 10 倍。
生态系统与易用性
Ultralytics 生态系统为 YOLOv9 提供了显著优势。EfficientDet 需要 TensorFlow 环境和通常复杂的设置脚本,而 YOLOv9 则集成在一个用户友好的软件包中,支持:
- 一行安装:
pip install ultralytics - 广泛的导出支持: 无缝导出到 ONNX,通过以下方式导出到 TensorRT、CoreML、OpenVINO 等
model.export()函数。 - 积极维护: 频繁更新、社区支持以及关于目标跟踪和部署等任务的广泛指南。
部署灵活性
使用Ultralytics训练的YOLOv9模型可以轻松部署到边缘设备,使用TFLite或Edge TPU等格式。有关更多详细信息,请查阅我们的TFLite集成指南。
训练效率与内存
训练现代计算机视觉模型可能需要大量资源。Ultralytics YOLO 模型以其对 GPU 内存的高效利用而闻名。与旧架构或基于 Transformer 的大型模型相比,这使得开发人员能够在消费级硬件上训练更大的批次大小。此外,Ultralytics 提供现成的预训练权重,支持 迁移学习,其收敛速度远快于从头开始训练 EfficientDet。
多功能性
尽管EfficientDet严格来说是一个目标检测器,但YOLOv9(以及更广泛的Ultralytics YOLO系列)背后的架构原则扩展到多任务。Ultralytics框架支持:
这种多功能性使开发人员能够使用单一统一的API来应对各种计算机视觉挑战。
结论
对于大多数新项目,YOLOv9是更优的选择。它以显著更快的推理速度提供最先进的精度,使其适用于实时应用。其与Ultralytics生态系统的集成确保了从数据准备到模型部署的流畅开发体验。
EfficientDet 仍然是理解复合缩放和特征融合的宝贵参考,但在现代硬件上,其每瓦性能和延迟指标通常表现不佳。
寻求最新计算机视觉技术的开发者也应探索YOLO11,它在这些进步的基础上,提供了更高的效率和性能。
探索其他模型
如果您对进一步比较感兴趣,可以探索这些相关模型:
- YOLO11 vs. YOLOv9: 了解最新一代产品如何改进 YOLOv9。
- RT-DETR: 一种基于Transformer的检测器,可为实时场景提供高精度。
- YOLOv8: 是一款功能非常全面的模型系列,支持detect、segment和姿势估计。