跳转至内容

EfficientDet 与 YOLOv9:架构、性能与边缘部署

计算机视觉领域由神经网络设计的持续突破所塑造。在选择模型时,找到计算效率和检测准确性之间的正确平衡至关重要。Google的EfficientDet在2019年通过引入可扩展架构建立了强大的基线,而2024年发布的YOLOv9则利用可编程梯度信息(PGI)推动了目标检测的边界。

本指南对这两种模型进行了全面的技术比较,并介绍了现代 Ultralytics YOLO26 框架,该框架提供了一个为生产环境优化的强大端到端解决方案。

模型架构与创新

了解EfficientDet和YOLOv9的底层机制,对于确定它们的最佳应用场景至关重要。

EfficientDet:复合缩放与BiFPN

EfficientDet 由 Google Research 开发,专注于系统性缩放和高效特征融合。它使用 EfficientNet 作为其骨干网络,并引入了一种新颖的特征网络架构。

  • 作者: Mingxing Tan、Ruoming Pang 和 Quoc V. Le
  • 组织:Google
  • 日期:2019年11月20日
  • 链接:ArxivGitHub

关键架构特性: EfficientDet 严重依赖双向特征金字塔网络 (BiFPN),这使得多尺度特征融合变得简单快捷。除此之外,它还使用一种复合缩放方法,统一缩放网络的解析度、深度和宽度。尽管在其时代具有高精度,但 EfficientDet 严重依赖于较旧的TensorFlow环境,使现代部署流程变得复杂。

了解更多关于 EfficientDet 的信息

YOLOv9:解决信息瓶颈

由中研院的研究人员开发的 YOLOv9 解决了数据通过深度神经网络时信息退化的问题。

  • 作者: Chien-Yao Wang 和 Hong-Yuan Mark Liao
  • 组织:中央研究院信息科学研究所
  • 日期: 2024 年 2 月 21 日
  • 链接:ArxivGitHub文档

关键架构特性: YOLOv9 引入了可编程梯度信息 (PGI) 以提供辅助监督,确保保留关键数据以可靠地更新网络权重。它还具有广义高效层聚合网络 (GELAN) 以最大化参数效率。尽管有这些进步,YOLOv9 在后处理期间仍然需要非极大值抑制 (NMS),这增加了延迟。

了解更多关于 YOLOv9

性能对比

在评估这些模型时,分析经验数据有助于确定哪种架构能为您的特定hardware requirements提供最佳权衡。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

关键分析

YOLOv9 在速度上实现了代际飞跃。例如,YOLOv9e 实现了55.6% 的 mAP,TensorRT 延迟为 16.77 毫秒。相比之下,EfficientDet-d7 提供了较低的 53.7% mAP,但存在巨大的延迟(128.07 毫秒),使其极难部署于实时视频流。

为生产环境导出模型

将您的架构导出到 TensorRTOpenVINO 等优化格式可显著缩短推理时间,与原始 PyTorch 运行相比。

应用场景与建议

在 EfficientDet 和 YOLOv9 之间进行选择取决于您的具体项目要求、部署限制和生态系统偏好。

何时选择 EfficientDet

EfficientDet是以下场景的有力选择:

  • Google Cloud 和 TPU 流水线:与 Google Cloud Vision API 或 TPU 基础设施深度集成的系统,EfficientDet 在其中具有原生优化。
  • 复合缩放研究:专注于研究平衡网络深度、宽度和分辨率缩放影响的学术基准测试。
  • 通过TFLite进行移动部署:专门需要TensorFlow Lite导出用于Android或嵌入式Linux设备的项目。

何时选择 YOLOv9

YOLOv9 推荐用于:

  • 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和广义高效层聚合网络 (GELAN) 架构的学术项目。
  • 梯度流优化研究:旨在理解和缓解深度网络训练过程中信息损失的研究。
  • 高精度检测基准测试:在需要YOLOv9强大的COCO基准性能作为架构比较参考点的场景。

何时选择 Ultralytics (YOLO26)

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 免NMS的边缘部署:需要一致的低延迟推理,且无需非极大值抑制后处理复杂性的应用。
  • 纯CPU环境:在没有专用GPU加速的设备上,YOLO26高达43%的CPU推理速度提升提供了决定性优势。
  • 小目标 detect:无人机航拍图像 或物联网传感器分析等挑战性场景中,ProgLoss 和 STAL 显著提高了微小目标的准确性。

Ultralytics 优势:选择 YOLO26

尽管YOLOv9和EfficientDet开辟了道路,但寻求真正现代化、生产就绪框架的开发者应考虑Ultralytics YOLO模型,特别是新发布的YOLO26

Ultralytics 平台 提供无与伦比的易用性,将强大的本地训练脚本与云端接口相结合。YOLO26 代表了模型设计的重大革新,使旧有架构在许多商业应用中变得过时。

YOLO26 技术亮点

  • 端到端免NMS设计:YOLO26完全消除了后处理瓶颈。通过移除非极大值抑制,部署图得以统一,并在边缘AI芯片上实现固有的更快速运行。
  • CPU 推理速度提升高达 43%: 针对嵌入式设备进行了深度优化,在 GPU 不可用时,其速度比 YOLOv9 和 EfficientDet 都要快得多。
  • MuSGD 优化器:将 LLM 创新整合到视觉 AI 中,这种混合优化器稳定了训练过程,使模型能够以更少的资源更快地收敛。
  • 低内存要求:与依赖大量Transformer架构或未经优化的CNN不同,YOLO26 在训练期间最大限度地减少 CUDA 内存消耗,让您可以在消费级硬件上使用更大的批次大小。
  • ProgLoss + STAL: 卓越的损失函数设计显著提升了小目标 detect 的准确性,使YOLO26成为航空影像和物联网网络的理想选择。
  • 移除DFL:简化的结构设计实现了向移动部署格式的无缝转换。

了解更多关于 YOLO26 的信息

Ultralytics生态系统中其他强大的选项包括YOLO11YOLOv8,它们也提供了多任务多功能性,例如实例分割姿势估计

使用Python SDK简化训练

Ultralytics 模型优先考虑开发者体验。训练最先进的模型只需几行Python代码。

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train with optimized memory usage and built-in augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance easily
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

真实世界的应用

这些架构之间的选择很大程度上取决于您的部署目标。

  • 传统云部署:EfficientDet在离线、基于云的批处理中很受欢迎,在这些场景中,需要高精度且不存在严格的实时约束。
  • 学术研究:对于突破CNN理论极限并分析网络层中梯度流的研究人员来说,YOLOv9仍然是一个有趣的选择。
  • 边缘计算与物联网:YOLO26在实际应用中占据主导地位。其无NMS的流水线以及旋转框检测(OBB)能力,使其成为智慧城市交通分析、零售库存监控和无人机巡检的卓越选择,提供了高精度和快速推理速度的无与伦比的平衡。

评论