跳转至内容

EfficientDet 对比 YOLOv7:全面技术比较

在快速发展的计算机视觉领域,选择合适的物体 detect 架构对于项目成功至关重要。本分析比较了 EfficientDet(一个专注于效率的可扩展架构)和 YOLOv7(一个专为 GPU 硬件上的速度和准确性设计的实时检测器)。尽管这两个模型在各自发布时都代表了最先进的性能,但了解它们的技术细微差别有助于开发人员为现代部署做出明智的决策。

性能指标与分析

下表详细比较了关键性能指标,包括平均精度均值 (mAP)、在不同硬件上的推理速度以及计算复杂度(参数量和 FLOPs)。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

主要内容

  • 效率与延迟: EfficientDet 凭借其复合缩放技术,实现了卓越的参数效率(模型尺寸小)。然而,在 GPU 硬件(T4 TensorRT)上,YOLOv7 展现出卓越的延迟性能。例如,YOLOv7l 以仅 6.84 毫秒的延迟实现了 51.4% 的 mAP,而 EfficientDet-d5 则需要 67.86 毫秒才能达到相似的 51.5% mAP。
  • 架构影响: EfficientDet 中使用的深度可分离卷积最大限度地减少了 FLOP,但与 YOLOv7 中的密集卷积相比,在 GPU 上的优化程度可能较低,从而导致观察到的速度差异。

EfficientDet 概述

EfficientDet 在 2019 年通过提出一种可扩展的架构,同时优化准确性和效率,从而引入了范式转变。它基于 EfficientNet 骨干网络,并引入了 BiFPN(双向特征金字塔网络)。

EfficientDet详情: 作者:Mingxing Tan, Ruoming Pang, and Quoc V. Le
机构:Google
日期:2019-11-20
Arxiv:https://arxiv.org/abs/1911.09070
GitHub:https://github.com/google/automl/tree/master/efficientdet

架构亮点

EfficientDet的核心创新是BiFPN,它实现了简单快速的多尺度特征融合。与传统FPN不同,BiFPN使用加权特征融合来学习不同输入特征的重要性。结合统一缩放分辨率、深度和宽度的复合缩放,EfficientDet提供了一系列(D0到D7)模型,以适应各种资源限制。

了解更多关于 EfficientDet 的信息

YOLOv7 概述

YOLOv7 于2022年发布,通过专注于优化训练过程和架构以提高推理速度,突破了实时目标detect的界限。它引入了多项“免费赠品”(Bag-of-Freebies),在不增加推理成本的情况下提高了准确性。

YOLOv7 详情: 作者: Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark LiaoChien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao
机构: 台湾中央研究院信息科学研究所台湾中央研究院资讯科学研究所
日期: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7

架构亮点

YOLOv7 利用 E-ELAN(扩展高效层聚合网络),它控制最短和最长的梯度路径,以使网络能够学习更多样化的特征。它还对基于拼接的模型采用模型缩放,使其能够在不同尺寸下保持最佳结构。该架构专门针对 GPU 效率进行了调整,避免了尽管 FLOP 计数低但内存访问成本高的操作。

了解更多关于YOLOv7的信息。

理想用例

在这些架构之间进行选择在很大程度上取决于部署硬件和具体的应用需求。

何时选择 EfficientDet

EfficientDet 非常适合 CPU 密集型环境或内存带宽和存储严格受限的边缘设备。其低参数量使其适用于:

  • 移动应用: Android/iOS 应用,其中应用大小(APK 大小)是一个关键限制。
  • 嵌入式系统: 树莓派(旧型号)等在CPU上运行的设备。
  • 学术研究: 研究复合缩放和特征融合技术的影响。

何时选择 YOLOv7

YOLOv7在高性能GPU环境中表现出色,在这些环境中低延迟是不可妥协的。它是以下场景的首选:

  • 实时监控: 在边缘服务器上同时处理多个视频流。
  • 自动驾驶:毫秒级延迟可能影响安全的场景。
  • 机器人技术:用于动态环境中的快速目标检测和交互。

现代替代方案

尽管EfficientDet和YOLOv7都很强大,但该领域已经取得了进展。对于新项目,通常推荐使用YOLO11。它结合了现代主干网络的效率概念与YOLO系列的实时速度,在精度和部署便捷性方面通常优于两者。

为什么选择 Ultralytics YOLO 模型?

尽管EfficientDet和YOLOv7仍然是计算机视觉领域的重要贡献,但Ultralytics生态系统——其中包含YOLOv8和尖端YOLO11等模型——为开发者和研究人员提供了独特的优势。

易用性与生态系统

传统模型通常需要复杂的安装步骤、特定的 CUDA 版本或分散的代码库。相比之下,Ultralytics 专注于提供统一、精简的用户体验。凭借简单的 pip install ultralytics,用户可以访问强大的 python API 和 CLI 命令 标准化训练、验证和部署。该 维护良好的生态系统 确保频繁更新、广泛的硬件支持以及与诸如...等工具的集成 Ultralytics HUB 实现无缝MLOps。

性能平衡与内存效率

Ultralytics 模型在工程上旨在实现最佳的性能平衡。它们在保持卓越推理速度的同时提供最先进的准确性,使其适用于从边缘部署到云 API 的各种场景。此外,训练 Ultralytics YOLO 模型的内存需求通常低于基于 Transformer 的架构或旧版 ConvNet,从而可以在消费级 GPU 上进行高效训练。

多功能性与训练效率

与许多特定检测器不同,Ultralytics 模型高度通用。单一框架支持:

这种多功能性,结合训练效率(得益于优化的数据加载器和COCO上现成的预训练权重),显著缩短了 AI 解决方案的上市时间。

示例:运行现代YOLO模型

以下是一个示例,展示了现代 Ultralytics 模型如何轻松用于推理,这与旧架构通常所需的样板代码形成了鲜明对比。

from ultralytics import YOLO

# Load the latest YOLO11 model (pre-trained on COCO)
model = YOLO("yolo11n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Process results
for result in results:
    result.save()  # Save the annotated image to disk
    print(f"Detected {len(result.boxes)} objects.")

了解更多关于 YOLO11 的信息

结论

EfficientDet 和 YOLOv7 代表了计算机视觉历史上的两种不同理念:一种优化理论效率(FLOPs/Params),另一种优化实际硬件延迟。EfficientDet 仍然是参数受限的 CPU 应用的有力参考,而 YOLOv7 则很好地服务于高速 GPU 工作负载。

然而,对于寻求兼具速度、准确性和无摩擦开发体验的开发者而言——像YOLO11这样的Ultralytics模型是卓越的选择。它们简化了训练和部署的复杂流程,同时提供满足现代计算机视觉应用严苛要求的性能。

其他模型对比

探索更多技术比较,以找到最适合您特定需求的模型:


评论