RTDETRv2 与 EfficientDet:综合技术比较
在不断发展的计算机视觉领域,选择正确的物体检测架构对项目的成功至关重要。本比较深入探讨了RTDETRv2 和EfficientDet,前者是专为实时性能设计的transformer尖端模型,后者是为提高效率而优化的可扩展卷积神经网络 (CNN) 系列。我们分析了它们的架构创新、性能指标和理想部署方案,以帮助开发人员做出明智的决定。
机型概览
在这两种模型之间做出选择,往往取决于目标硬件的具体限制和应用的精度要求。
RTDETRv2
RTDETRv2(Real-Time DetectionTransformer v2)是将transformer 架构应用于实时对象检测的重要一步。它由百度的研究人员开发,建立在最初的 RT-DETR的成功基础上,优化了混合编码器和查询选择机制,从而在GPU 硬件上实现了最先进的精度和极具竞争力的推理速度。
- 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
- 组织机构:百度
- 日期: 2023-04-17
- Arxiv:RT-DETR:DETR 在实时物体检测方面击败 YOLOs
- GitHub:RT-DETR 资源库
- 文档RT-DETRv2 文档
EfficientDet
Google 大脑开发的EfficientDet 一经发布,就通过引入一种系统化的方法来缩放模型维度,在该领域掀起了一场革命。通过将 EfficientNet 主干网与加权双向特征金字塔网络(BiFPN)相结合,它提供了一系列模型(D0-D7),在计算成本与精确度之间进行了权衡,使其在各种资源限制条件下具有很强的通用性。
- 作者: Mingxing Tan、Ruoming Pang 和 Quoc V. Le
- 组织机构Google 研究院
- 日期: 2019-11-20
- Arxiv:EfficientDet:可扩展的高效物体检测
- GitHub:AutoML 资源库
- 文档自述文件
建筑分析
它们的根本区别在于其核心构件:一个利用了变压器的全局背景,而另一个则提高了卷积的效率。
RTDETRv2:Transformer 功率
RTDETRv2 采用混合编码器,能有效处理多尺度特征。与传统的 CNN 不同,它采用了IoU查询选择机制,将注意力集中在图像中最相关的部分。这使得该模型能够有效处理具有遮挡和不同物体尺度的复杂场景。该架构将尺度内交互与跨尺度融合分离开来,减少了视觉转换器(ViT)通常需要的计算开销。
Transformer 优势
RTDETRv2 中的注意力机制可实现全局感受野,使模型比典型的 CNN 更好地理解场景中远处物体之间的关系。
EfficientDet:可扩展效率
EfficientDet 建立在EfficientNet骨干之上,并引入了BiFPN。BiFPN 可通过学习不同输入特征的重要性,实现简单快速的多尺度特征融合。此外,EfficientDet 还采用了一种复合缩放方法,可统一缩放网络的分辨率、深度和宽度。这确保了模型可以量身定制--从适用于移动应用的轻型 D0 到适用于高精度服务器任务的重型 D7。
性能对比
性能基准凸显了设计理念的明显区别。RTDETRv2 的目标是在功能强大的硬件上达到峰值精度,而 EfficientDet 则提供了细粒度的梯度效率。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
如表所示,RTDETRv2-x 的 mAP 高达54.3,甚至超过了最大的 EfficientDet-d7(53.7mAP),同时在TensorRT 上的速度也明显更快(15.03ms vs 128.07ms)。不过,对于极其有限的环境,EfficientDet-d0仍然是一个非常轻量级的选择,参数(3.9M)和 FLOPs 都非常少。
优势与劣势
RTDETRv2 的优势:
- 高精确度:提供一流的检测性能,尤其是在具有挑战性的COCO 数据集上。
- GPU 优化:架构高度可并行化,非常适合 TensorRT在NVIDIA ®)图形处理器上的部署。
- 无锚:无需调整锚点框,简化了训练流程。
EfficientDet 的优势:
- 可扩展性:D0-D7 系列可根据硬件能力精确匹配模型大小。
- 低计算:较小的变体(D0-D2)非常适合CPU 的推理或移动边缘设备。
- 成熟:成熟的架构,在各种转换工具中得到广泛支持。
弱点:
- RTDETRv2:需要大量的CUDA 内存进行训练,并且由于transformer 操作,CPU 的运行速度通常较慢。
- EfficientDet:与现代探测器相比,高精度端(D7)的延迟较高;训练收敛速度较慢。
理想用例
选择合适的型号在很大程度上取决于具体的应用环境。
- 高端监控、自动驾驶或工业检测系统需要强大的GPU ,请选择 RTDETRv2。RTDETRv2 能够辨别精细细节,因此适用于检测医疗制造中的药丸或分析复杂的卫星图像等任务。
- 对于电池供电的物联网设备、移动应用程序或需要在不同硬件级别之间实现广泛兼容性的应用场景,请选择 EfficientDet。它非常适合智能零售库存扫描仪或基本的安全警报系统,在这些应用中,成本和功耗是首要考虑因素。
Ultralytics YOLO 优势
RTDETRv2 和 EfficientDet 都有各自的优点、 Ultralytics YOLO11提供了一个令人信服的综合体,将它们的最佳功能封装在一个对开发人员友好的生态系统中。
开发人员为何青睐Ultralytics
Ultralytics 模型的设计不仅针对基准测试,还针对实际可用性。
- 易用性: Ultralytics Python API和 CLI大大降低了培训和部署的复杂性。从安装到在自定义数据集上进行培训,用户只需几分钟时间。
- 维护良好的生态系统:在蓬勃发展的社区和频繁更新的支持下,Ultralytics 框架与 MLOps 工具无缝集成,例如 Weights & Biases、MLFlow 和用于数据管理的Ultralytics HUB。
- 性能平衡: YOLO11 实现了最先进的速度/精度权衡。在保持 CNN 的推理速度特性的同时,它的准确度往往能达到或超过 RTDETRv2 等transformer 模型。
- 内存效率:与transformer训练所需的大量内存不同,YOLO 模型针对GPU 的高效利用进行了优化,允许在消费级硬件上实现更大的批次规模。
- 多功能性:单一框架支持对象检测、实例分割、姿势估计 、分类和定向对象检测(旋转框检测)。
培训效率
Ultralytics 提供预先训练好的权重,便于迁移学习,大大缩短了训练时间。以下是开始训练YOLO11 模型的简单方法:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
简化部署
Ultralytics 模型只需一条命令即可导出为多种格式,如ONNX、TensorRT、CoreML 和OpenVINO ,从而简化了从研究到生产的过程。了解有关导出模式的更多信息。
结论
在RTDETRv2 与 EfficientDet 的比较中,胜负取决于您的限制条件。RTDETRv2在高精度、GPU环境中表现出色,证明了变压器也可以很快。对于高约束、低功耗的边缘方案,EfficientDet仍然是一个可靠的选择。
不过,对于大多数寻求多功能、易用性和高性能解决方案的开发人员来说,Ultralytics 是一个不错的选择、 Ultralytics YOLO11脱颖而出。YOLO11 能够在一个具有凝聚力的生态系统中处理多种视觉任务,同时还具有出色的内存效率和训练速度,是现代计算机视觉应用的最佳选择。
探索其他比较
为了拓宽您对现有物体检测模型的了解,请考虑探索这些相关的比较: