YOLOv7 与 RTDETRv2:详细模型比较
选择正确的对象检测模型对于计算机视觉项目至关重要。本页对 YOLOv7 和 RTDETRv2 这两种最先进的模型进行了技术比较,以帮助您做出明智的决定。我们将深入探讨它们的架构差异、性能指标和理想应用。
模型 | 尺寸 (像素) |
mAPval 50-95 |
速度 CPU ONNX (毫秒) |
速度 T4TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7:实时效率专家
YOLOv7 于 2022 年 7 月由来自台湾中央研究院信息科学研究所的作者 Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao 推出,因其在物体检测任务中的速度和效率而备受赞誉。它改进了以往YOLO 模型的结构,在不明显牺牲准确性的前提下优先考虑快速推理。
结构和主要功能
YOLOv7 的架构建立在卷积神经网络(CNN)的基础上,并结合了几个关键功能以优化性能:
- E-ELAN(扩展高效层聚合网络):提高特征提取效率,让模型更有效地学习。
- 模型缩放:采用复合缩放技术调整模型深度和宽度,可灵活满足不同的计算资源和性能需求。
- 辅助头训练:在训练过程中使用辅助损失头,以加深网络学习并提高整体准确性。
这些架构选择使 YOLOv7 能够在速度和准确性之间取得很好的平衡,从而使其适用于实时应用。更多详情,请参阅Arxiv 上的 YOLOv7 论文和YOLOv7 官方 GitHub 存储库。
性能指标
YOLOv7 专为低延迟要求的应用场景而设计。其性能特点如下
- mAPval50-95:在 COCO 数据集上实现高达 53.1% 的 mAP 值。
- 推理速度(T4 TensorRT10):快至 6.84 毫秒,实现实时处理。
- 模型大小(参数):起始参数为 36.9M,模型尺寸小巧,便于高效部署。
使用案例和优势
YOLOv7 尤其适用于需要在资源有限的设备上进行实时目标检测的应用,包括
- 机器人学:为机器人导航和交互提供快速感知。
- 监控:实现安防系统的实时监控和分析。了解YOLOv8 如何增强安防报警系统。
- 边缘设备:部署在计算能力有限的边缘设备上,NVIDIA Jetson或Raspberry Pi。
它的主要优势在于速度快、模型相对较小,因此非常适合在各种硬件平台上部署。在YOLOv7 文档中了解有关YOLOv7 架构和功能的更多信息。
RTDETRv2:精度与变压器效率
RTDETRv2(Real-Time Detection Transformer version 2,实时检测变换器第 2 版)由百度公司的吕文宇、赵一安、常钦尧、黄奎、王冠中和刘毅于 2024 年 7 月推出,它采用了一种不同的方法,将视觉变换器(ViT)集成到物体检测中。与YOLO 的 CNN 基础不同,RTDETRv2 利用变换器捕捉全局图像上下文,从而在保持实时性能的同时提高了准确性。
结构和主要功能
RTDETRv2 的架构由以下方面定义:
- 视觉变换器 (ViT) 主干网:利用变换器编码器处理整个图像,捕捉对理解复杂场景至关重要的长距离依赖关系。
- 混合 CNN 特征提取:将用于初始特征提取的 CNN 与转换层相结合,以有效整合全局上下文。
- 无锚检测:无需预定义锚框,从而简化了检测过程,提高了模型的灵活性并降低了复杂性。
这种基于变压器的设计使 RTDETRv2 有可能实现更高的精度,尤其是在复杂和杂乱的环境中。有关视觉变压器的更多信息,请参阅我们的视觉变压器(ViT)词汇表页面。RTDETRv2 论文可在 Arxiv 上查阅,官方 GitHub 存储库提供了实现细节。
性能指标
RTDETRv2 在保持具有竞争力的速度的同时优先考虑准确性,并提供以下性能指标:
- mAPval50-95:mAPval50-95 高达 54.3%,显示了物体检测的高准确性。
- 推理速度(T4 TensorRT10):从 5.03 毫秒开始,确保在合适的硬件上具有实时能力。
- 模型大小(参数):从 20M 参数开始,提供一系列模型大小,以满足不同的部署需求。
使用案例和优势
RTDETRv2 非常适合高精度和计算资源充足的应用:
- 自动驾驶汽车:为安全导航提供可靠、精确的环境感知。探索人工智能在自动驾驶汽车中的相关应用。
- 医学成像:在医学影像中实现精确的异常检测,帮助诊断和制定治疗计划。了解有关人工智能在医疗保健领域应用的更多信息。
- 高分辨率图像分析:需要对大型图像进行详细分析的任务,如卫星图像分析或工业检测。
RTDETRv2 的优势在于它的转换器架构,该架构有助于进行稳健的特征提取和更高的准确性,使其成为执行复杂检测任务的绝佳工具。更多详情,请参阅RT-DETR GitHub README。
结论
YOLOv7 和 RTDETRv2 都是功能强大的对象检测模型,各自具有独特的优势。YOLOv7 在要求速度和效率的实时应用中表现出色,而 RTDETRv2 则通过其基于变压器的架构优先考虑精度。您的选择应符合您项目的具体要求--速度适用于时间敏感型任务,精度适用于详细分析。
如需了解其他比较和型号,您可能也会感兴趣: