跳转至内容

RTDETRv2 与YOLOv7:Transformer进化模型与卷积神经网络的效率之争

物体检测领域正经历着架构理念的迷人分化。一方面,我们有卷积神经网络(CNN)的传承,其代表便是高性能的 YOLOv7;另一边Transformer 催生了RTDETRv2(实时Transformer),该模型致力于将视觉Transformer(ViTs)的全局上下文能力提升至实时处理速度。

本指南对这两种架构进行了技术剖析,重点探讨了它们在速度、精度和部署复杂度方面的权衡取舍。尽管两者在各自发布时均代表了顶尖性能水平,但现代开发往往更青睐统一生态系统与边缘优化性能的 Ultralytics 所具备的统一生态系统和边缘优化性能,该方案原生融合了两种架构的优势特性,例如端到NMS推理。

高管对比

下表对比了RTDETRv2和YOLOv7YOLOv7 COCO YOLOv7 官方性能指标。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2:Transformer 挑战者

RTDETRv2(实时Transformer )是由百度研究人员开发的RT-DETR进化版本。它通过引入高效的混合编码器并简化查询选择过程,解决了视觉变换器通常伴随的高计算成本问题。

关键技术细节:

  • 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
  • 组织: Baidu
  • 日期:2023-04-17(v1 版本发布背景)
  • 链接:ArXiv 论文 | GitHub 仓库

RTDETRv2的突出优势在于无需非最大抑制(NMS)。与生成数千个冗余边界框并需后处理过滤的卷积神经网络不同,RTDETRv2直接预测固定数量的物体查询。这种端到端能力显著降低了延迟波动,使其在需要稳定推理时间的应用场景中极具吸引力。

然而,由于依赖注意力机制,与纯卷积神经网络相比,RTDETRv2在训练过程中可能需要大量内存。它在捕捉全局上下文方面表现出色——能够理解图像中相距较远部分之间的关系——这有助于处理存在严重遮挡的复杂场景。

了解更多关于 RT-DETR 的信息

YOLOv7:卷积神经网络效率的巅峰

于2022年年中发布, YOLOv7 突破了纯卷积架构的性能极限。该模型聚焦于"可训练的免费工具包"——即在不增加推理成本的前提下提升训练准确率的优化方法。

关键技术细节:

  • 作者: Chien-Yao Wang、Alexey Bochkovskiy 和 Hong-Yuan Mark Liao
  • 机构: 中央研究院资讯科学研究所
  • 日期: 2022-07-06
  • 链接:ArXiv 论文 | GitHub 仓库

YOLOv7 创新YOLOv7 扩展高效层聚合网络(E-ELAN)。该架构通过有效控制梯度路径长度,使网络能够学习更多样化的特征。尽管GPU 展现出惊人的速度,YOLOv7 基于锚框的检测器。这意味着需要对锚框进行精细的超参数调优,以匹配自定义数据集中特定目标的尺度——这一步骤在新型模型(如YOLOv8)中往往被自动化或省略。 YOLO11中,这一步骤通常已被自动化或省略。

了解更多关于 YOLOv7

架构深度解析

注意 vs. 卷积

这些模型的根本差异在于其处理视觉数据的方式。YOLOv7 卷积操作,通过局部窗口扫描图像。这使其在检测边缘和纹理等局部特征时表现出极高的速度和效率,但在理解全局场景语义关系方面可能相对薄弱。

RTDETRv2采用自注意力机制。它计算每个像素与其他所有像素(或特定可变形注意力点内部)的相关性。这使得模型能够关注相关特征,而无需考虑其空间距离,在物体严重重叠的拥挤场景中表现出卓越性能。

后处理与NMS

YOLOv7它的前辈们一样 YOLOv5YOLOv6一样,会输出密集预测结果,这些结果必须NMS进行过滤。这一步骤属于启发式处理,在人群密集场景中可能成为性能瓶颈,同时引入影响精确率和召回率的超参数(IoU )。

RTDNMS Rv2NMS。它在训练过程中采用二分匹配,将一个真实目标精确分配给一个预测结果。这简化了部署流程,因为无需在 ONNX 或TensorRT 实现 NMS 逻辑。

鱼与熊掌兼得

RTDETRv2 率先实现了NMS实时变压器故障检测, Ultralytics 成功将该理念应用于卷积神经网络(CNN)。YOLO26采用原生端到端设计,NMS 消除NMS 保留了CNN的低内存占用和高训练效率特性。

Ultralytics 优势:为何升级到 YOLO26?

虽然分析旧模型能提供宝贵的背景信息,但Ultralytics 启动新项目在性能、易用性和未来适应性方面具有显著优势。YOLO26代表当前最先进水平,它融合了YOLOv7 DETRYOLOv7 经验教训并加以优化。

1. 原生端到端(无NMS)

与RTDETRv2类似,YOLO26采用NMS设计,训练阶段使用一对多头(One-to-Many head),推理阶段则采用一对一头(One-to-One head)。这种设计YOLOv7存在的后处理开销,使得NVIDIA 树莓派等边缘设备上的部署更为快速简便。

2. 卓越的CPU 性能

像RTDETRv2这样的变换器通常需要大量数学运算,这些运算需要GPU 。YOLO26针对CPU 进行了专门优化,在GPU 上相比前代版本速度提升高达43%。这使其在移动应用或低功耗物联网传感器中具有更广泛的适用性。

3. 先进的训练稳定性

YOLO26引入了MuSGD优化器,该算法融合了SGD 优化器(灵感源自Moonshot AI的Kimi K2)。这项创新将大型语言模型(LLM)训练中的稳定性技术引入计算机视觉领域,SGD YOLOv7 SGD ,能确保模型更快收敛且精度更高。

4. 专用损失函数

借助ProgLoss和STAL,YOLO26在小目标识别方面实现了性能提升——这正是传统卷积神经网络和部分transformer 的传统弱项。该能力对航空影像分析或制造业质量控制等任务至关重要。

5. 统一UltralyticsUltralytics

使用YOLOv7 ETRv2进行开发时,常需管理分散的代码库和复杂的安装脚本。 Ultralytics 实现了工作流的统一。您可在此平台上训练、验证并部署用于检测、分割分类姿势估计 旋转框检测 等任务。

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

了解更多关于 YOLO26 的信息

用例推荐

  • 若满足以下条件,请选择RTDETRv2:您拥有高性能GPU(NVIDIA ),且应用场景涉及高度拥挤的场景——在这些场景中,遮挡是卷积神经网络的主要失败点。全局上下文注意力机制能在特定场景中提供轻微优势。
  • 选择YOLOv7 :YOLOv7 您维护的旧系统必须依赖旧版YOLO 格式,或需要纯卷积神经网络(CNN)方案却无法升级至Ultralytics 支持的新版Python YOLOv7
  • Ultralytics :当您需要在所有硬件类型(CPU、GPU、NPU)上实现速度与精度的最佳平衡时。去掉深度特征向量(DFL)的设计,使模型更易于导出至 CoreML 或TFLite其内存效率支持在消费级GPU上训练。无论是构建安防警报系统还是智能停车管理系统,丰富的文档和活跃的社区支持使其成为企业部署中风险最低的选择。

结论

YOLOv7 对计算机视觉领域的发展YOLOv7 重大YOLOv7 。前者证明了变换器模型也能实现高速运行,YOLOv7 则YOLOv7 经过深度优化的卷积神经网络(CNN)经久不衰的强大能力。然而,该领域的发展日新月异。

对于当今的开发者和研究人员而言Ultralytics 融合了变换器NMS便捷性与卷积神经网络的原始速度和效率,实现了"两全其美"。依托强大的生态系统,从数据标注模型导出均可简化操作,它始终是现代人工智能项目的推荐起点。


评论