跳转至内容

RTDETRv2 与 YOLOv7:探究实时目标检测的演进

过去几年,计算机视觉领域取得了显著发展,这得益于卷积神经网络(CNN)和视觉Transformer(ViT)的持续创新。为您的部署选择合适的架构需要理解速度、准确性和计算开销之间的微妙权衡。本指南探讨了RTDETRv2和YOLOv7这两种备受推崇的架构之间的技术差异,同时强调了更新的Ultralytics YOLO26中可用的现代进展。

RTDETRv2:Transformer 实时检测方法

RTDETRv2(实时检测 Transformer 第二版)在其前身的基础上,证明了基于 Transformer 的架构可以在不依赖传统后处理步骤的情况下,有效地在实时场景中竞争。

作者: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang 和 Yi Liu
机构:Baidu日期: 2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RTDETRv2 仓库

架构亮点

RTDETRv2 采用混合编码器和Transformer 解码器架构。通过利用自注意力机制,模型能够整体处理整个图像,使其比严格局部化的卷积核更好地理解复杂的空间关系。其最显著的特点之一是其原生的无 NMS 设计。通过消除非极大值抑制(NMS),RTDETRv2 消除了在部署过程中引入可变推理延迟的常见瓶颈。

优势与局限性

RTDETRv2 的主要优势在于其处理复杂场景中密集、重叠物体的能力。Transformer 注意力层提供的全局上下文使其具有极高的准确性,尤其是在遮挡频繁的场景中。

然而,这伴随着计算成本。与 CNN 相比,Transformer 模型在训练和推理期间通常需要更高的内存占用。此外,RTDETRv2 在分布式训练期间通常需要更多的 epoch 才能收敛,这导致调整自定义数据集的开发人员迭代周期更长。

了解更多关于 RTDETRv2 的信息

YOLOv7:速度的 CNN 基线

在RTDETRv2发布一年前,YOLOv7对经典的YOLO框架引入了多项结构优化,在其发布时为基于CNN的实时检测器树立了强大的基准。

作者: Chien-Yao Wang, Alexey Bochkovskiy 和 Hong-Yuan Mark Liao
机构:台湾中央研究院信息科学研究所
日期: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7 仓库

架构亮点

YOLOv7 的架构围绕扩展高效层聚合网络(E-ELAN)的概念构建。这种方法优化了梯度路径,使模型能够更有效地学习,而不会显著增加计算复杂度。作者还引入了“可训练的免费赠品”(trainable bag-of-freebies),这是一组在训练期间提高模型准确性的方法,同时不影响边缘设备上的推理速度。

优势与局限性

YOLOv7 仍然是标准目标检测任务中一个非常强大的模型,在消费级 GPU 上提供出色的处理速度。其 CNN 特性意味着它在训练期间通常需要较少的 CUDA 内存,与 RTDETRv2 等基于 Transformer 的模型相比。

尽管有这些优点,YOLOv7 仍然依赖 NMS 进行后处理。在预测密度高的环境中,NMS 步骤可能导致处理时间波动,从而难以保证严格的实时性。此外,与现代框架相比,处理 实例 segment姿势估计 等多种任务的过程可能较为分散。

了解更多关于 YOLOv7

性能对比

评估这些模型需要关注平均精度均值 (mAP)、参数数量和推理速度之间的微妙平衡。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

性能背景

尽管 RTDETRv2-x 实现了最高的 mAP,但它也带来了最大的参数数量和 FLOPs。像 RTDETRv2-s 这样的小型变体在 TensorRT 上提供了具有竞争力的速度,但针对没有专用 GPU 的低功耗环境的用户必须仔细评估 CPU 推理能力。

现代解决方案:YOLO26登场

尽管 RTDETRv2 和 YOLOv7 在推动 计算机视觉应用 的边界方面发挥了关键作用,但 AI 格局迅速发展。于 2026 年 1 月发布的 YOLO26 综合了 CNN 效率和类似 Transformer 的 NMS-free 架构的最佳方面。

对于构建新系统的开发者和研究人员,集成的Ultralytics Platform和Python生态系统提供统一的体验,显著减少了技术债务。

YOLO26 的主要创新

  • 端到端免NMS设计:YOLO26原生支持端到端,消除了NMS后处理,从而实现更快、更简单的部署。这一突破性方法最初由YOLOv10开创,确保了无论目标密度如何,都能保持稳定的延迟。
  • CPU 推理速度提升高达 43%: 专门针对 边缘计算 和不配备 GPU 的设备进行了优化,使其在现场部署方面比大型 Transformer 模型更具通用性。
  • MuSGD优化器:SGD和Muon的混合(受Moonshot AI的Kimi K2启发),将LLM训练创新带入计算机视觉,以实现更稳定的训练和更快的收敛。
  • 移除DFL:已移除分布焦点损失,从而简化了计算图,以便更顺畅地导出到嵌入式NPU和TensorRT环境。
  • ProgLoss + STAL: 改进的损失函数在小目标识别方面取得了显著增强,这对于机器人技术、物联网和航空影像分析至关重要。
  • 任务特定改进: YOLO26 不仅仅用于 detect。它具有用于分割的多尺度原型、用于姿势估计 track 的残差对数似然估计 (RLE),以及解决旋转框检测 (OBB)边界问题的专用角度损失。

简化的开发者体验

选择 Ultralytics 模型(如 YOLO26 或广受欢迎的 YOLO11)的真正优势在于其维护良好的生态系统。训练自定义数据集只需极少的样板代码:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

了解更多关于 YOLO26 的信息

理想用例和应用

在这些架构之间进行选择,很大程度上取决于目标硬件和具体的运行要求。

何时考虑 RTDETRv2

RTDETRv2 在配备强大 GPU 的服务器端处理环境中非常有效。其全局注意力机制使其适用于复杂的场景理解,例如高度拥挤的事件监控或需要深度上下文分析重叠特征的专业医疗成像。

何时考虑 YOLOv7

YOLOv7 在传统学术研究中常作为基准比较模型进行维护。它也存在于较旧的工业部署中,这些部署的现有管道为特定 PyTorch 版本硬编码,且不需要新型框架的多任务灵活性。

对于现代 智慧城市 基础设施、无人机导航 和高速制造,YOLO26 提供了无与伦比的平衡。其较低的内存要求使得在消费级硬件上进行 超参数调优 和训练变得可行,而其免 NMS 推理确保了在 Raspberry Pi 或 NVIDIA Jetson 等受限边缘设备上的快速执行。

探索更多比较

想了解这些模型与其他架构相比如何?请查阅我们关于 YOLO11 vs. RTDETRYOLOv8 vs. YOLOv7 的详细指南,为您的视觉 AI 项目找到最合适的模型。


评论