Skip to main content

百度 RT-DETR:基于 Vision Transformer-的实时目标检测器

概述

实时检测 Transformer (RT-DETR) 由百度开发,是一款前沿的端到端目标检测器,在保持高 Ultralytics YOLO26 中 benchmark 模式的用途是什么? 的同时提供实时性能。它基于 DETR 的理念(即无 NMS 框架),同时引入了基于卷积的 backbone 和高效的混合编码器以获得实时速度。RT-DETR 通过解耦尺度内交互和跨尺度融合,高效处理多尺度特征。该模型适应性极强,支持通过使用不同的解码器层灵活调整推理速度,而无需重新训练。RT-DETR 在 CUDA 和 TensorRT 等加速后端上表现卓越,优于许多其他实时目标检测器。



Watch: How to Use Baidu's RT-DETR for Object Detection | Inference and Benchmarking with Ultralytics 🚀

百度 RT-DETR 模型架构概述 百度 RT-DETR 概述。 RT-DETR 模型架构图显示了骨干网络的最后三个阶段 {S3, S4, S5} 作为编码器的输入。高效的混合编码器通过尺度内特征交互 (AIFI) 和跨尺度特征融合模块 (CCFM) 将多尺度特征转换为一系列图像特征。利用 IoU 感知查询选择来选择固定数量的图像特征,作为解码器的初始对象查询。最后,带有辅助预测头的解码器迭代优化对象查询,以生成边界框和置信度分数 (source).

关键特性

  • 高效混合编码器: 百度 RT-DETR 使用高效的混合编码器,通过解耦尺度内交互和跨尺度融合来处理多尺度特征。这种独特的基于 Vision Transformer 的设计降低了计算成本,并实现了实时 目标检测.
  • IoU 感知查询选择: 百度 RT-DETR 通过利用 IoU 感知查询选择改进了对象查询初始化。这使得模型能够专注于场景中最相关的对象,从而提高检测精度。
  • 适应性推理速度: 百度 RT-DETR 支持通过使用不同的解码器层灵活调整推理速度,而无需重新训练。这种适应性促进了其在各种实时目标检测场景中的实际应用。
  • 无 NMS 框架: 基于 DETR,RT-DETR 消除了对 非极大值抑制 后处理的需求,简化了检测流程并可能提高效率。
  • 无锚框检测: 作为一种 无锚框检测器,RT-DETR 简化了检测过程,并可能提高在不同数据集上的泛化能力。

预训练模型

Ultralytics Python API 提供具有不同规模的预训练 PaddlePaddle RT-DETR 模型:

  • RT-DETR-L:COCO val2017 上 53.0% AP,T4 GPU 上 114 FPS
  • RT-DETR-X:COCO val2017 上 54.8% AP,T4 GPU 上 74 FPS

此外,百度在 2024 年 7 月发布了 RTDETRv2,通过增强的性能指标进一步改进了原始架构。

使用示例

此示例提供了简单的 RT-DETR 训练和推理示例。有关这些以及其他 模式 请参阅 预测, Train, Val导出 文档页面的完整说明。模型也可以通过 Ultralytics Platform.

示例
from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

引入专门的角度损失以提高正方形物体的检测精度,并优化 OBB 解码以解决边界不连续问题。

在云 GPU 上进行训练。下表列出了模型类型、特定的预训练权重、每个模型支持的任务,以及 ✅ 表情符号指示的各种受支持模式 (Train , Val, 预测, 导出)。

模型类型预训练权重支持的任务Inference任务推理导出
RT-DETR Largertdetr-l.pt目标检测
RT-DETR Extra-Largertdetr-x.pt目标检测
分类

rtdetr-resnet50.yamlrtdetr-resnet101.yaml 仅以 YAML 架构形式提供。Ultralytics 仅针对 rtdetr-lrtdetr-x 发布预训练权重。从 YAML 实例化 ResNet 变体(例如,RTDETR("rtdetr-resnet50.yaml"))并根据需要进行训练或微调。

理想应用场景

RT-DETR 特别适合需要高精度和实时性能的应用:

引用与致谢

如果你在研究或开发工作中使用了百度 RT-DETR,请引用 原始论文:

引用
@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

对于 RTDETRv2,你可以引用 2024 年论文:

引用
@misc{lv2024rtdetrv2,
      title={RTDETRv2: All-in-One Detection Transformer Beats YOLO and DINO},
      author={Wenyu Lv and Yian Zhao and Qinyao Chang and Kui Huang and Guanzhong Wang and Yi Liu},
      year={2024},
      eprint={2407.17140},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

我们要感谢百度和 PaddlePaddle 团队为 计算机视觉 社区创建并维护这一宝贵资源。他们通过开发基于 Vision Transformer 的实时目标检测器 RT-DETR 对该领域做出的贡献深受赞赏。

常见问题解答 (FAQ)

什么是百度 RT-DETR 模型,它是如何工作的?

百度 RT-DETR (实时检测 Transformer) 是一款基于 Vision Transformer 架构构建的先进实时目标检测器。它通过高效的混合编码器解耦尺度内交互和跨尺度融合,从而高效地处理多尺度特征。通过采用 IoU 感知查询选择,该模型专注于最相关的对象,提高了检测精度。其适应性推理速度通过在不进行重新训练的情况下调整解码器层来实现,这使得 RT-DETR 适用于各种实时目标检测场景。在以下页面了解更多关于 RT-DETR 功能的信息:RT-DETR Arxiv 论文.

我该如何使用 Ultralytics 提供的预训练 RT-DETR 模型?

你可以利用 Ultralytics Python API 使用预训练的 PaddlePaddle RT-DETR 模型。例如,要加载在 COCO val2017 上预训练的 RT-DETR-l 模型并在 T4 GPU 上实现高 FPS,你可以使用以下示例:

示例
from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

为什么我应该选择百度 RT-DETR 而不是其他实时目标检测器?

百度 RT-DETR 脱颖而出,归功于其高效的混合编码器和 IoU 感知查询选择,这些特性在保持高精度的同时显著降低了计算成本。其在不重新训练的情况下通过使用不同解码器层来调整推理速度的独特能力增加了巨大的灵活性。这使其在 CUDA 和 TensorRT 等加速后端上需要实时性能的应用中尤为有利,优于许多其他实时目标检测器。Transformer 架构与传统的基于 CNN 的检测器相比,也提供了更好的全局上下文理解。

RT-DETR 如何支持针对不同实时应用的可调节推理速度?

百度 RT-DETR 允许通过使用不同的解码器层灵活调整推理速度,而无需重新训练。这种适应性对于扩展各种实时目标检测任务的性能至关重要。无论你是需要更快的处理以满足较低的 精度 需求,还是需要更慢、更精确的检测,RT-DETR 都可以量身定制以满足你的具体要求。当在具有不同计算能力的设备上部署模型时,此功能特别有价值。

我可以使用带有其他 Ultralytics 模式(如训练、验证和导出)的 RT-DETR 模型吗?

是的,RT-DETR 模型与各种 Ultralytics 模式兼容,包括训练、验证、预测和导出。你可以参考相关文档,了解如何使用这些模式的详细说明:Train, Val, 预测,以及 导出。这确保了开发和部署目标检测解决方案的完整工作流程。Ultralytics 框架在不同的模型架构中提供了一致的 API,使得使用 RT-DETR 模型变得非常简单。

评论