跳转至内容

PP-YOLOE+ 与 RTDETRv2:深度学习目标检测对比研究

物体检测架构的发展历程,始终伴随着卷积神经网络(CNN)与Transformer模型之间的激烈竞争。在这条发展时间线上,有两个重要的里程碑:PaddlePaddle 精炼CNN检测器PP-YOLOE+,以及前沿的实时transformer RTDETRv2

本技术对比评估了这些模型的架构、性能指标及部署适用性,旨在帮助研究人员和工程师为其特定计算机视觉应用选择最优模型。

执行摘要

PP-YOLOE+YOLO 巅峰之作,专注于在纯卷积神经网络框架内优化无锚点机制与标签分配策略。该模型在深度集成百度PaddlePaddle 的环境中表现卓越,但在导出至其他生态系统时可能面临兼容性问题。

RTDETRv2(实时检测Transformer )通过引入灵活可调的解码器并优化混合编码器,实现了技术突破。该模型成功利用变压器的全局注意力机制,消除了后处理环节中常见的瓶颈——非最大抑制(NMS)的需求。

然而,对于寻求统一解决方案的开发者而言Ultralytics 提供了更优选择——它兼具卷积神经网络的速度优势与变换器NMS便捷性,同时避免了巨大的计算开销。凭借原生端到端设计和最高达43%CPU 加速CPU ,YOLO26 成功弥合了高性能服务器与边缘设备之间的技术鸿沟。

PP-YOLOE+:无锚框CNN的强大模型

PP-YOLOE+于2022年发布,作为PP-YOLOE的升级版本,通过整合强健的骨干网络与动态标签分配机制,实现了具有竞争力的准确率。

作者: PaddlePaddle
机构:百度
日期:2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection

架构亮点

PP-YOLOE+ 采用CSPRepResStage 骨干网络,该结构融合了 CSPNet 的梯度流优势与 RepVGG 的重参数化技术。这使得模型在训练阶段具备复杂动态机制,而在推理阶段可折叠为简单卷积操作,从而加速部署过程。

该模型采用无锚点检测头,结合任务对齐学习(TAL)策略。不同于依赖预定义边界的传统锚点方法,PP-YOLOE+可预测物体中心位置及其与边界框边缘的距离。这简化了超参数搜索流程,并提升了在多样化数据集上的泛化能力,例如 COCO等数据集上的泛化能力。

遗留约束

尽管PP-YOLOE+表现强劲,但其对PaddlePaddle 的高度依赖会增加基于PyTorch ONNX PyTorch 标准化部署管道的复杂性。用户通常需要专用转换器才能将模型迁移至边缘计算平台。

了解更多关于 PP-YOLOE+ 的信息

RTDETRv2:Transformer 演进

RTDETRv2在RT-DETR成功基础上进一步发展,旨在证明变压器模型能在实时场景中超越YOLO类模型。该模型通过采用混合编码器高效处理多尺度特征,有效解决了标准视觉变压器(ViTs)的高计算成本问题。

作者:吕文宇、赵烨安、常钦耀、黄奎、王冠中、刘毅
机构:百度
日期:2023-04-17(初版),2024-07-24(v2 发布)
Arxiv:2304.08069
GitHub:RT-DETR

架构亮点

RTDETRv2的核心创新在于其混合 IoU查询选择机制。传统Transformer在处理高分辨率特征图时,常受限于注意力机制的二次复杂度问题。RTDETRv2通过解耦尺度内交互与尺度间融合,显著降低内存消耗,从而有效缓解了这一瓶颈。

关键的是,RTDETRv2是一款端到端检测器。它在训练过程中采用匈牙利匹配器,将预测结果与真实目标进行一对一映射。这意味着模型输出无需NMS 从而避免了传统YOLO 相关的延迟激增和参数调优问题。

了解更多关于 RTDETR 的信息

性能对比

下表对比了两种架构的性能表现。虽然PP-YOLOE+在较低参数数量下表现出色,但RTDETRv2在更大规模模型中展现出更优的可扩展性,尽管其计算需求(FLOPs)更高。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Ultralytics 优势:为何选择 YOLO26?

尽管RTDETRv2实现了NMS检测的优势,但其代价是采用了笨重的transformer 这类模块通常训练缓慢且难以GPU 上部署。Ultralytics 采用纯卷积神经网络架构实现端到端NMS检测,彻底革新了这一领域。

通过在训练中采用一致双目标分配(CDA)策略,YOLO26学会了在内部抑制重复目标框。这既消除了NMS 的推理开销NMS 变换器模型带来的延迟惩罚。

YOLO26的核心优势

  1. MuSGD优化器:受Moonshot AI的Kimi K2等大型语言模型训练创新启发,该优化器将SGD Muon技术融合,实现更快的收敛速度和稳定的训练过程,这一特性是YOLO26世代的独特优势。
  2. 边缘优化效率:通过移除分布式焦散损耗(DFL)和复杂注意力层,YOLO26相较于前代版本实现了高达43CPU 加速。这使其成为在树莓派或移动设备上运行的理想选择——这些场景正是RTDETR难以胜任的领域。
  3. 任务多样性:与主要作为检测器的PP-YOLOE+不同,YOLO26原生支持姿势估计 实例分割以及 旋转框检测 功能。
  4. ProgLoss + STAL:新型损失函数有效改善了小目标检测——这是许多transformer 的关键弱点——使YOLO26在航空影像分析中表现更优。

Ultralytics 实现高效工作流程

告别复杂的配置文件。您Ultralytics 直接训练、版本管理和部署YOLO26模型。该生态系统涵盖从数据集标注到一键导出TensorRT、TFLite格式的全流程服务。

代码示例:YOLO26 入门

Python API运行最新尖端模型极其简单:

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

了解更多关于 YOLO26 的信息

理想用例

何时使用PP-YOLOE+

  • 传统Paddle系统:若您现有的基础设施完全基于百度PaddlePaddle构建,PP-YOLOE+可提供原生升级路径,无需更换框架。
  • 服务器端卷积神经网络:适用于GPU 充足,但部署环境缺乏transformer (例如多头注意力机制TensorRT )的场景。

何时使用 RTDETRv2

  • 拥挤场景:Transformers的全球注意力机制有助于处理遮挡严重的场景,在这些场景中卷积神经网络可能难以分离重叠物体。
  • 固定硬件:适用于高端GPU(NVIDIA ),在这些平台上,相较于精度提升,变压器的矩阵乘法开销可忽略不计。

何时使用 Ultralytics YOLO26

  • 边缘与移动端人工智能:低内存占用与高速CPU 使YOLO26Android 或嵌入式系统的最佳选择。
  • 实时视频分析:对于需要高帧率的应用场景(如交通监控或生产线监控),NMS设计可确保确定性延迟。
  • 研究与快速原型开发:丰富的文档和活跃的社区支持使研究人员能够快速迭代,利用预训练权重处理各种任务,而不仅限于简单的边界框检测。

结论

PP-YOLOE+与RTDETRv2均对计算机视觉领域做出了重大贡献。前者突破了Paddle生态中卷积神经网络的性能极限,后者则验证了变换器在实时任务中的可行性。 然而Ultralytics 实现了这些技术的融合:既具备卷积神经网络的架构简洁性与运行速度,又拥有transformer模型端到端、NMS的优雅特性。结合强大的Ultralytics 它已成为现代人工智能开发中最具多功能性的工具。


评论