跳转至内容

YOLO:实时精度的较量

在追求最优目标检测架构的过程中,通常需要权衡变换器(Transformer)的全局上下文建模能力与卷积神经网络(CNN)的速度优势。RTDETRv2 与YOLO该领域两大领先方案。 RTDETRv2作为百度实时Transformer第二代迭代模型,通过注意力机制消除了非最大抑制(NMS)的需求。而阿里巴巴YOLO 聚焦于神经架构搜索(NAS)与高效重参数化技术,旨在从传统CNN结构中榨取最大性能。

本指南深入剖析了这些工具的架构、基准测试及理想部署场景,为开发者提供选择计算机视觉项目合适工具所需的洞察力。

执行摘要

RTDETRv2是复杂环境中需要高精度的应用的绝佳选择,尤其适用于物体可能严重重叠的场景。其transformer设计能自然处理全局上下文,使其在遮挡情况下仍保持鲁棒性。但这也带来了更高的计算需求,在边缘设备上尤为明显。

YOLO在标准硬件上表现优异,尤其适用于优先考虑低延迟的工业场景。其采用NAS架构和高效骨干网络设计,能高效处理实时制造与检测任务。尽管速度快,但该模型依赖传统的锚点基方法,相较于端到端变压器架构,其对超参数调优更为敏感。

对于追求两全其美——兼具尖端速度、端到NMS推理和易用性——的用户Ultralytics 模型提供了卓越的替代方案,它融合了损失函数的最新优化成果与增强CPU 。

RTDETRv2:精进实时 Transformer 模型

RTDETRv2(实时Transformer )在初代 RT-DETR,进一步优化了混合编码器和不确定性感知查询选择机制。该模型旨在解决transformer 典型的延迟瓶颈问题,同时保持其卓越的准确性。

作者:吕文宇、赵一安、常勤耀、黄奎、王冠中、刘毅
机构:百度
日期:2023年4月17日
Arxiv论文RTDETRv2
GitHub:RT-DETR

了解更多关于 RT-DETR 的信息

主要架构创新

  • 混合编码器:通过解耦同尺度交互与跨尺度融合,高效处理多尺度特征,相较于标准可变形DETR编码器显著降低计算成本。
  • 不确定性最小化查询选择:通过选择分类得分最高的特征来优化目标查询的初始化过程,从而实现更快的收敛速度和更优的初始检测效果。
  • NMS:作为transformer模型,RTDETRv2可直接预测固定对象集,无需进行非最大抑制(NMS)。这简化了部署流程,并消除了后处理密集预测带来的延迟波动问题。
  • 灵活的骨干网络支持:该架构支持多种骨干网络,包括ResNet和HGNetv2,使用户能够根据可用计算资源对模型进行扩展。

Transformer 优势

与处理局部像素邻域的卷积神经网络不同,RTDETRv2中的自注意力机制使图像的每个部分都能关注其他所有部分。这种"全局感受野"对于检测大型物体或理解场景中远距离部分之间的关系尤为有用。

YOLO:工业级效率

YOLO 严谨的神经网络架构搜索(NAS)和创新的特征融合技术,最大化提升"仅需一次观察"(You Only Look Once)检测范式的效率。该模型作为一款稳健的通用型检测器,在速度与精度之间取得平衡,专为工业应用场景设计。

作者:徐先哲、姜一琪、陈伟华、黄一伦、张源、孙秀宇
所属机构:阿里巴巴集团
日期:2022年11月23日
ArxivYOLO YOLO
GitHub:YOLO

主要架构特性

  • MAE-NAS主干网络:采用神经架构搜索中的辅助特征值方法,发现专为检测任务优化的主干网络,而非分类任务的替代方案。
  • 高效RepGFPN:一种通过重新参数化(Rep)技术优化的广义特征金字塔网络(GFPN)。该方法可在训练阶段实现复杂特征融合,并在推理阶段折叠为简单高效的结构。
  • ZeroHead:一款轻量级检测头,在不牺牲平均精度(mAP)的前提下,显著减少参数数量和浮点运算量。
  • 对齐式OTA:一种改进的标签分配策略,可解决分类与回归任务间的错位问题,确保训练过程中选取高质量锚点。

技术性能比较

在比较这些架构时,关键要权衡纯粹的推理速度与检测精度(mAP)之间的取舍关系。下表显示:尽管RTDETRv2通常能实现更高精度(尤其在难度COCO 上),YOLO 在特定硬件配置下YOLO 具有竞争力的性能,且潜在延迟更低。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

部署与用例

RTDETRv2 的理想应用场景

  • 复杂城市场景:全局注意力机制在处理拥挤街道中的遮挡问题上表现卓越,使其成为自动驾驶或交通监控的理想选择。
  • 医学影像:在精度至关重要且假阴性代价高昂的领域(如肿瘤检测),RTDETRv2的高准确性具有显著优势。
  • 人群计数:其能够在不NMS 的情况下区分重叠个体,这使其在人群管理应用中表现卓越。

DAMO-YOLO 的理想应用场景

  • 高速制造:在需要毫秒级延迟进行缺陷检测的装配线上YOLO低延迟特性确保了吞吐量不会成为瓶颈。
  • 嵌入式物联网:对于计算能力有限的设备,当transformer 过于繁重时,基于卷积神经网络的YOLO 在效率方面YOLO 显著优势。
  • 零售分析:用于追踪货架商品或库存管理,在可接受中等精度的条件下实现显著更快的处理速度。

Ultralytics 优势:YOLO26

尽管YOLO 强大YOLO ,Ultralytics 模型在效率与实用性方面堪称巅峰之作。这款于2026年1月发布的模型,通过将变压器NMS的设计理念融入高度优化的边缘友好架构,成功弥合了两种设计哲学之间的鸿沟。

了解更多关于 YOLO26 的信息

开发者为何选择 Ultralytics

  1. 统一平台:不同于常年缺乏维护的研究仓库Ultralytics 用于训练、部署和管理模型的综合平台。无论您需要姿势估计 分割还是 旋转框检测,所有功能均集成于单一库中。
  2. 易用性:训练尖端模型只需极少代码。这种便捷性使研究人员能够专注于数据处理,而非耗费精力调试复杂的训练循环。

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model (NMS-free by design)
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset with MuSGD optimizer
    results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
    
  3. 端到端效率:YOLO26引入了端到端NMS设计该设计 YOLOv10 首创YOLOv10 经过优化已具备生产级应用能力。此设计YOLO 消YOLO 中的后处理开销YOLO 规避了RTDETRv2全注意力层带来的高计算成本。

  4. 边缘优化:通过移除分布式焦点损失(DFL)并针对CPU 进行专项优化,YOLO26在边缘设备上的运行速度较前代提升高达43%,使其成为移动端部署的优选方案。
  5. 高级训练: 诸如MuSGD优化器(受LLM训练启发)和ProgLoss等功能,可确保训练过程稳定并加速收敛,从而降低模型开发的时间与成本。

结论

对于纯研究或要求高端GPU实现最高理论精度的场景,RTDETRv2是强有力的竞争者。对于严格受限的传统系统,需要绝对最小的卷积神经网络占用空间时YOLO仍具适用性。然而,对于绝大多数需要在速度、精度、通用性和部署便捷性之间取得平衡的实际应用场景Ultralytics 是推荐的解决方案。

探索其他对比,了解Ultralytics tralytics模型与 YOLOv8 和EfficientDet的对比情况。


评论