跳转至内容

YOLOX vs. RTDETRv2:评估实时目标检测模型的演变

计算机视觉应用选择最佳架构,需要在准确性、推理速度和部署可行性之间进行仔细权衡。在这份全面的技术分析中,我们将探讨高度成功的无锚点CNN架构YOLOX与最先进的实时检测Transformer模型RTDETRv2之间的根本区别。

尽管这两种模型都为目标 detect领域做出了重大贡献,但构建生产就绪型应用的开发者通常会发现,像Ultralytics YOLO26这样的现代替代方案提供了卓越的训练效率、更低的内存需求以及更强大的部署生态系统。

YOLOX:弥合研究与工业之间的鸿沟

YOLOX作为YOLO系列中一个广受欢迎的无锚点改进版本而出现,引入了简化的设计,在发布时带来了令人印象深刻的性能提升。

  • 作者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, 和 Jian Sun
  • 组织:旷视科技
  • 日期:2021年7月18日
  • 链接:ArxivGitHub文档

架构创新

YOLOX 将 YOLO 系列转向无锚框范式,集成了分离头和先进的 SimOTA 标签分配策略。通过消除锚框,该架构显著减少了设计参数的数量,并提高了在各种基准数据集上的泛化能力。其轻量级版本 YOLOX-Nano 和 YOLOX-Tiny 成为在边缘设备上部署视觉 AI 应用的流行选择。

遗留考量

尽管YOLOX带来了显著的进步,但它对重度数据增强流水线和较旧的后处理例程(如传统NMS)的依赖可能导致相比于原生端到端模型更高的延迟。

了解更多关于 YOLOX 的信息

RTDETRv2:推进实时视觉 Transformer

RTDETRv2在其前身的基础上,利用视觉Transformer(ViTs)的强大功能,在不牺牲实时推理速度的情况下,实现了极具竞争力的精度。

  • 作者: Wenyu Lv、Yian Zhao、Qinyao Chang、Kui Huang、Guanzhong Wang 和 Yi Liu
  • 组织:百度
  • 日期: 2024-07-24
  • 链接:ArxivGitHub

架构创新

RTDETRv2 通过利用原生绕过非极大值抑制(NMS)的基于 Transformer 的架构,从根本上重构了检测流程。这通过混合编码器和 IoU 感知的查询选择实现,从而改善了对象查询的初始化。该模型有效处理多尺度特征,使其能够在复杂环境中捕捉精细细节,例如夜间交通视频检测

然而,Transformer 本质上是资源密集型的。训练 RTDETRv2 通常比基于 CNN 的替代方案需要更多的 GPU 内存和计算周期,这对于在严格预算限制下运作的团队或需要频繁模型调优的团队来说可能是一个障碍。

了解更多关于 RTDETR 的信息

性能比较表

为了客观地评估这些架构,我们会考察它们在COCO数据集上的性能。下表展示了准确性(mAP)、参数数量和计算复杂度之间的权衡。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

尽管 RTDETRv2 实现了令人印象深刻的准确性,但 YOLOX 在轻量级参数配置方面保持优势,尤其是在其 Nano 和 Tiny 变体中。

应用场景与建议

在YOLOX和RT-DETR之间做出选择取决于您的具体项目要求、部署限制和生态系统偏好。

何时选择 YOLOX

YOLOX是以下情况的有力选择:

  • 无锚点检测研究: 学术研究利用YOLOX简洁的无锚点架构作为基线,以实验新的检测头或损失函数。
  • 超轻量级边缘设备:部署到微控制器或传统移动硬件上,YOLOX-Nano 变体极小的占用空间(0.91M 参数)至关重要。
  • SimOTA 标签分配研究:研究基于最优传输的标签分配策略及其对训练收敛性的影响的项目。

何时选择 RT-DETR

RT-DETR 推荐用于:

  • 基于 Transformer 的 detect 研究:探索注意力机制和 Transformer 架构,以实现无需 NMS 的端到端目标 detect 的项目。
  • 精度优先且延迟灵活的场景:检测精度是首要任务,且可接受略高推理延迟的应用。
  • 大目标检测:主要包含中大型目标的场景,其中Transformer的全局注意力机制具有天然优势。

何时选择 Ultralytics (YOLO26)

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 免NMS的边缘部署:需要一致的低延迟推理,且无需非极大值抑制后处理复杂性的应用。
  • 纯CPU环境:在没有专用GPU加速的设备上,YOLO26高达43%的CPU推理速度提升提供了决定性优势。
  • 小目标 detect:无人机航拍图像 或物联网传感器分析等挑战性场景中,ProgLoss 和 STAL 显著提高了微小目标的准确性。

Ultralytics 优势:YOLO26

尽管YOLOX和RTDETRv2都提供了独特的优势,但新发布的Ultralytics YOLO26重新定义了视觉AI的最新技术水平,解决了速度、准确性和部署便捷性之间的历史权衡。

1. 端到端无 NMS 架构

YOLO26 从 Transformer 模型中汲取灵感,同时保留了 CNN 的效率,具有原生的端到端无 NMS 设计。通过消除作为后处理步骤的非极大值抑制,YOLO26 极大地简化了部署流程,确保在各种边缘设备上具有一致的推理延迟,而无需复杂的阈值调优开销。

2. 高达 43% 更快的 CPU 推理

与 RTDETRv2 等严重依赖高端 GPU 的 Transformer 架构不同,YOLO26 专门针对 边缘计算环境 进行了优化。通过移除分布焦点损失 (DFL),YOLO26 简化了模型导出,并实现了高达 43% 的 CPU 推理速度提升,使其成为集成到 树莓派 或标准移动设备等硬件中的理想选择。

3. 使用 MuSGD 提升训练效率

训练 Transformer 模型通常会导致过度的 CUDA 内存消耗 和训练时间过长。YOLO26 引入了新颖的 MuSGD 优化器—它是随机梯度下降 (Stochastic Gradient Descent) 与受 LLM 启发的 Muon 优化器的混合体。这项创新提供了极其稳定的训练和更快的收敛速度,与 RTDETRv2 相比,显著降低了硬件要求。

4. 无与伦比的生态系统和通用性

Ultralytics 生态系统 提供直观、流畅的开发者体验。凭借丰富的文档、活跃的社区支持以及云端驱动的 Ultralytics 平台,管理完整的 AI 生命周期从未如此简单。此外,YOLO26 功能高度多样化。虽然 RTDETRv2 专注于对象 detect,但 YOLO26 原生无缝支持 实例分割姿势估计图像分类旋转框检测 (OBB) 等任务。通过新的 ProgLoss + STAL 损失函数增强,YOLO26 在小目标识别方面也表现出色,这是 航空影像工业缺陷 detect 的关键功能。

其他支持的模型

Ultralytics 框架还支持上一代YOLO11YOLOv8,允许用户轻松地对传统管道进行基准测试和迁移。

与 Ultralytics 无缝集成

部署模型不应需要与复杂、碎片化的代码库作斗争。Ultralytics Python API 允许您仅需几行代码即可加载、训练和导出最先进的模型。

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

通过利用 Ultralytics,您可以避免通常与研究存储库相关的复杂环境配置,从而加快产品上市时间。

结论

YOLOX和RTDETRv2代表了实时目标检测发展中的重要里程碑。YOLOX证明了高效无锚点CNN的可行性,而RTDETRv2则成功地将Transformer适应于实时约束。

然而,对于从智能零售分析到嵌入式机器人等现代应用,Ultralytics YOLO26 提供了明确的解决方案。通过将免NMS推理与无与伦比的CPU速度、更小的内存占用以及Ultralytics Platform的强大支持相结合,YOLO26使开发者能够构建下一代可靠、高性能的计算机视觉系统。


评论