Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 与 YOLOX 对比#

计算机视觉领域发展迅速,为开发者和研究人员在构建视觉系统时提供了丰富的架构选择。此进程中两个值得注意的里程碑分别是基于 Transformer 的 RTDETRv2 和基于 CNN 的 YOLOX。尽管这两个模型都为实时目标检测领域做出了重大贡献,但它们在解决视觉识别问题时采用了截然不同的方法。

本综合指南探讨了这两种模型的架构细微差别、性能指标和理想部署场景。此外,我们还将审视像前沿的 Ultralytics YOLO26 这样的现代替代方案如何以此为基础,提供卓越的准确性、效率和易用性。

Link to this sectionRTDETRv2:实时检测 Transformer#

作为原始 RT-DETR 的继任者,RTDETRv2 利用 Transformer 架构实现了高性能的实时目标检测。通过消除对非极大值抑制(NMS)的需求,它简化了推理流程。

Link to this section架构与设计#

RTDETRv2 在很大程度上依赖于 Transformer 固有的自注意力机制,使模型能够捕捉整个图像的全局上下文。这种整体理解使它能够直接预测边界框和类别概率。它引入了多尺度检测特征,增强了其在杂乱环境中识别小物体的能力。

Transformer 瓶颈

虽然 Transformer 在捕捉全局上下文方面表现出色,但其自注意力机制随序列长度呈平方级增长,与传统 CNN 相比,在训练过程中通常会导致显著更高的 CUDA 内存消耗。

Link to this section优势与不足#

RTDETRv2 的主要优势在于其原生的端到端设计。通过跳过 NMS,它避免了通常与密集重叠预测相关的延迟峰值。然而,其 Transformer 模块沉重的计算占用意味着它对训练和部署的 GPU 资源都有很高的要求。这使得它不太适合资源受限的边缘设备或旧版移动硬件。

了解更多关于 RTDETRv2 的信息

Link to this sectionYOLOX:推进无锚框(Anchor-Free)CNN#

为了弥合学术研究与工业应用之间的差距,YOLOX 为流行的 YOLO 系列模型引入了解耦头(decoupled head)和无锚框设计。

  • 作者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
  • 组织: Megvii
  • 日期: 2021年7月18日
  • 链接: Arxiv 论文官方 GitHub文档

Link to this section架构与设计#

YOLOX 通过直接预测物体位置而无需预定义的锚框,摒弃了传统的基于锚框的检测器。这简化了网络设计,并减少了实现最佳性能所需的启发式调整参数数量。此外,YOLOX 采用了将分类和回归任务分离的解耦头,从而提高了训练过程中的收敛速度。

Link to this section优势与不足#

YOLOX 的无锚框特性使其能够高度适配各种 计算机视觉 任务,并且在自定义数据集上更易于训练。其较轻量的变体(如 YOLOX-Nano)非常适合在微控制器和低功耗 IoT 设备上部署。然而,由于 YOLOX 早于 NMS-free 革命,它仍然依赖于传统的后处理,这在密集场景中可能会带来部署摩擦和更高的延迟。

了解更多关于 YOLOX 的信息

Link to this section性能与指标对比#

在比较这些模型时,评估它们的速度、准确性和参数效率对于确定最适合你的特定用例至关重要。下表概述了各种模型尺寸在标准 COCO 数据集上的性能。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

从数据中可以看出,与 YOLOXx 相比,RTDETRv2 在其最大变体上达到了更高的最高准确率(54.3 mAP)。然而,YOLOX 提供了更小、更快的变体,例如 YOLOXs,它在 NVIDIA T4 GPU 上拥有更低的参数计数和更快的推理速度。

Link to this sectionUltralytics 的优势:了解 YOLO26#

尽管 RTDETRv2 和 YOLOX 都提供了独特的优势,但现代开发者通常需要一个能兼顾两者长处的统一解决方案——即高准确性、极快的推理速度以及易于访问的生态系统。新发布的 Ultralytics YOLO26 代表了这一演进的顶峰。

Link to this sectionYOLO26 的核心创新#

  • 端到端无 NMS 设计: 基于 YOLOv10 中首次提出的概念,YOLO26 原生运行且无需 NMS。这提供了与 RTDETRv2 无异的无缝推理体验,同时消除了 Transformer 对内存的严苛要求。
  • MuSGD 优化器: 受大语言模型训练创新的启发,混合型 MuSGD 优化器(结合了 SGD 和 Muon)稳定了训练过程并显著加速了收敛。
  • CPU 推理速度提升高达 43%: 通过策略性地移除分布焦点损失(DFL)模块,YOLO26 专门针对边缘计算和低功耗设备进行了优化,使其在 CPU 上的速度比 YOLO11 等前代产品快得多。
  • ProgLoss + STAL: 这些先进的损失函数在小物体识别方面取得了显著改进,解决了航空影像和 机器人应用 中常见的痛点。

Link to this section无与伦比的多功能性和生态系统#

除了原始性能外,Ultralytics Platform 还提供了一个全面的、从零到生产的生态系统。与静态的学术存储库不同,Ultralytics 模型保持活跃维护,并通过单一、直观的 API 无缝支持多项任务。无论你是进行 实例分割、通过 姿态估计 追踪姿态,还是处理带有 旋转边界框 (OBB) 的旋转物体,工作流程始终保持一致。

此外,Ultralytics 模型以其在训练和推理过程中极低的内存需求而闻名,使研究人员能够在消费级硬件上运行更大的批量大小——这与 Transformer 架构的沉重负载形成了鲜明对比。

Link to this section训练代码示例#

Ultralytics 生态系统的强大之处在于其简单性。训练一个最先进的 YOLO26 模型仅需几行代码,完全抽象了数据加载和超参数配置的复杂性。

from ultralytics import YOLO

# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)

Link to this section现实应用与理想用例#

选择正确的架构完全取决于你的部署约束和硬件可用性。

Link to this section高保真云端处理#

如果你的应用程序运行在高端服务器 GPU 上,并且优先考虑最高准确性(例如分析密集人群场景或处理高分辨率医学影像),那么 RTDETRv2 的强大注意力机制可能会非常有效。

Link to this section遗留边缘部署#

对于在旧款手机或高度受限的微控制器上的部署,如果对最小化 FLOPs 有严格要求,得益于其简单的 CNN 架构,超轻量级的 YOLOX-Nano 仍然是一个可行的后备选择。

Link to this section现代标准:AIoT 与机器人技术#

对于绝大多数现代用例——涵盖 智慧城市基础设施零售分析 和自主导航——Ultralytics YOLO26 是绝对的首选。它快 43% 的 CPU 推理速度使其在边缘计算中表现无与伦比,而其无 NMS 的设计保证了低且一致的延迟。当配合 Ultralytics 生态系统全面的文档和活跃的社区支持时,它使团队能够比以往任何时候都更快地从数据集标注转为全球部署。

简化你的工作流

准备好提升你的计算机视觉项目了吗?探索 Ultralytics Platform 的全面功能,轻松管理数据、在云端训练模型并大规模部署智能应用。

对于寻求在 Ultralytics 生态系统中探索其他架构的开发者,你也可以考虑查看 YOLOv8 以获取深度建立的社区集成,或者查看 YOLOv5 以获得旧版流水线中无与伦比的稳定性。然而,对于突破 2026 年可能性的边界而言,YOLO26 仍然是行业标准。

评论