Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 对比 RTDETRv2#

计算机视觉领域发展迅速,为开发者构建强大的视觉应用提供了海量选择。在实时目标检测领域,关于卷积神经网络 (CNN) 和视觉 Transformer (ViT) 的探讨从未像现在这样激烈。本次技术对比将深入分析两大领先架构:YOLO11,代表了高度优化的 CNN 框架的巅峰;以及 RTDETRv2,这是 Detection Transformer 系列的强力迭代版本。

通过分析它们的架构、性能指标和理想部署场景,本指南旨在帮助机器学习工程师做出明智决策。虽然两款模型都在挑战准确性的极限,但 Ultralytics YOLO 模型通常能在实际生产中提供更优的性能平衡、生态系统支持和易用性。

Link to this sectionYOLO11:现实世界通用性的标杆#

由 Ultralytics 推出的 YOLO11 建立在多年基础研究之上,旨在提供一款速度快、准确度高且极其通用的模型。它原生支持处理 目标检测实例分割图像分类姿态估计定向边界框 (OBB) 提取任务。

了解更多关于 YOLO11 的信息

Link to this section架构与优势#

YOLO11 采用了精简的 CNN 主干和先进的空间特征金字塔,使其在资源效率方面表现卓越。它能在严格的硬件约束环境下稳定运行,在训练和推理过程中保持最低的内存占用。此外,Ultralytics Platform 为 YOLO11 提供原生支持,实现了模型监控、数据标注和云端训练的精简流程,无需手动拼凑各种 MLOps 工具。

对于目标定位于 边缘计算 的开发者来说,YOLO11 具有超低延迟的优势。其轻量级特性使其能够高效运行在各种设备上,从 Raspberry Pi 到消费级手机均可适用,使其成为智能零售、制造质量控制 和自动化交通管理的行业标准。

Link to this sectionRTDETRv2:百度的实时 Transformer#

RTDETRv2 (Real-Time Detection Transformer version 2) 代表了百度在让基于 Transformer 的架构适应实时任务方面的努力。它在原始 RT-DETR 的基础上,结合了“bag-of-freebies”方法,旨在提高基准准确度,同时不增加推理延迟。

了解更多关于 RTDETR 的信息

Link to this section架构与优势#

与传统 CNN 不同,RTDETRv2 采用带有自注意力机制的编码器-解码器架构,使其能够捕捉图像中的全局上下文。这在遮挡频繁的拥挤场景中尤为有利。RTDETRv2 取消了后处理中的非极大值抑制 (NMS),转而依赖训练期间的匈牙利匹配来实现一对一二分图匹配。

然而,Transformer 模型在 VRAM 和 CUDA 内存 方面的消耗是出了名的。从头开始训练 RTDETRv2 或在自定义数据集上进行微调,通常需要功能强大的高端 GPU 集群,这对于较小且敏捷的团队来说,可能是一道门槛,相比之下,Ultralytics 模型的训练开销则轻量得多。

Link to this section性能与指标分析#

当我们在标准的 COCO 数据集 上评估这些模型时,可以清楚地看到参数、FLOPs 和原始准确度之间的取舍关系。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Link to this section解析结果#

如表中所示,YOLO11 提供了卓越的性能与规模比例。YOLO11x 实现了更高的 mAPval (54.7),相比之下 RTDETRv2-x 为 54.3,同时使用的参数更少 (56.9M 对比 76M),计算 FLOPs 也大幅降低 (194.9B 对比 259B)。

此外,YOLO11 在 T4 TensorRT 上的推理速度极其迅速。YOLO11s 完成推理仅需 2.5ms,而最小的 RTDETRv2-s 则需要 5.03ms。这使得 YOLO11 成为高帧率、实时视频分析流的首选,在这些场景中,帧处理时间是主要的瓶颈。

Transformer 的成本

虽然 RTDETRv2 通过其注意力层获得了出色的准确度,但这些机制会随着图像分辨率的提高而呈二次方扩展,导致训练和推理期间的 VRAM 消耗增加。而 YOLO11 则通过其超高效的卷积模块规避了这一问题。

Link to this section训练生态系统与易用性#

采用 Ultralytics 模型的核心优势在于其周边的生态系统。训练 RTDETRv2 通常涉及浏览复杂的科研级代码库、调整精细的二分图匹配损失权重以及应对巨大的内存开销。

相反,Ultralytics 非常注重开发者的体验。统一的 Python API 抽象了样板代码,与 Weights & Biases 等工具无缝集成,便于进行 实验跟踪,并自动处理数据增强。

以下是使用 ultralytics 包训练和导出模型的简便方法:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

训练完成后,将 YOLO11 模型导出为 ONNXOpenVINOCoreML 等格式仅需一条命令,确保你的视觉流水线能够在各种硬件后端上轻松扩展。

多任务能力

请记住,虽然 RTDETRv2 仅专注于边界框检测,但 YOLO11 架构原生支持 姿态估计实例分割,让你能够将多种视觉任务整合到单一模型家族中。

Link to this section应用场景与建议#

在 YOLO11 和 RT-DETR 之间进行选择,取决于你的具体项目需求、部署约束和生态系统偏好。

Link to this section何时选择 YOLO11#

YOLO11 是以下场景的有力选择:

Link to this section何时选择 RT-DETR#

推荐使用 RT-DETR 的场景为:

  • 基于 Transformer 的检测研究: 探索注意力机制和 Transformer 架构以实现无 NMS 的端到端目标检测的项目。
  • 高精度、延迟要求宽松的场景: 将检测精度置于首位,且可以容忍稍高推理延迟的应用。
  • 大目标检测: 以中大型目标为主的场景,在这种场景下,Transformer 的全局注意力机制具有天然优势。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section展望未来:YOLO26 的力量#

尽管 YOLO11 是极佳的生产环境选择,但追求绝对前沿技术的团队应该认真考虑 YOLO26。YOLO26 发布于 2026 年 1 月,它通过将 端到端无需 NMS 设计 (最早在 YOLOv10 中引入) 直接集成到核心架构中,弥合了架构差距,彻底消除了后处理延迟和部署逻辑的复杂性。

YOLO26 还引入了一些革命性的功能:

  • MuSGD 优化器: 受 Moonshot AI 的 Kimi K2 的 LLM 训练技术启发,这种 SGD 和 Muon 的混合体确保了极其稳定的训练和显著加快的收敛速度。
  • DFL 移除: Distribution Focal Loss 已被移除,以实现更简洁的导出流程,极大地改善了低功耗边缘设备的兼容性。
  • ProgLoss + STAL: 这些先进的损失函数在小目标识别方面带来了显著改进,这对于无人机监控、农业监测 和物联网边缘传感器来说是关键需求。
  • 最高提升 43% 的 CPU 推理速度: 对于缺乏专用 GPU 的部署环境,YOLO26 专门针对 CPU 执行进行了优化,性能远超历代版本。

了解更多关于 YOLO26 的信息

对于那些有兴趣探索更广泛架构的开发者,Ultralytics 文档还提供了关于 YOLOv8、广受采用的 YOLOv5 以及诸如用于开放词汇检测的 YOLO-World 等专业模型的深入见解。归根结底,无论是优先考虑 YOLO11 久经考验的稳定性,还是 YOLO26 的突破性创新,Ultralytics 生态系统都提供了无与伦比的工具,助你实现计算机视觉解决方案。

评论