Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 与 YOLOv6-3.0#

计算机视觉领域在不断演进,为开发者在目标检测方面提供了多种架构选择。RTDETRv2(一种尖端的视觉 Transformer)和 YOLOv6-3.0(一种为工业应用量身定制且高度优化的卷积神经网络 (CNN))是代表两种不同路径的杰出模型。

这份详尽的技术对比分析探讨了它们的架构、性能指标以及理想的部署场景。我们还将考察更广泛的 Ultralytics 生态系统 如何提供卓越的开发者体验,并最终展望 Ultralytics YOLO26 的下一代能力。

Link to this sectionRTDETRv2:视觉 Transformer 方法#

RTDETRv2 由百度研究人员开发,它建立在原始 RT-DETR 的基础上,代表了基于 Transformer 的 目标检测 的重大飞跃。

Link to this section架构亮点#

RTDETRv2 采用了一种混合架构,将 CNN 特征提取器与强大的 Transformer 解码器相结合。该模型最鲜明的特点是其原生 NMS-free 设计。通过在后处理过程中消除非极大值抑制 (NMS),该模型可直接预测 BBox,从而简化了部署并稳定了推理延迟。

RTDETRv2 中整合的“Bag-of-Freebies”增强了其处理复杂场景和重叠对象的能力,因为全局注意力机制本质上比局部卷积更能理解空间关系。

Transformer 内存占用

尽管 Transformer 在处理复杂场景理解方面表现出色,但与 CNN 相比,它们在训练期间通常需要显著更高的 CUDA 内存。这可能会限制标准消费级 GPU 上的批次大小,并增加整体训练时间。

了解更多关于 RTDETR 的信息

Link to this sectionYOLOv6-3.0:工业吞吐量最大化#

YOLOv6-3.0 源自美团视觉 AI 部门,其明确的设计目标是作为工业流水线的下一代检测器,在这些场景中 GPU 吞吐量至关重要。

  • 作者:Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu 和 Xiangxiang Chu
  • 组织:美团
  • 日期:2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

Link to this section架构重心#

YOLOv6-3.0 依赖于 EfficientRep 主干网络,该网络经过精心设计,旨在最大限度地降低 NVIDIA GPU 等硬件加速器上的内存访问成本。其颈部架构采用了双向拼接 (BiC) 模块,以改善不同尺度下的特征融合。

在训练期间,它采用锚点辅助训练 (AAT) 策略,既能利用基于锚点范式的优势,又能在推理模式下保持无锚点以实现更快的执行速度。虽然它在服务器级 GPU(如 T4、A100)上实现了卓越的吞吐量,但其专用架构在部署于纯 CPU 边缘设备时可能会导致次优的延迟。

了解更多关于 YOLOv6 的信息

Link to this section性能比较#

在评估生产模型时,平衡准确性 (mAP) 与推理速度及计算成本 (FLOPs) 至关重要。下表展示了这些模型的对比情况。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

虽然 YOLOv6-3.0 在 TensorRT 上的纯处理速度方面占主导地位,但 RTDETRv2 捕获了更高的 mAP 分数,特别是在扩展到更大的模型变体时表现更好。然而,这两种模型都缺乏现代统一框架所具备的广泛通用性。YOLOv6-3.0 主要是一个检测专家,开箱即用时缺失对 实例分割姿态估计 等任务的原生支持。

Link to this section应用场景与建议#

在 RT-DETR 和 YOLOv6 之间做出选择取决于你的具体项目需求、部署约束和生态系统偏好。

Link to this section何时选择 RT-DETR#

RT-DETR 在以下情况是一个强有力的选择:

  • 基于 Transformer 的检测研究: 探索注意力机制和 Transformer 架构以实现无 NMS 的端到端目标检测的项目。
  • 高精度、延迟要求宽松的场景: 将检测精度置于首位,且可以容忍稍高推理延迟的应用。
  • 大目标检测: 以中大型目标为主的场景,在这种场景下,Transformer 的全局注意力机制具有天然优势。

Link to this section何时选择 YOLOv6#

YOLOv6 推荐用于:

  • 工业级硬件感知部署: 在这种场景下,模型对硬件的感知设计和高效重参数化可在特定目标硬件上提供优化的性能。
  • 快速单阶段检测: 在受控环境中,优先考虑 GPU 上的原始推理速度以进行实时视频处理的应用。
  • 美团生态系统集成: 已经在 美团 技术栈和部署基础设施内工作的团队。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this sectionUltralytics 的优势#

选择合适的模型不仅仅看原始基准数据;开发者体验、部署灵活性和生态系统支持同样关键。通过使用集成在 Ultralytics 平台内的模型,用户相比静态研究仓库可以获得显著优势。

  • 易用性: ultralytics Python 包提供了无缝的 API。训练、验证和导出模型只需几行代码。
  • 维护良好的生态系统: 与孤立的学术仓库不同,Ultralytics 平台 会主动更新。它拥有针对 ONNXOpenVINO 和 CoreML 等工具的强大集成。
  • 训练效率: 与 RTDETRv2 等 Transformer 架构相比,Ultralytics 模型在训练期间通常消耗显著更低的 VRAM,从而允许在消费级硬件上使用更大的批次大小。
  • 通用性: 与 YOLOv6-3.0 的专注范围不同,Ultralytics 模型是多模态的,在一个统一的框架内原生支持 图像分类旋转边界框 (OBB) 和分割任务。
精简的部署

使用 Ultralytics CLI,为边缘部署导出已训练的模型就像运行以下命令一样简单:yolo export model=yolo11n.pt format=tensorrt

Link to this section登场 YOLO26:终极解决方案#

虽然 RTDETRv2 和 YOLOv6-3.0 提供了特定的优势,但该领域发展迅速。对于开始新计算机视觉项目的团队,我们强烈推荐 Ultralytics 于 2026 年 1 月发布的 YOLO26

YOLO26 综合了工业 CNN 和现代 Transformer 的优势,同时消除了它们各自的弱点:

  • 端到端 NMS-free 设计: 采用 YOLOv10 中首次引入的突破性技术,YOLO26 原生消除了 NMS 后处理,确保了与 RTDETRv2 类似的稳定、可预测的部署,但开销更小。
  • MuSGD 优化器: 受高级 LLM 训练技术(如 Moonshot AI 的 Kimi K2)启发,这种混合优化器确保了稳定的训练和更快的收敛,克服了传统视觉 Transformer 众所周知的训练不稳定问题。
  • 针对边缘侧优化: 相比前几代产品,其 CPU 推理速度提升高达 43%,并策略性地移除了分布式焦点损失 (DFL),YOLO26 非常适合在没有 GPU 加速的移动设备和 IoT 设备上运行。
  • ProgLoss + STAL: 这些先进的损失函数在小目标识别方面产生了显著的改进,这是 CNN 历史上的一个难题,使得 YOLO26 成为航空影像和机器人技术的理想选择。

Link to this section训练示例#

直观的 Ultralytics API 允许你无缝训练尖端模型。下方是一个可运行的示例,演示了如何在 COCO8 数据集 上训练 YOLO26 Nano 模型:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Link to this section总结#

在比较 RTDETRv2 和 YOLOv6-3.0 时,决策很大程度上取决于你的具体硬件和延迟限制。RTDETRv2 在研究环境和服务器端处理中表现突出,这些场景中处理复杂重叠对象至关重要。而对于配备强大 NVIDIA GPU 的高吞吐量生产线,YOLOv6-3.0 仍然是一个强有力的选择。

然而,对于寻求鱼和熊掌兼得的开发者而言——既结合了 Transformer 的 NMS-free 优雅特性,又拥有 CNN 的惊人速度和低内存占用——YOLO26 是无可匹敌的。在 Ultralytics 生态系统 完善的文档和活跃社区的支持下,YOLO26 确保了你的视觉 AI 项目具备鲁棒性、可扩展性且面向未来。

评论