YOLOX与RT-DETRv2:在传统架构与Transformer 间寻求平衡
选择最优目标检测架构是影响计算机视觉项目延迟、准确性和可扩展性的关键决策。本技术分析对比了2021年提出的稳健无锚点CNN基线模型YOLOX与RT-DETRv2——一款专为实时应用优化的前沿transformer——进行对比分析。
尽管这两种模型在其发布时都代表了重大飞跃,但现代工作流程日益需要兼具高性能与易部署性的解决方案。在本对比中,我们还将探讨Ultralytics 将这些架构的优势特性——例如NMS——融合为单一高效的框架。
性能基准
下表展示了关键指标的直接对比。需注意,RT-DETRv2 更高的平均精度(mAP),但其所需计算资源显著增加,这从浮点运算次数(FLOPs)数据中可见一斑。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX:无锚框先驱
YOLOX 由旷视科技研究人员于2021年提出,标志着该模型摆脱了YOLO (如YOLOv4YOLOv5)所依赖的锚点机制。通过移除锚框并引入解耦头部——该设计将分类与定位任务分离以提升收敛效率——YOLOX实现了架构的精简。
- 作者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, 和 Jian Sun
- 组织: Megvii
- 日期:2021年7月18日
- Arxiv:YOLOX:2021 年超越 YOLO 系列
- GitHub:Megvii-BaseDetection/YOLOX
架构与优势
YOLOX采用SimOTA(简化最优运输分配)标签分配策略,该策略能动态将正样本分配至真实目标。相较于IoU阈值的方法,此策略使模型能更有效地处理遮挡现象及不同尺度目标。
该架构的简洁性使其成为学术研究中备受青睐的基础模型。其"解耦头部"设计——在独立分支中分别处理分类与回归特征——显著提升了训练稳定性和准确性。
传统兼容性
YOLOX仍是针对2021年左右代码库构建的传统系统,或需要干净无锚点的卷积神经网络基线来测试新理论组件的研究人员的强力选择。
然而,相较于现代迭代版本,YOLOX依赖非最大抑制(NMS)进行后处理。这一步骤引入了延迟变异性,使得其在严格实时工业应用中的可预测性低于新型端到端模型。
RT-DETRv2:实时变压器
RT-DETRv2 实时Transformer (Real-Time DetectionTransformer )是百度开发的RT-DETR进化版本。它通过采用高效的混合编码器快速处理多尺度特征,解决了视觉变换器(ViTs)通常伴随的高计算成本问题。
- 作者: Wenyu Lv, Yian Zhao, Qinyao Chang, 等
- 组织: Baidu
- 日期:2023年4月17日(v1),2024年7月24日(v2)
- Arxiv:RT-DETRv2:带有 Bag-of-Freebies 的改进基线
- GitHub:lyuwenyu/RT-DETR
架构与创新
RT-DETRv2 的核心特征RT-DETRv2 其NMS推理机制 RT-DETRv2 通过采用带目标查询transformer ,该模型可直接预测固定数量的边界框。这消除了NMS依赖,不仅简化了部署流程,还能确保无论场景中物体数量多少,推理时间始终保持稳定。
RT-DETRv2 灵活的混合编码器和优化的不确定性量化技术,在前代模型基础上RT-DETRv2 使其COCO 达到更高精度(最高达54.3%mAP)。
资源密集度
尽管准确性RT-DETRv2 transformer 却对内存需求极高。训练过程通常需要远超基于卷积神经网络(CNN)CUDA GPU (如标准CPU)上的推理速度可能因注意力机制的复杂性而显得迟缓。
Ultralytics 优势:为何选择 YOLO26?
YOLOX作为可靠的研究基准RT-DETRv2 transformer 边界Ultralytics 则提供了一种兼顾两者优势的解决方案。Ultralytics 专为需要尖端性能却又无需处理实验性仓库复杂性的开发者而设计。
原生端到端且无NMS
NMSOLO26 采用了由 YOLOv10RT-DETR 将其实现于高效的卷积神经网络(CNN)架构中。这意味着您既能RT-DETRv2简化部署优势——无需复杂后处理逻辑——又能享受CNN的原始运算速度。
边缘计算的无与伦比的效率
RT-DETRv2中笨重的transformer 不同,YOLO26针对多样化硬件进行了优化。
- DFL移除:通过移除分布式焦点损耗,模型结构得以简化,从而增强了与边缘加速器和低功耗设备的兼容性。
- CPU : YOLO26在CPU上的推理速度较前代提升高达43%,使其成为GPU不可用场景下边缘AI部署的优选方案。
高级训练动力学
YOLO26集成了MuSGD优化器,该算法融合了SGD 大型语言模型训练启发的Muon优化器。这项创新将大型语言模型训练的稳定性引入计算机视觉领域,从而实现更快的收敛速度和更稳健的权重。此外,改进的损失函数(如ProgLoss和STAL)显著提升了对小目标的识别性能——这正是YOLOX等旧版模型普遍存在的弱项。
Ultralytics 实现无缝工作流
或许最大的优势Ultralytics 。当YOLOX和RT-DETRv2 在分散的GitHub代码库间Ultralytics 统一的操作界面。用户可自由切换任务——检测、分割、姿势估计 、分类以及 旋转框检测——只需更改模型名称即可。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
结论
对于需要纯卷积神经网络基线的学术研究,YOLOX仍是可行的选择。GPU 充足且仅以最高精度为评估标准的场景中, RT-DETRv2 堪称强劲竞争者。然而对于需要兼顾速度、精度与维护便捷性的实际生产Ultralytics 才是首选方案——它以符合现代部署需求的效率,提供新一代端到端能力。
延伸阅读
要Ultralytics 其他高性能模型,请查看:
- YOLO11:一款支持多种视觉任务的稳健通用模型。
- YOLOv10:首个引入实时端到端目标检测YOLO 。
- RT-DETR:我们Transformer 偏好transformer的用户实现的实时检测Transformer 模型。