YOLOX 与 YOLO26:从无锚点(Anchor-Free)到端到端(End-to-End)目标检测的演进
过去十年,计算机视觉领域见证了令人惊叹的变革。这一旅程中的两个重要里程碑分别是 YOLOX 的发布(它普及了无锚点架构)以及最近推出的 Ultralytics YOLO26,后者凭借原生的端到端、无需 NMS 的设计重新定义了实时性能。这份综合对比探讨了它们的架构、性能指标和理想部署场景,旨在帮助你为下一个 AI 项目做出明智的决策。
模型概览
理解每个模型的起源和主要设计目标,能为理解它们各自的技术成就提供必要的背景。
YOLOX
作者:Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
组织:Megvii
日期:2021-07-18
Arxiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
文档:YOLOX ReadTheDocs
YOLOX 在 2021 年年中推出,它通过采用无锚点设计,结合解耦头(decoupled head)和名为 SimOTA 的先进标签分配策略,代表了一次重大转变。通过摒弃统治了先前架构的传统锚框(anchor box)机制,YOLOX 成功弥合了学术研究与工业应用之间的鸿沟,为 object detection 提供了一个优雅且高效的框架。
YOLO26
作者:Glenn Jocher and Jing Qiu
组织:Ultralytics
日期:2026-01-14
GitHub:ultralytics/ultralytics
平台:Ultralytics Platform
于 2026 年初发布的 YOLO26 是多年迭代改进的结晶,它极其专注于边缘侧部署和简化的训练流程。它引入了端到端无 NMS 设计,彻底消除了传统的非极大值抑制(Non-Maximum Suppression)后处理步骤。这一突破极大地简化了模型在各类硬件上的部署。此外,通过移除分布焦点损失(DFL)模块,YOLO26 实现了显著更低的延迟,巩固了其作为现代 computer vision applications 首选模型的地位。
架构创新
这两个模型的架构凸显了深度学习方法论的快速进步,特别是在损失函数和后处理方面。
YOLOX 的方法
YOLOX 在其预测头中将分类和回归任务解耦,这显著加快了训练过程中的收敛速度。其无锚点特性减少了设计参数的数量,降低了训练前进行复杂锚点调参的需求。结合 SimOTA 标签分配算法,YOLOX 在当时取得了最先进的结果,尤其是在 COCO dataset 等标准基准测试中。
YOLO26 的优势
YOLO26 将架构效率提升到了新的高度。移除 NMS 不仅降低了推理延迟,还确保了执行时间的一致性和确定性——这对 autonomous vehicles 和机器人技术而言是至关重要的因素。
YOLO26 的关键创新包括:
- MuSGD 优化器: 受大语言模型(LLM)训练技术的启发,这种 SGD 和 Muon 的混合体确保了训练过程极其稳定,且收敛速度更快。
- CPU 推理速度最高提升 43%: 通过消除 DFL 并精简网络架构,YOLO26 针对资源受限的边缘设备进行了深度优化,从简单的物联网传感器到 Raspberry Pi 开发板都能胜任。
- ProgLoss + STAL: 这些高级损失函数在小目标识别方面带来了显著提升,这对于分析 aerial imagery 以及在 manufacturing automation 中进行精确的质量控制至关重要。
如果你的项目针对的是没有专用 GPU 的嵌入式系统或移动应用,YOLO26 优化的 CPU 性能提供了巨大的优势,其计算开销远低于早期一代模型。
性能与基准测试
在评估生产环境模型时,分析精度、速度和计算复杂度之间的平衡至关重要。以下是在 640 像素(nano/tiny 变体为 416 像素)图像尺寸下评估的标准模型详细对比。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
正如表格所示,YOLO26 系列提供了卓越的性能平衡。例如,YOLO26x 在参数量仅为 YOLOXx 模型约一半的情况下,实现了惊人的 57.5 mAP,这直接转化为更快的 GPU 推理时间(11.8 毫秒 vs 16.1 毫秒)以及更强的部署灵活性。
训练与生态系统体验
这些架构之间最深刻的区别之一在于它们的易用性和生态系统支持。
虽然 YOLOX 仍然是研究梯度流和无锚点机制的研究人员的基础代码库,但其设置可能较为复杂,通常需要手动配置依赖项和算子。相比之下,Ultralytics ecosystem 定义了易用性的行业标准。
通过使用统一的 Python API,你可以以前所未有的简便性初始化、训练和部署 YOLO26 模型。系统原生处理数据集下载、超参数调优,并能无缝导出为 ONNX、TensorRT 和 OpenVINO 等格式。
from ultralytics import YOLO
# Initialize the cutting-edge, end-to-end YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with built-in MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance on the validation set
metrics = model.val()
# Export the optimized model for edge deployment
model.export(format="onnx")此外,与繁重的基于 Transformer 的替代方案相比,Ultralytics YOLO 模型在训练期间的内存需求显著降低,使工程师即使在消费级硬件上也能训练更大的 batch size。
现实世界应用
在 YOLOX 和 YOLO26 之间进行选择,最终取决于你的部署限制和多任务需求。
YOLOX 的优势所在
YOLOX 仍然是特定学术基准和深度集成 MegEngine 框架的遗留系统的可行选择。其历史意义使其成为研究 anchor-free detectors 和自定义分配策略的热门基准。
YOLO26 的优势所在
YOLO26 从根本上是为现代工业应用而设计的。由于它原生支持 instance segmentation、pose estimation 和 Oriented Bounding Boxes (OBB),它比标准的检测引擎通用得多。
- 智慧零售与库存: 利用无 NMS 设计,确保自动结账系统以超低延迟处理视频流,在没有后处理循环瓶颈的情况下识别商品。
- 无人机与航拍分析: 针对 OBB 的专门角度损失以及 ProgLoss + STAL 的集成,使 YOLO26 在检测大范围卫星图像中的旋转物体和微小物体方面具有无与伦比的优势。
- 边缘安全系统: 凭借其 CPU 推理速度提升 43% 的优势,YOLO26 允许公司将强大的安全分析直接部署在廉价的本地硬件上,而无需昂贵的云端算力。
用例与建议
在 YOLOX 和 YOLO26 之间进行选择取决于你的具体项目需求、部署约束和生态系统偏好。
何时选择 YOLOX
YOLOX 是以下场景的有力选择:
- 无锚框检测研究: 使用 YOLOX 简洁的无锚框架构作为基准,进行新检测头或损失函数实验的学术研究。
- 超轻量级边缘设备: 部署在微控制器或旧款移动硬件上,此时 YOLOX-Nano 变体极小的空间占用(0.91M 参数)至关重要。
- SimOTA 标签分配研究: 调查基于最优传输的标签分配策略及其对训练收敛影响的研究项目。
何时选择 YOLO26
YOLO26 推荐用于:
- 无需 NMS 的边缘部署: 需要持续、低延迟推理且无需复杂非极大值抑制后处理的应用。
- 仅 CPU 环境: 在没有专用 GPU 加速的设备上,YOLO26 的 CPU 推理速度提升高达 43%,这提供了决定性优势。
- 小目标检测: 具有挑战性的场景,如 航拍无人机图像 或 IoT 传感器分析,ProgLoss 和 STAL 在小目标上显著提升了准确性。
探索其他 Ultralytics 模型
如果你正在探索计算机视觉的演进,Ultralytics 家族中还有其他非常有能力且值得研究的模型:
总而言之,虽然 YOLOX 为目标检测领域引入了关键概念,但新的 YOLO26 在速度、精度和部署简洁性上实现了代际跨越,使其成为前瞻性开发人员和企业的最终选择。