跳转至内容

YOLOX与DAMO-YYOLO对比:新一代目标检测架构解析

在计算机视觉快速发展的领域中,从锚点式检测器向无锚点检测器的转变标志着一个重要里程碑。塑造这一变革的两大杰出模型是YOLOX YOLO。本比较研究深入探讨了它们的架构创新、性能指标及训练方法,旨在帮助研究人员和工程师根据具体目标检测需求选择合适的工具。

性能基准

下表展示了YOLOX与YOLO 之间关键性能指标的直接对比。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOX:弥合研究与工业

YOLOXYOLO 的关键更新版本,通过采用无锚点机制并引入先进检测技术,有效缩短了学术研究与工业应用之间的转化周期。

作者: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
组织:旷视科技
日期: 2021-07-18
预印本:YOLOX: 2021 年超越 YOLO 系列
GitHub:Megvii-BaseDetection/YOLOX

架构与创新

YOLOX通过移除YOLOv4等早期版本中的锚点框而独树一帜, YOLOv5。其"解耦头部"架构将分类与定位任务分离,显著提升了收敛速度和准确率。

此外,YOLOX采用SimOTA动态标签分配策略,将训练过程视为最优运输问题。该策略使模型能够基于全局优化方案自动将正样本分配至真实标签,从而减少了启发式超参数调优的需求。

了解更多关于 YOLOX 的信息

DAMO-YOLO:神经网络架构搜索效率

YOLO 通过运用神经网络架构搜索(NAS)和深度重参数化技术,YOLO 延迟与准确性之间的权衡极限。

作者:徐宪哲、江一琪、陈伟华、黄一伦、张远、孙秀宇
所属机构:阿里巴巴集团
日期:2022-11-23
Arxiv论文:YOLO:实时目标检测设计报告
GitHub项目:YOLO

关键技术

YOLO 基于MAE-NAS的骨干网络,通过多目标进化搜索在特定延迟约束下寻找最优网络结构。该方法同时采用高效重参数化广义特征金字塔网络(RepGFPN)实现跨尺度特征的有效融合。

一个显著的特点是ZeroHead结构,它将检测头简化到最低复杂度,依靠强大的骨干网络和颈部结构承担主要任务。训练过程通过AlignedOTA技术增强标签分配,并引入蒸馏阶段——由更大的教师模型指导学生模型,确保即使是较小的模型变体也能实现高性能。

了解更多关于 DAMO-YOLO 的信息

Ultralytics 优势

虽然YOLOX和YOLO 为特定场景YOLO 强大的解决方案,但Ultralytics 则提供了一种全面、用户友好且高性能的替代方案,能够应对现代人工智能开发中的复杂性。

无缝衔接的易用性与生态系统

YOLO 模型的主要痛点之一YOLO 其训练方案的复杂性,通常涉及多阶段知识蒸馏或专用的神经架构搜索空间。相比之下Ultralytics 专为即时访问而设计。无论您使用的是 YOLO11 还是前沿的YOLO26,从数据集加载到模型导出,整个工作流都通过统一API完成。

开发者可Ultralytics 无缝管理数据集、可视化实验并部署模型。这种集成化方案消除了入门门槛,使团队能够专注于解决业务难题,而非耗费精力调试训练脚本。

YOLO26的性能平衡

对于追求速度与精确度巅峰的用户而言,YOLO26代表着当前最先进的技术水平。它在YOLOX(无锚点设计)和YOLOv10等模型的经验基础上进行创新, YOLOv10 (NMS)等模型的经验,实现了卓越的性能表现。

YOLO26创新:NMS

YOLO26天生具备端到端特性,无需进行非最大抑制(NMS)后处理。这极大简化了部署流程,尤其在边缘设备上,NMS 可能成为延迟瓶颈。

YOLO26的主要特点包括:

  • DFL移除:移除分布式焦点损失可简化模型图,便于导出至ONNX等格式 ONNXTensorRT等格式。
  • MuSGD优化器:融合了SGD Muon(受LLM训练启发)的混合算法,确保稳定收敛。
  • CPU :针对边缘计算进行架构优化,使CPU推理速度提升高达43%
  • ProgLoss + STAL:先进的损失函数,能显著提升小目标检测性能,这是无人机影像与机器人技术的重要需求。

跨任务多功能性

与主要专注于目标检测的YOLOXYOLO不同Ultralytics 本质上是多模态的。单个库支持:

这种多功能性使开发者能够处理复杂项目——例如利用姿势估计 分析体育运动中的球员动作机制——而无需更换框架。

训练效率与内存

Ultralytics 在设计上注重资源效率。相较于transformer大型transformer模型transformer训练过程,它们通常在训练阶段GPU 更少,例如 RT-DETR。这种高效性推动了人工智能的普及化进程,使得强大模型能够在标准消费级硬件上完成训练。

Ultralytics Python SDK训练先进的YOLO26模型是如此简单:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

了解更多关于 YOLO26 的信息

真实世界的应用

选择合适的模型通常取决于部署环境的具体限制条件。

工业质量控制

对于高速生产线而言YOLO凭借其在GPU 低延迟表现成为有力竞争者,使其适用于检测快速移动传送带上的缺陷。然而YOLO26在此场景中正日益受到青睐,因其NMS可确保确定性推理时间,从而避免可能导致机器人执行器失步的抖动现象。

边缘人工智能与移动设备

YOLOX-Nano因参数量极小,历来是移动应用的首选方案。如今,YOLO26n(Nano)提供了更优的替代方案:在保持类似模型规模的同时,其准确率更高, CPU 提升43%。这使其成为智能摄像头或农业传感器等电池供电设备的理想选择。

自主系统

在机器人技术和自动驾驶领域,处理不同物体尺度的能力至关重要。虽然YOLOX的解耦头部有所帮助, YOLO26通过ProgLoss + STAL的 实现显著提升了对远距离或小型物体(如交通标志或行人)的识别能力,从而增强了系统的整体安全性。

总结

YOLO 对目标检测技术的发展YOLO 重大贡献。前者推广了无锚框的范式,YOLO 则YOLO 神经架构搜索的强大能力。

然而,若寻求兼顾性能、易用性与部署灵活性的现代化未来解决方案Ultralytics 堪称佼佼者。其与更广泛的Ultralytics 深度集成、对多任务的支持以及简化的导出流程,使其成为学术研究与企业级应用的推荐之选。

访问Ultralytics ,开启您的训练之旅,充分挖掘这些模型的全部潜力。


评论