YOLO26 与 DAMO-YOLO 对比:推进实时目标 detect
在快速发展的计算机视觉领域中,选择合适的目标 detect 模型对于平衡准确性、速度和部署可行性至关重要。本文将对比YOLO26(Ultralytics 推出的最新边缘优化产品)和DAMO-YOLO(阿里巴巴集团开发的高性能 detect 器)。这两种模型都引入了重要的架构创新,但在部署流程中侧重于略微不同的优先级。
模型概述
Ultralytics YOLO26
YOLO26 代表着向简洁性和边缘效率的范式转变。该模型于 2026 年 1 月发布,旨在消除传统后处理的复杂性,同时在受 CPU 限制的设备上提供最先进的性能。它原生支持广泛的任务,包括目标 detect、实例 segmentation、姿势估计、分类以及旋转框检测 (OBB)。
- 作者:Glenn Jocher 和 Jing Qiu
- 组织:Ultralytics
- 日期:2026 年 1 月 14 日
- GitHub:Ultralytics 仓库
DAMO-YOLO
DAMO-YOLO 通过先进的神经架构搜索 (NAS) 和大量的重参数化,专注于优化速度和准确性之间的权衡。由阿里巴巴 TinyVision 团队开发,它引入了 RepGFPN 和 ZeroHead 等新颖组件,以最大限度地提高特征提取效率,主要针对通用 GPU 场景。
- 作者: Xianzhe Xu、Yiqi Jiang、Weihua Chen、Yilun Huang、Yuan Zhang 和 Xiuyu Sun
- 组织: 阿里巴巴集团
- 日期:2022年11月23日
- 预印本:DAMO-YOLO 论文
- GitHub:DAMO-YOLO 仓库
技术架构比较
端到端对比传统 NMS
最显著的操作差异在于预测的最终确定方式。
YOLO26 采用原生的端到端免 NMS 设计。通过直接从网络生成最终预测,它消除了对非极大值抑制 (NMS)的需求。这种去除后处理的方法减少了延迟变异性,并简化了部署流程,尤其是在树莓派或移动设备等边缘硬件上,NMS 操作可能成为瓶颈。这种方法在YOLOv10中成功开创,并在此处进行了改进。
DAMO-YOLO 依赖于更传统的密集预测头 (ZeroHead),需要 NMS 来过滤重叠的边界框。虽然有效,但这在推理过程中增加了一个计算步骤,其开销随检测到的对象数量而变化,可能在拥挤场景中引入延迟抖动。
训练创新:MuSGD 对比 NAS
YOLO26 引入了MuSGD 优化器,它是SGD和Muon的混合体。灵感来源于月之暗面 Kimi K2 等 LLM 训练突破,该优化器提供更稳定的训练动态和更快的收敛速度,使用户能够以更少的 epoch 达到最佳性能。
DAMO-YOLO 通过其 MAE-NAS 方法利用神经架构搜索 (NAS)来自动发现高效的骨干网络结构。它还采用了高效的 RepGFPN,这是一种重参数化颈部,可在多个尺度上融合特征。虽然功能强大,但与 Ultralytics 模型中手动设计、精简的模块相比,这些 NAS 派生架构有时修改或微调起来不那么直观。
损失函数
YOLO26 移除了分布焦点损失 (DFL),以简化导出到CoreML和TensorRT等格式的过程。取而代之的是,它使用ProgLoss和小目标感知标签分配 (STAL),这显著提升了小目标上的性能——这是航空影像和医学分析等领域的一个常见痛点。
DAMO-YOLO 利用AlignedOTA,这是一种标签分配策略,解决了分类和回归任务之间的错位问题。它专注于确保在训练期间将高质量的锚框分配给最相关的真实值。
YOLO26中的边缘优化
通过移除DFL和NMS,YOLO26实现了相比前几代高达43%的CPU推理速度提升。这使其特别适用于GPU资源不可用的“边缘AI”应用,例如设备上的智能停车管理。
性能指标
下表突出显示了性能差异。YOLO26展现出卓越的效率,尤其是在参数数量和FLOPs方面,同时保持了具有竞争力或更优的准确性。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
主要内容
- 效率:YOLO26n (Nano) 的参数量大约小3.5倍,FLOPs大约低3.3倍,相比DAMO-YOLOt,同时实现了可比的准确性。这种计算开销的显著降低使YOLO26更适合移动和物联网部署。
- 精度扩展:随着模型规模的扩大,YOLO26m的性能比DAMO-YOLOm高出近4.0 mAP,同时使用了更少的参数(20.4M vs 28.2M)。
- 速度:YOLO26在所有规模的T4 GPU上始终提供更快的推理时间,这对于视频分析等高吞吐量应用至关重要。
可用性与生态系统
简洁性和文档
……的标志之一是 Ultralytics 模型的易用性。YOLO26已集成到 ultralytics python包中,允许用户仅用几行代码即可训练、验证和部署模型。
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
相比之下,DAMO-YOLO是一个研究导向的仓库。尽管它提供了用于训练和推理的脚本,但它缺乏Ultralytics生态系统所提供的统一API、详尽的指南以及广泛的操作系统支持(Windows、Linux、macOS)。
部署与导出
YOLO26支持一键导出到10多种格式,包括ONNX、OpenVINO、CoreML和TFLite。这种灵活性对于从研究转向生产的工程师至关重要。移除DFL等复杂模块确保了这些导出模型具有鲁棒性,并与更广泛的硬件加速器兼容。
DAMO-YOLO依赖于特定的重参数化步骤,在导出时必须谨慎处理。如果未能正确地从训练模式“切换”到部署模式,模型性能可能会下降或无法运行,这增加了用户的复杂性。
实际应用案例
YOLO26 的理想应用场景
- 边缘设备与物联网:由于其极小的内存占用(起始参数量为2.4M),YOLO26非常适合功耗和RAM都有限的安防摄像头和无人机。
- 实时体育分析:无NMS设计确保了稳定的延迟,这对于在体育应用中跟踪快速移动物体至关重要。
- 多任务系统:由于YOLO26原生支持segmentation、姿势估计和obb,它是机器人操作等需要方向和抓取点的复杂流水线的首选。
DAMO-YOLO 的理想应用场景
- 学术研究:它采用NAS和先进的蒸馏技术,使其成为研究架构搜索方法论的强有力候选者。
- 高端GPU服务器:在硬件限制不存在且在特定基准测试中每一分准确度都至关重要的情况下,DAMO-YOLO的重型骨干网络可以得到有效利用。
结论
尽管DAMO-YOLO在2022年引入了架构搜索和重参数化方面的出色概念,但YOLO26代表了2026年的最先进水平。通过专注于端到端简洁性,移除NMS和DFL等瓶颈,并大幅减少参数数量,YOLO26为现代AI开发者提供了一个更实用、更快、更用户友好的解决方案。
对于今天寻求部署稳健计算机视觉解决方案的用户而言,与Ultralytics Platform的无缝集成以及巨大的每瓦性能效率使YOLO26成为明确的推荐。
延伸阅读
对于对其他架构方法感兴趣的用户,请查阅文档中的这些相关模型:
- YOLO11 - 前一代在多功能性和准确性方面的标准。
- RT-DETR - 一种基于Transformer的实时detect器,也提供无NMS推理。
- YOLOv10 - YOLO26中使用的端到端无NMS训练方法的先驱。