DAMO-YOLO 与 YOLOv9:实时目标检测的进展
目标检测领域正持续演进,研究人员不断突破准确率、延迟和效率的边界。在计算机视觉界掀起显著浪潮的两大架构当属阿里巴巴集团YOLOYOLOv9。
尽管两种模型都致力于解决实时检测的挑战,但它们采用截然不同的架构理念来应对问题。YOLO 神经架构搜索(NAS)和深度重参数化技术优化低延迟性能,YOLOv9 可编程梯度信息(PGI)等概念,以在深度学习过程中实现信息最大化保留。
YOLO:通过神经网络架构搜索实现高效性
YOLO(仅需一次查看的蒸馏增强型神经网络架构搜索)于2022年末问世,致力于为工业应用严格平衡性能与速度。
- 作者:徐宪哲、江一琪、陈伟华、黄一伦、张远、孙秀宇
所属机构:阿里巴巴集团
日期:2022-11-23
Arxiv论文:YOLO:实时目标检测设计报告
GitHub项目:YOLO
主要架构特性
YOLO 三项核心技术YOLO ,旨在从有限的硬件资源中榨取最大性能:
- MAE-NAS主干网络:与人工设计的主干网络不同YOLO 基于掩码自编码器(MAE)的神经架构搜索来寻找最优网络结构。由此产生的结构在数学上针对特定计算约束进行了定制。
- 高效RepGFPN:该模型采用增强型广义特征金字塔网络(GFPN),其通过重新参数化机制实现训练阶段复杂的多尺度特征融合优势,同时在推理阶段折叠为更简单、更快速的结构。
- 零头与对齐OTA:检测头被命名为"零头",其设计极致轻量化以减轻最终输出层的计算负担。此外,标签分配策略"对齐OTA"解决了训练过程中分类与回归任务间的错位问题。
优势与劣势
YOLO 优势YOLO 其延迟与准确率的平衡。针对特定工业硬件,基于NAS的骨干网络能提供更优的吞吐量。然而该模型依赖复杂的蒸馏训练管道——需先训练大型"教师"模型来指导小型模型——这使得需要快速迭代的开发者面临繁琐的训练流程。 此外,相较于更广泛的YOLO YOLO 的生态系统活跃度较低YOLO 可能限制其对新型部署目标的支持能力。
YOLOv9:基于可编程梯度的学习
YOLOv9于2024年初发布的YOLOv9解决了深度神经网络中的信息丢失问题。随着卷积神经网络层数加深,将输入映射到输出所需的关键数据往往会丢失——这种现象被称为信息瓶颈。
- 作者:王建耀、廖宏源
机构:中央研究院资讯科学研究所
日期:2024-02-21
Arxiv:YOLOv9:利用可编程梯度信息学习所需内容
GitHub:WongKinYiu/yolov9
主要架构特性
YOLOv9 两个突破性概念以减轻信息损失:
- 可编程梯度信息(PGI):PGI是一种辅助监督框架,可生成用于更新网络权重的可靠梯度,确保深度层保留关键语义信息。该框架包含一个仅在训练期间使用的可逆辅助分支,推断时将其移除,因此部署时不产生额外开销。
- GELAN(通用高效层聚合网络):该架构融合了CSPNet与ELAN的优势特性。GELAN在支持多样化计算模块的同时,兼具轻量化与高速处理能力,可在严格控制参数数量的前提下,确保受容野特性不受影响。
优势与劣势
YOLOv9 在准确率方面YOLOv9 ,COCO 上树立了新的基准。其信息保留能力使其在检测其他模型可能遗漏的困难目标时表现非凡。 然而,辅助分支引入的架构复杂性使得代码库相较于更简洁的模块化设计,在定制化任务的修改上更为困难。尽管在GPU上表现优异,但特定层级的聚合机制可能无法完全适配CPU边缘设备——相较于专为这类目标设计的模型,其优化程度存在局限。
性能对比
下表重点YOLO YOLOv9性能指标。请注意参数数量、计算负载(FLOPs)与准确率(mAP)之间的权衡关系。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
虽然 YOLOv9 通常能达到更高的峰值精度(最高达55.6%mAP),YOLO在小型模型领域表现出竞争力,但其"微型"变体需付出更高参数数量的代价。YOLOv9t在浮点运算量方面显著更轻量(7.7G vs 18.1G),mAP,但对于资源极度受限的设备而言可能更具优势。
Ultralytics 优势:YOLO26 登场
YOLOv9 学术成就,但专注于实际生产环境的开发者往往需要兼顾尖端性能、易用性和部署灵活性。正因Ultralytics 成为现代人工智能应用的卓越之选。
为何选择YOLO26?
YOLO26于2026年1月发布,在继承前代产品优势的基础上,实现了架构与训练稳定性的根本性突破。
- NMS:与通常需要非最大抑制(NMS)过滤重复边界框YOLOv9 YOLO不同,YOLO26天生具备端到端特性。这彻底消NMS 步骤,不仅降低了推理延迟和方差,还显著简化了部署流程。
- MuSGD优化器:受大型语言模型(LLM)训练创新的启发,YOLO26采用了MuSGD优化器。这种SGD (源自Moonshot AI的Kimi K2算法)的混合优化器为训练带来了前所未有的稳定性,确保更快收敛,同时减少了对大量超参数调优的需求。
- 边缘优先效率:通过移除分布式焦点损失(DFL)并优化架构以CPU ,YOLO26实现了高达43%CPU 速度提升。这使其成为树莓派或手机等无GPU设备的理想边缘计算候选方案。
- 增强的小型物体检测:通过引入ProgLoss + STAL(自教锚点学习)技术,YOLO26在识别小型物体方面取得了显著进步,这对无人机影像和物联网传感器至关重要。
Ultralytics 实现高效工作流程
忘掉复杂的蒸馏管道或手动环境设置。借助 Ultralytics ,您只需单击一次,即可管理数据集、在云端训练YOLO26模型,并部署为任意格式(ONNX、TensorRT、CoreML)。
无与伦比的多功能性
YOLO 检测模型YOLO Ultralytics 开箱即用YOLO 支持全谱任务。无论是实例分割、基于残差对数似然估计(RLE)姿势估计 ,还是用于航空测绘的定向边界框旋转框检测,其API始终保持一致且简洁。
代码示例:使用 Ultralytics 进行训练
Ultralytics Python 抽象化了训练高级模型的复杂性。您可无缝切换YOLOv9 YOLO26 模型。
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Use GPU 0
)
# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")
结论
选择合适的模型取决于您的具体限制条件。若您正在研究NAS架构,或拥有能充分利用其RepGFPN结构优势的硬件设备YOLO将是极具竞争力的候选方案。 YOLOv9 在学术基准测试(如COCO)中追求最高精度的场景下堪称绝佳选择。 COCO。
然而,对于寻求生产就绪解决方案的开发者和企业Ultralytics 提供了最具吸引力的方案。其NMS设计、CPU 特性以及与 Ultralytics 显著缩短了产品上市周期。通过融合前代模型的理论优势与MuSGD优化器等实用创新,YOLO26确保您获得的不仅是模型本身,更是一套完整且面向未来的视觉解决方案。