YOLO26与YOLOv9：实时目标检测的下一代进化

物体检测架构的演进历程始终贯穿着对速度、精度与效率的不懈追求。对比YOLO26与 YOLOv9 的对比便彰显了这种迅猛发展。YOLOv9 通过可编程梯度技术YOLOv9 信息保留的边界，而更新的YOLO26则以端到端、NMS架构重新定义了行业格局——该架构专为边缘性能优化，CPU 飞跃性CPU 。

模型概述

YOLO26

YOLO26代表了2026年初视觉人工智能领域的尖端水平。该模型由 Ultralytics公司开发，其原生端到端设计消除了非最大抑制（NMS）的必要性，从而简化了部署流程。通过移除分布式焦点损失（DFL）并整合创新的MuSGD优化器——这种SGD 训练启发的Muon算法的混合优化器——YOLO26在保持顶级精度的同时，实现了最高达43CPU 加速。

作者： Glenn Jocher, Jing Qiu
组织：Ultralytics
日期：2026 年 1 月 14 日
核心特性： NMS、MuSGD优化器、ProgLoss + STAL
GitHub:Ultralytics 仓库

了解更多关于 YOLO26 的信息

YOLOv9

于2024年初发布的 YOLOv9 引入了可编程梯度信息（PGI）概念及GELAN架构。这些创新解决了深度网络中的"信息瓶颈"问题，确保关键数据在前馈过程中不被丢失。该模型至今仍具备强大性能，尤其适用于要求高参数效率的研究场景。

作者： Chien-Yao Wang, Hong-Yuan Mark Liao
组织：中央研究院信息科学研究所
日期： 2024 年 2 月 21 日
关键特性：可编程梯度信息（PGI），GELAN架构
Arxiv:YOLOv9
GitHub：YOLOv9 仓库

了解更多关于 YOLOv9

技术架构比较

这两种模型的架构差异标志着从理论信息流优化向实际部署效率的转变。

YOLO26：效率与边缘优先设计

YOLO26专注于降低后处理和损失计算的计算开销。

端到端NMS：与输出冗余边界框需NMS的传统检测器不同，YOLO26可直接预测精确的物体集合。这既降低了延迟波动，又简化了向ONNX TensorRT等格式导出的流程——因为不再需要复杂的定制NMS 。
渐进式损失+软目标锚点标注：渐进式损失与软目标锚点标注技术的引入显著提升了小目标检测性能，这对无人机影像与机器人检测而言至关重要。
MuSGD优化器：将大型语言模型训练的创新成果引入计算机视觉领域，这款混合优化器能稳定训练动量，在减少超参数调优的同时实现更快收敛。

YOLOv9：信息保留

YOLOv9架构旨在解决深度神经网络中的信息衰减问题。

PGI（可编程梯度信息）：辅助监督分支生成可靠梯度用于更新网络权重，确保深层网络保留语义信息。
GELAN（通用高效层聚合网络）：该骨干网络通过优化参数利用率，YOLOv9 参数数量少于某些前代模型的情况下实现高精度，但通常需以更高的计算复杂度（浮点运算次数）为代价，相较于精简版的YOLO26更是如此。

部署简易性

NMS （NMS ）功能，彻底改变了边缘部署的格局。YOLOv9旧版模型中，CPU 模型GPU运行，NMS 仍需在CPU 上执行，CPU 形成性能瓶颈。而YOLO26的输出结果可立即投入使用，使其在树莓派和移动设备上的运行速度显著提升。

性能指标

下表展示了各模型在标准基准测试中的对比结果。值得注意的是，YOLO26在CPU 上展现出显著的速度优势，这直接得益于其架构优化。

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (毫秒)}	速度 ^{T4 TensorRT10 (毫秒)}	参数 ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Ultralytics生态系统优势

尽管YOLOv9 强大的理论基础，但在Ultralytics 中使用YOLO26能为开发者和企业带来显著优势。

无与伦比的易用性

Ultralytics Python 将复杂的训练工作流转化为寥寥数行代码。这种"零基础到高手"的体验，与众多其他仓库以研究为中心的设置形成鲜明对比。

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled by default
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

跨任务多功能性

与主要专注于检测任务的YOLOv9不同Ultralytics YOLO26原生支持更广泛的计算机视觉任务。这使您能够通过单一统一的API实现：

实例分割：精准像素级物体遮罩。
姿势估计：基于关键点检测的人体活动分析。
旋转框检测 Oriented Bounding Box）：检测卫星影像中船只等旋转物体。
分类：全图分类。

训练与记忆效率

Ultralytics 设计上注重资源效率。相较于transformer替代方案，YOLO26在训练过程中通常需要GPU （VRAM）。这种效率优势能够实现：

在消费级硬件上支持更大的批处理规模。
降低云计算成本。
借助现成的预训练权重，实现更快的实验周期。

真实世界的应用

选择合适的模型取决于您的具体部署限制。

边缘计算与物联网

YOLO26是边缘设备的绝对王者。 CPU 提升43%，使树莓派或NVIDIA Nano等设备无需深度量化即可实现实时监控。例如，基于本地硬件运行的智能停车系统因NMS而获益匪浅，显著降低了延迟突发。

高空检查

在基于无人机的农业监测或基础设施检测领域，YOLO26 凭借ProgLoss + STAL功能表现卓越。这些功能经过专门调优，能比前代产品更出色地处理小型物体和复杂纵横比，确保以更高召回率检测到管道裂缝或作物害虫。

学术研究

YOLOv9 仍是学术研究的有力候选方案，尤其适用于聚焦梯度流与网络架构理论的研究。其PGI概念为探索神经网络如何保持信息深度提供了引人入胜的途径。

结论

这两种架构都标志着计算机视觉领域的重要里程碑。YOLOv9 梯度信息在深度网络中的重要性，而YOLO26则将这些经验转化为可投入生产的强大引擎。凭借其端NMS 设计、卓越的CPU 以及与Ultralytics 无缝集成，YOLO26 为现代人工智能应用提供了速度、准确性和易用性之间的最佳平衡。

对于希望保持技术前沿的开发者，我们建议迁移至YOLO26，以充分利用优化器稳定性和边缘性能方面的最新进展。