Link to this sectionYOLOv9 与 YOLO26#

过去几年中，实时目标检测的领域发生了显著演变。随着机器学习从业者寻求将模型部署到各种硬件上，选择正确的架构至关重要。在这份详尽的技术指南中，我们将比较计算机视觉领域的两个重大里程碑：2024 年初推出的 YOLOv9，它专注于梯度路径优化；以及 Ultralytics YOLO26，这是 2026 年初发布的最新前沿框架，它彻底重新定义了边缘推理和训练稳定性。

Link to this section执行摘要：模型血统与作者#

了解这些深度学习模型的起源，能为理解其架构设计选择和目标受众提供有价值的背景信息。

Link to this sectionYOLOv9#

YOLOv9 由来自台湾中央研究院信息科学研究所的 Chien-Yao Wang 和 Hong-Yuan Mark Liao 开发，于 2024 年 2 月 21 日发布。该模型侧重于理论深度学习概念，专门解决深度卷积神经网络 (CNN) 中的信息瓶颈问题。

了解更多关于 YOLOv9 的信息

Link to this sectionUltralytics YOLO26#

YOLO26 由 Ultralytics 的 Glenn Jocher 和 Jing Qiu 开发，于 2026 年 1 月 14 日发布。基于 YOLO11 和 YOLOv8 等前代模型的巨大成功，YOLO26 从零开始设计，旨在优先考虑生产就绪性、边缘部署和原生端到端效率。

了解更多关于 YOLO26 的信息

立即尝试 YOLO26

准备好升级你的计算机视觉流水线了吗？你可以使用 Ultralytics Platform 轻松地在云端训练和部署 YOLO26 模型，而无需编写任何代码。

Link to this section架构创新#

两个模型都为神经网络处理视觉数据的方式带来了突破性的变革，但它们从不同的角度解决了这个问题。

Link to this sectionYOLOv9 中的可编程梯度信息#

YOLOv9 对该领域的主要贡献是引入了 可编程梯度信息 (PGI) 和 广义高效层聚合网络 (GELAN)。随着神经网络变得越来越深，它们在正向传播过程中往往会遭受信息丢失。PGI 确保了反向传播期间用于更新权重的梯度保持准确和可靠，从而使 GELAN 架构能以更少的参数实现高精度。

然而，YOLOv9 在后处理方面严重依赖传统的非极大值抑制 (NMS)，这在实际推理过程中可能会成为延迟瓶颈。

Link to this sectionYOLO26 的边缘优先架构#

YOLO26 通过优化从训练到实时部署的整个流水线，采取了截然不同的方法。它基于 YOLOv10 首创的 端到端 NMS-Free 设计，完全消除了对 NMS 后处理的需求。这带来了极低的延迟，使其在 Raspberry Pi 或 NVIDIA Jetson 等边缘设备上实现了深度优化。

此外，YOLO26 完全移除了分布式焦点损失 (DFL)。这种结构上的改变简化了模型导出至 ONNX 的过程，并提供了与低功耗微控制器更好的兼容性。

在训练阶段，YOLO26 集成了创新的 MuSGD 优化器，这是随机梯度下降 (Stochastic Gradient Descent) 与 Muon（受 Moonshot AI 的 Kimi K2 的 LLM 训练方法启发）的混合体。这架起了大型语言模型 (LLM) 训练创新与计算机视觉之间的桥梁，提供了更稳定的训练和更快的收敛时间。

Link to this section性能与指标对比#

在广泛使用的 COCO 数据集上进行基准测试时，这两个模型都展现了卓越的能力，但 Ultralytics 生态系统在实际推理速度和参数效率方面表现更为突出。

模型	尺寸 ^(像素)	mAP^val 50-95	速度 ^{CPU ONNX (ms)}	速度 ^{T4 TensorRT10 (ms)}	参数量 ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Link to this section结果分析#

速度与效率： 由于 YOLO26 采用了 NMS-Free 架构和简化的损失函数，与传统架构相比，它的 CPU 推理速度最高提升了 43%。YOLO26n 模型在使用 TensorRT 的 NVIDIA T4 GPU 上以 1.7ms 的惊人速度运行，使其成为实时视频流的终极选择。
精度： YOLO26x 模型实现了无与伦比的 57.5 mAP，在保持更低延迟的同时，超越了最大的 YOLOv9e 模型。
Memory Requirements: Ultralytics models are known for their efficiency. YOLO26 requires significantly less CUDA memory during model training and inference compared to complex transformer-based vision models, allowing developers to utilize larger batch sizes on consumer-grade hardware.

Link to this section生态系统、易用性与多功能性#

Ultralytics 生态系统的真正优势在于其用户体验。虽然使用 YOLOv9 GitHub 代码库的研究人员必须处理复杂的环境设置和手动脚本，但 YOLO26 已完全集成到直观的 Ultralytics Python API 中。

Link to this section简化 API 示例#

训练前沿的 YOLO26 模型仅需几行 Python 代码：

from ultralytics import YOLO

# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export natively to ONNX format in a single command
model.export(format="onnx")

Link to this section无与伦比的任务多功能性#

与主要针对标准目标检测的 YOLOv9 不同，YOLO26 开箱即用，原生支持各种计算机视觉任务。该架构针对不同应用场景包含特定的增强功能：

实例分割： 具有专门的语义分割损失和多尺度 proto，可实现无瑕疵的像素级遮罩。
姿态估计： 集成了残差对数似然估计 (RLE) 以极高精度跟踪骨骼关键点。
旋转目标检测 (OBB)： 包含专门设计的角度损失函数，旨在解决航空影像旋转目标检测中的边界问题。
图像分类： 基于 ImageNet 标准对整张图像进行稳健分类。

集成生态系统

所有 YOLO26 模型都受益于与 Ultralytics Platform 的无缝集成，提供内置的数据集标注、主动学习和即时部署流水线。

Link to this section实际应用场景#

在这些模型之间进行选择，往往取决于它们将被部署的环境。

Link to this section物联网与边缘机器人#

对于机器人、自动无人机和智能家居物联网设备，YOLO26 是当之无愧的冠军。ProgLoss + STAL 的集成在小目标识别方面带来了显著改进，这对高空无人机的农业监测至关重要。结合其快 43% 的 CPU 推理速度和 NMS-Free 设计，YOLO26 可以在没有专用 GPU 的硬件上流畅运行。

Link to this section学术研究与梯度分析#

YOLOv9 在学术界仍然是一个备受推崇的模型。研究梯度流理论边界的研究人员，或希望基于 PGI 概念构建自定义 PyTorch 层的人，会发现 YOLOv9 的代码库是探索深度学习理论的绝佳基础。

Link to this section高速制造流水线#

在高速流水线上的自动缺陷检测等工业环境中，YOLO26 模型惊人的 TensorRT 推理速度确保了不会丢帧，从而最大化了质量保证系统的吞吐量。

Link to this section应用场景与建议#

在 YOLOv9 和 YOLO26 之间进行选择取决于你的具体项目需求、部署限制和生态系统偏好。

Link to this section何时选择 YOLOv9#

YOLOv9 是以下场景的有力选择：

信息瓶颈研究： 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
梯度流优化研究： 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
高精度检测基准测试： 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。

Link to this section何时选择 YOLO26#

建议在以下情况下选择 YOLO26：

无 NMS 的边缘部署： 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
仅 CPU 环境： 没有专用 GPU 加速的设备，YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
小目标检测： 具有挑战性的场景，如 aerial drone imagery 或 IoT 传感器分析，其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section结论#

这两个模型都代表了开源社区令人难以置信的飞跃。YOLOv9 在梯度流方面引入了重要的理论改进，这些改进将在未来几年启发各类架构。然而，对于寻求速度、精度和部署简便性完美平衡的现代开发者、初创公司和企业团队来说，Ultralytics YOLO26 是明确的推荐方案。

通过消除 NMS、引入强大的 MuSGD 优化器，并在检测、分割和姿态任务中提供无与伦比的工具套件，YOLO26 确保了你的计算机视觉项目建立在当今最可靠、面向未来的框架之上。

贡献者

GLglenn-jocher⁵

创建于 2026年1月14日更新于 4周前