Link to this sectionYOLOv9 与 YOLO26#
过去几年中,实时 目标检测 的领域发生了显著演变。随着机器学习从业者寻求将模型部署到各种硬件上,选择正确的架构至关重要。在这份详尽的技术指南中,我们将比较计算机视觉领域的两个重大里程碑:2024 年初推出的 YOLOv9,它专注于梯度路径优化;以及 Ultralytics YOLO26,这是 2026 年初发布的最新前沿框架,它彻底重新定义了边缘推理和训练稳定性。
Link to this section执行摘要:模型血统与作者#
了解这些深度学习模型的起源,能为理解其架构设计选择和目标受众提供有价值的背景信息。
Link to this sectionYOLOv9#
YOLOv9 由来自台湾 中央研究院 信息科学研究所的 Chien-Yao Wang 和 Hong-Yuan Mark Liao 开发,于 2024 年 2 月 21 日发布。该模型侧重于理论深度学习概念,专门解决深度卷积神经网络 (CNN) 中的信息瓶颈问题。
Link to this sectionUltralytics YOLO26#
YOLO26 由 Ultralytics 的 Glenn Jocher 和 Jing Qiu 开发,于 2026 年 1 月 14 日发布。基于 YOLO11 和 YOLOv8 等前代模型的巨大成功,YOLO26 从零开始设计,旨在优先考虑生产就绪性、边缘部署和原生端到端效率。
准备好升级你的计算机视觉流水线了吗?你可以使用 Ultralytics Platform 轻松地在云端训练和部署 YOLO26 模型,而无需编写任何代码。
Link to this section架构创新#
两个模型都为神经网络处理视觉数据的方式带来了突破性的变革,但它们从不同的角度解决了这个问题。
Link to this sectionYOLOv9 中的可编程梯度信息#
YOLOv9 对该领域的主要贡献是引入了 可编程梯度信息 (PGI) 和 广义高效层聚合网络 (GELAN)。随着神经网络变得越来越深,它们在正向传播过程中往往会遭受信息丢失。PGI 确保了反向传播期间用于更新权重的梯度保持准确和可靠,从而使 GELAN 架构 能以更少的参数实现高精度。
然而,YOLOv9 在后处理方面严重依赖传统的非极大值抑制 (NMS),这在实际推理过程中可能会成为延迟瓶颈。
Link to this sectionYOLO26 的边缘优先架构#
YOLO26 通过优化从训练到实时部署的整个流水线,采取了截然不同的方法。它基于 YOLOv10 首创的 端到端 NMS-Free 设计,完全消除了对 NMS 后处理的需求。这带来了极低的延迟,使其在 Raspberry Pi 或 NVIDIA Jetson 等边缘设备上实现了深度优化。
此外,YOLO26 完全移除了分布式焦点损失 (DFL)。这种结构上的改变简化了模型 导出至 ONNX 的过程,并提供了与低功耗微控制器更好的兼容性。
在训练阶段,YOLO26 集成了创新的 MuSGD 优化器,这是 随机梯度下降 (Stochastic Gradient Descent) 与 Muon(受 Moonshot AI 的 Kimi K2 的 LLM 训练方法启发)的混合体。这架起了大型语言模型 (LLM) 训练创新与计算机视觉之间的桥梁,提供了更稳定的训练和更快的收敛时间。
Link to this section性能与指标对比#
在广泛使用的 COCO 数据集 上进行基准测试时,这两个模型都展现了卓越的能力,但 Ultralytics 生态系统在实际推理速度和参数效率方面表现更为突出。
| 模型 | 尺寸 (像素) | mAPval 50-95 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Link to this section结果分析#
- 速度与效率: 由于 YOLO26 采用了 NMS-Free 架构和简化的损失函数,与传统架构相比,它的 CPU 推理速度最高提升了 43%。YOLO26n 模型在使用 TensorRT 的 NVIDIA T4 GPU 上以 1.7ms 的惊人速度运行,使其成为实时视频流的终极选择。
- 精度: YOLO26x 模型实现了无与伦比的 57.5 mAP,在保持更低延迟的同时,超越了最大的 YOLOv9e 模型。
- Memory Requirements: Ultralytics models are known for their efficiency. YOLO26 requires significantly less CUDA memory during model training and inference compared to complex transformer-based vision models, allowing developers to utilize larger batch sizes on consumer-grade hardware.
Link to this section生态系统、易用性与多功能性#
Ultralytics 生态系统的真正优势在于其用户体验。虽然使用 YOLOv9 GitHub 代码库 的研究人员必须处理复杂的环境设置和手动脚本,但 YOLO26 已完全集成到直观的 Ultralytics Python API 中。
Link to this section简化 API 示例#
训练前沿的 YOLO26 模型仅需几行 Python 代码:
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")Link to this section无与伦比的任务多功能性#
与主要针对标准目标检测的 YOLOv9 不同,YOLO26 开箱即用,原生支持各种 计算机视觉任务。该架构针对不同应用场景包含特定的增强功能:
- 实例分割: 具有专门的语义分割损失和多尺度 proto,可实现无瑕疵的像素级遮罩。
- 姿态估计: 集成了残差对数似然估计 (RLE) 以极高精度跟踪骨骼关键点。
- 旋转目标检测 (OBB): 包含专门设计的角度损失函数,旨在解决航空影像旋转目标检测中的边界问题。
- 图像分类: 基于 ImageNet 标准对整张图像进行稳健分类。
所有 YOLO26 模型都受益于与 Ultralytics Platform 的无缝集成,提供内置的数据集标注、主动学习和即时部署流水线。
Link to this section实际应用场景#
在这些模型之间进行选择,往往取决于它们将被部署的环境。
Link to this section物联网与边缘机器人#
对于机器人、自动无人机和智能家居物联网设备,YOLO26 是当之无愧的冠军。ProgLoss + STAL 的集成在小目标识别方面带来了显著改进,这对高空无人机的 农业监测 至关重要。结合其快 43% 的 CPU 推理速度和 NMS-Free 设计,YOLO26 可以在没有专用 GPU 的硬件上流畅运行。
Link to this section学术研究与梯度分析#
YOLOv9 在学术界仍然是一个备受推崇的模型。研究梯度流理论边界的研究人员,或希望基于 PGI 概念构建自定义 PyTorch 层的人,会发现 YOLOv9 的代码库是探索深度学习理论的绝佳基础。
Link to this section高速制造流水线#
在高速流水线上的自动 缺陷检测 等工业环境中,YOLO26 模型惊人的 TensorRT 推理速度确保了不会丢帧,从而最大化了质量保证系统的吞吐量。
Link to this section应用场景与建议#
在 YOLOv9 和 YOLO26 之间进行选择取决于你的具体项目需求、部署限制和生态系统偏好。
Link to this section何时选择 YOLOv9#
YOLOv9 是以下场景的有力选择:
- 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
- 梯度流优化研究: 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
- 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。
Link to this section何时选择 YOLO26#
建议在以下情况下选择 YOLO26:
- 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
- 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
- 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。
Link to this section结论#
这两个模型都代表了开源社区令人难以置信的飞跃。YOLOv9 在梯度流方面引入了重要的理论改进,这些改进将在未来几年启发各类架构。然而,对于寻求速度、精度和部署简便性完美平衡的现代开发者、初创公司和企业团队来说,Ultralytics YOLO26 是明确的推荐方案。
通过消除 NMS、引入强大的 MuSGD 优化器,并在检测、分割和姿态任务中提供无与伦比的工具套件,YOLO26 确保了你的计算机视觉项目建立在当今最可靠、面向未来的框架之上。