YOLO26 与 YOLOv9:实时目标检测的下一代演进

计算机视觉领域发展迅速,新架构不断挑战着速度与精度的边界。在本技术对比中,我们将审视 YOLO26YOLOv9 这两个在实时目标检测领域极具影响力的模型之间的差异。虽然两款模型都提供了独特的架构创新,但了解它们的性能权衡、部署能力以及硬件需求,对于为你的下一个视觉项目选择合适的工具至关重要。

YOLO26:边缘优化的强力模型

Ultralytics YOLO26 发布于 2026 年初,代表了部署效率和模型训练稳定性方面的代际跨越。它被设计为一个原生的端到端框架,直接解决了历史上困扰边缘 AI 应用的部署瓶颈。

模型详情:

架构与创新

YOLO26 通过引入 端到端无 NMS 设计,彻底重构了后处理流程。通过消除对非极大值抑制(NMS)的需求,模型实现了显著更低的延迟波动。这使得向移动端和边缘平台部署变得更加容易,尤其是在导出到 ONNXApple CoreML 等框架时。

此外,取消分布焦点损失(DFL)简化了导出过程,并提高了与低功耗微控制器的兼容性。为了提高训练稳定性,YOLO26 集成了新型 MuSGD 优化器,这是随机梯度下降(SGD)与 Muon(灵感来自大型语言模型训练的创新)的混合体。这带来了更快的收敛速度,并在复杂数据集上实现了更稳健的特征提取。

边缘设备推理

得益于架构简化和 DFL 的移除,YOLO26 实现了高达 43% 的 CPU 推理加速,使其成为 Raspberry PiNVIDIA Jetson Nano 等资源受限边缘设备的理想选择。

针对 无人机航拍影像 等场景中极具挑战性的目标检测,YOLO26 采用了更新的 ProgLoss + STAL 损失函数。这些函数显著改善了小目标识别的召回率。此外,它还具备针对任务的增强功能,包括用于 实例分割 的多尺度 proto、用于 姿态估计 的残差对数似然估计(RLE),以及用于检测 旋转边界框 (OBB) 的专用角度损失。

了解关于 YOLO26 的更多信息

YOLOv9:可编程梯度信息

YOLOv9 发布于 2024 年初,为神经网络在训练阶段处理梯度流的方式带来了理论进步,专注于参数效率和深度特征保留。

模型详情:

  • 作者: Chien-Yao Wang 和 Hong-Yuan Mark Liao
  • 组织: 台湾中央研究院信息科学研究所
  • 日期: 2024-02-21
  • Arxiv: YOLOv9 论文
  • GitHub: YOLOv9 仓库
  • 文档: YOLOv9 文档

架构与优势

YOLOv9 构建于可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)的概念之上。这些概念解决了深度神经网络中常见的瓶颈问题。通过在前馈过程中保留重要信息,GELAN 确保了用于权重更新的梯度保持可靠。该架构提供了高精度,使 YOLOv9 成为使用 PyTorch 框架进行神经网络理论和梯度路径优化学术研究的有力候选者。

局限性

尽管其参数效率极佳,但 YOLOv9 在边界框后处理方面严重依赖传统的 NMS,这在边缘设备推理时会产生计算瓶颈。此外,官方仓库主要专注于目标检测,需要进行大量的定制化工程才能将其适配于 追踪 或姿态估计等专门任务。

了解关于 YOLOv9 的更多信息

性能对比

When evaluating these models for real-world deployment, balancing accuracy (mAP), inference speed, and memory usage is critical. Ultralytics models are renowned for their low memory requirements during both training and inference, requiring far less CUDA memory than transformer-based alternatives like RT-DETR.

以下是 YOLO26 和 YOLOv9 在 COCO 数据集 上的性能直接对比。每列的最优值已以 粗体 标注。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

注意:此处省略了 YOLOv9 的 CPU 速度,因为它们会根据 NMS 配置产生剧烈变化,且通常比 YOLO26 原生的无 NMS 实现要慢。

用例与建议

选择 YOLO26 还是 YOLOv9 取决于你的具体项目需求、部署约束和生态偏好。

何时选择 YOLO26

YOLO26 是以下场景的理想选择:

  • 无需 NMS 的边缘部署: 需要持续、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 在没有专用 GPU 加速的设备上,YOLO26 的 CPU 推理速度提升高达 43%,这提供了决定性优势。
  • 小目标检测: 具有挑战性的场景,如 航拍无人机图像 或 IoT 传感器分析,ProgLoss 和 STAL 在小目标上显著提升了准确性。

何时选择 YOLOv9

建议在以下情况选择 YOLOv9:

  • 信息瓶颈研究: 研究可编程梯度信息(PGI)和广义高效层聚合网络(GELAN)架构的学术项目。
  • 梯度流优化研究: 专注于理解并减轻深度网络层在训练过程中信息丢失的研究。
  • 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准性能作为架构对比参考点的场景。

Ultralytics 的优势

选择模型不仅是阅读精度基准测试的结果;周边的软件生态系统决定了你能多快从数据收集转入生产环境。

易用性与生态系统

Ultralytics Python API 提供了无缝的“从零到英雄”的体验。开发者无需克隆复杂的仓库或手动配置分布式训练脚本,只需通过 pip 安装软件包即可立即开始训练。活跃维护的 Ultralytics 生态系统 保证了频繁的更新、与 Weights & Biases 等 ML 平台的自动化集成以及详尽的文档。

其他 Ultralytics 模型

如果你有兴趣探索 Ultralytics 生态系统中的其他模型,也可以考虑对比 YOLO11 或经典的 YOLOv8,两者都为定制应用提供了卓越的灵活性。

视觉任务的多功能性

虽然 YOLOv9 主要是一个检测引擎,但 YOLO26 是通用的视觉工具。使用统一的语法,你可以轻松地从目标检测转向像素级的 图像分割 或整图 分类。这种多功能性减少了为不同计算机视觉功能维护多个割裂代码库的技术债务。

高效的训练与部署

训练效率是 Ultralytics 哲学的基石。YOLO26 利用现成的预训练权重,且与臃肿的视觉 Transformer 相比,其内存使用显著更低。训练完成后,内置的导出管道允许一键转换为 TensorRTTensorFlow Lite 等优化格式,从而平滑地通向生产环境。

代码示例:YOLO26 入门

实现 YOLO26 非常直接。下面的 Python 代码片段展示了如何使用 Ultralytics API 加载预训练模型、在自定义数据上进行训练以及运行推理。

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

通过利用 YOLO26 的速度、精简架构和强大的生态系统,团队可以比以往任何时候都更快地将先进的视觉 AI 应用推向市场,并减少技术障碍。

评论