Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv8 vs YOLOv9#

实时目标检测的发展历程以不断追求更高精度、更低延迟和更优的硬件利用率为特征。这一进程中的两个重要里程碑是 Ultralytics YOLOv8YOLOv9。尽管这两个模型都代表了 计算机视觉 领域的最先进水平,但它们满足了不同的部署需求、架构理念和开发者生态。

本综合指南深入剖析了技术差异、架构创新以及实际部署注意事项,旨在帮助你为下一个人工智能项目选择合适的模型。

Link to this section模型渊源与核心理念#

在深入探讨指标之前,了解每个模型背后的起源和主要设计目标至关重要。

Link to this sectionUltralytics YOLOv8:通用的生态标准#

YOLOv8 由 Ultralytics 团队发布,其设计初衷不仅是一个独立的目标检测器,更是一个统一的多任务框架。它优先考虑无缝的开发者体验、低内存需求和广泛的硬件兼容性。

了解更多关于 YOLOv8 的信息

Link to this sectionYOLOv9:可编程梯度信息#

YOLOv9 由中央研究院的研究人员独立开发,重点关注架构理论,特别是针对深度神经网络中的信息瓶颈现象。

  • 作者: Chien-Yao Wang 和 Hong-Yuan Mark Liao
  • 组织: 台湾中央研究院信息科学研究所
  • 日期: 2024-02-21
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

了解更多关于 YOLOv9 的信息

企业部署

如果你正在规划大规模的商业部署,请考虑探索 Ultralytics Platform,以获得简化的云端训练、数据集管理和一键式 API 端点。

Link to this section架构深度解析#

深度学习中的架构选择决定了模型学习的效率,以及在 NVIDIA JetsonIntel CPU 等目标硬件上的运行速度。

Link to this sectionYOLOv8 架构:C2f 和解耦头#

YOLOv8 引入了 C2f 模块(跨阶段局部瓶颈,带有两个卷积),取代了旧的 C3 模块。这一改变改善了梯度流,使网络能够在不严重占用 GPU 内存 的情况下学习更丰富的特征表示。

此外,YOLOv8 采用了无锚点(anchor-free)设计,并带有解耦头。通过独立的路径处理目标性(objectness)、分类和回归,该模型在训练期间收敛更快,并且对各种 自定义数据集 的泛化能力更强。

Link to this sectionYOLOv9 架构:PGI 和 GELAN#

YOLOv9 引入了 可编程梯度信息 (PGI)广义高效层聚合网络 (GELAN)。PGI 确保关键数据在穿过网络层时不会丢失,从而为权重更新提供可靠的梯度。GELAN 最大限度地提高了参数效率,使模型能够在尝试控制 FLOPs 的同时实现高 精度

虽然 YOLOv9 在数学上令人印象深刻,但其在训练过程中对特定辅助可逆分支的依赖,使得其训练代码相较于标准流程在定制化方面更为复杂。

Link to this section性能指标与基准#

下表提供了不同尺寸模型的直接比较。性能基于目标检测的标准基准 MS COCO 数据集 进行测量。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

注:每列中的最佳值以 粗体 显示。

Link to this section分析权衡因素#

YOLOv9 实现了略高的峰值精度 (mAP),特别是在其较大的 e 变体中。然而,这是有代价的。Ultralytics YOLOv8 在 推理速度 上保持显著优势,特别是在编译为 TensorRTONNX 等格式时。对于在受限边缘硬件(如 Raspberry Pi 或较旧的移动芯片)上需要高帧率 (FPS) 的应用,YOLOv8 的 ns 变体提供了更实际的性能平衡。

Link to this section训练效率与生态集成#

选择模型不仅仅是看精度表,开发者体验同样至关重要。

Link to this sectionUltralytics 的优势:易用性#

训练 YOLOv9 通常需要克隆复杂的 GitHub 仓库,仔细管理 PyTorch 环境,并手动配置辅助损失权重。

相比之下,Ultralytics YOLOv8 由一个极其精简的 Python API 提供支持。它专为易用性而构建,可处理数据增强、日志记录(针对 Weights & BiasesComet ML 等工具),并原生支持硬件分配。

from ultralytics import YOLO

# Load a pre-trained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model efficiently on custom data
results = model.train(data="custom_dataset.yaml", epochs=100, imgsz=640)

# Export for edge deployment
model.export(format="engine", quantize=16)  # TensorRT export

这个单一的 API 极大地缩短了从原型到生产的时间。此外,YOLOv8 在训练期间通常需要更少的 CUDA 内存,允许开发者在消费级硬件上使用更大的批处理大小。

Link to this section任务多样性#

虽然 YOLOv9 是一个出色的边界框检测器,但现实世界的视觉 AI 通常需要更多功能。YOLOv8 是一个多功能的强力工具,原生支持 实例分割姿态估计图像分类旋转边界框 (OBB)。为多个任务使用单一框架可显著减少软件臃肿和维护开销。

展望未来

如果你正在开始一个新项目,你可能还想评估 Ultralytics YOLO11 或尖端的 YOLO26,它们原生具备端到端、无需 NMS 的设计。

Link to this section实际应用场景#

这些模型在生产环境中的表现如何?

Link to this section自主无人机与机器人#

对于需要快速避障的机器人,YOLOv8 是首选。YOLOv8n 的超低延迟确保自主系统能够实时响应环境,防止碰撞。原生导出到 OpenVINO 和 CoreML 的能力,使其可以轻松部署在商业无人机常见的低功耗芯片上。

Link to this section高分辨率缺陷检测#

在需要检测微小异常且允许离线处理的专业制造环境中,YOLOv9 可能非常有效。PGI 架构有助于网络保留识别细微裂纹或 PCB 焊接错误所需的精细视觉细节。

Link to this section智能零售与安全分析#

对于在商店过道中追踪顾客或管理 自动结账系统YOLOv8 提供了最佳平衡。它能够同时运行检测和使用如 BoT-SORT 等标准算法进行 多目标追踪 的能力,使其成为多摄像头零售部署的稳健解决方案。

Link to this section应用场景与建议#

在 YOLOv8 和 YOLOv9 之间进行选择取决于你的具体项目需求、部署约束和生态偏好。

Link to this section何时选择 YOLOv8#

YOLOv8 是以下场景的有力选择:

  • 多任务部署: 需要在 Ultralytics 生态系统中进行检测分割分类姿态估计的成熟模型项目。
  • 已建立的生产系统: 已经在 YOLOv8 架构上构建,并拥有稳定、经过良好测试的部署流水线的现有生产环境。
  • 广泛的社区和生态支持: 从 YOLOv8 丰富的教程、第三方集成和活跃的社区资源中受益的应用。

Link to this section何时选择 YOLOv9#

YOLOv9 推荐用于:

  • 信息瓶颈研究: 研究可编程梯度信息 (PGI) 和通用高效层聚合网络 (GELAN) 架构的学术项目。
  • 梯度流优化研究: 专注于理解和减轻训练过程中深度网络层信息丢失的研究。
  • 高精度检测基准测试: 需要将 YOLOv9 强大的 COCO 基准表现作为架构对比参考点的场景。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section下一次演进:YOLO26#

尽管 YOLOv8 和 YOLOv9 功能强大,但 AI 领域发展迅速。对于追求极致性能的团队,最新发布的 YOLO26 建立在这些前代产品的成功基础上。

YOLO26 引入了 端到端、无需 NMS 的设计,彻底消除了复杂的后处理瓶颈,使部署更简单,延迟更可预测。在全新的 MuSGD 优化器 和增强的 ProgLoss + STAL 损失函数的驱动下,并配合 DFL 移除(为了简化导出和提高边缘/低功耗设备兼容性而移除了分布焦点损失),它实现了高达 43% 的 CPU 推理加速,同时提高了小目标识别能力。对于挑战边缘计算极限的开发者,强烈建议评估 YOLO26

总之,虽然 YOLOv9 提供了引人入胜的架构研究和卓越的峰值精度,但 Ultralytics YOLOv8 对于绝大多数旨在快速交付可靠软件的计算机视觉工程师来说,依然是最实用、支持最好且功能最全的选择。

评论