跳转至内容

YOLOv8 与 YOLOv7:一项全面的技术比较

目标检测模型的发展迅速,YOLO(You Only Look Once)系列在实时性能方面处于领先地位。在YOLOv8YOLOv7之间做出选择,不仅需要了解它们的原始指标,还需要理解其架构理念、开发者体验以及围绕它们构建的生态系统支持。YOLOv7在发布时设定了令人印象深刻的基准,而Ultralytics YOLOv8则在可用性和多功能性方面带来了范式转变。

本指南提供了详细的技术分析,以帮助开发人员和研究人员为其计算机视觉项目选择合适的工具。

性能分析

在比较性能时,关注推理速度和 detect 精度 (mAP) 之间的权衡至关重要。YOLOv8 通常提供更优的平衡,在相似模型尺寸下提供更高的精度,并在现代硬件上实现更快的推理速度。

下表突出了在COCO 数据集上的性能差异。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

主要内容

  • 效率: YOLOv8n(nano)模型在 GPU 上实现了惊人的速度(1.47 毫秒),使其成为对延迟要求严苛的 边缘 AI 应用的理想选择。
  • 精度:YOLOv8x 在精度上超过了 YOLOv7x(53.9% vs 53.1% mAP),同时保持了具有竞争力的参数数量。
  • 优化:YOLOv8 模型展现出更好的参数效率,实现了更高的每FLOP性能,这意味着在推理过程中能耗更低。

Ultralytics YOLOv8:现代标准

由 Ultralytics 于 2023 年初发布,YOLOv8 的设计旨在不仅在性能上,而且在灵活性和易用性方面都达到最先进水平(SOTA)。它将多个计算机视觉任务统一到一个单一、精简的框架中。

架构与创新

YOLOv8 引入了无锚点检测机制,通过消除手动锚框计算的需要,简化了训练过程。这减少了框预测的数量,并加速了非极大值抑制 (NMS)

该架构采用C2f 模块(带有两个卷积的跨阶段部分瓶颈),它比以前的版本更有效地将高级特征与上下文信息结合起来。这带来了更丰富的梯度流和改进的学习收敛性。此外,YOLOv8 采用解耦头,独立处理目标性、分类和回归任务,以提高精度。

优势

了解更多关于 YOLOv8 的信息

YOLOv7:效率基准

YOLOv7 发布后引起了巨大反响,它引入了以“免费包”(bag-of-freebies)为重点的架构优化——这些方法旨在提高精度而不增加推理成本。

架构与方法

YOLOv7 利用 扩展高效层聚合网络 (E-ELAN),它控制最短和最长的梯度路径,以使网络能够高效学习更多特征。它高度强调模型缩放(同时改变深度和宽度),并引入重参数化技术以在推理期间合并层,从而在不损失训练准确性的情况下加速模型。

优势与局限性

YOLOv7 是一款功能强大的模型,尤其在 GPU 设备上提供了出色的速度-精度比。其“免费包”(bag-of-freebies)方法确保模型在部署时保持轻量化。然而,与 YOLOv8 相比,它缺乏开箱即用的统一多任务支持,并且需要更复杂的设置过程,包括手动克隆仓库和管理依赖项。它主要是一个目标检测专家,其他任务通常需要单独的分支或实现。

了解更多关于YOLOv7的信息。

深入技术比较

可用性与生态系统

最显著的区别之一在于易用性。Ultralytics YOLOv8 被打包成一个标准的 python 库。这意味着开发者可以用最少的代码将其集成到现有管道中。相比之下,YOLOv7 通常作为一个独立的 codebase 运行,需要克隆和修改。

开发者体验

YOLOv8 仅需三行 python 代码即可训练模型。这种精简的用户体验显著缩短了 AI 解决方案的上市时间。

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100)

任务多样性

现代计算机视觉项目通常需要的不仅仅是边界框。

  • YOLOv8: 一个真正的多任务模型。您可以从 detect 切换到 分割姿势估计 仅通过更改模型权重文件(例如, yolov8n-seg.pt)。
  • YOLOv7:主要侧重于检测。虽然存在扩展功能,但它们没有在一个统一的框架内进行紧密集成或维护。

训练效率与内存

YOLOv8 在训练期间优化了内存需求。它实现了智能数据增强策略,在训练后期逐渐关闭以提高精度。此外,Ultralytics 框架支持各种数据集格式,并处理标准数据集的自动下载,显著提高了训练效率

基于 Transformer 的模型通常需要大量的 CUDA 内存且训练速度较慢。相比之下,YOLOv7 和 YOLOv8 都是基于 CNN 的高效模型,但 YOLOv8 的现代架构选择(如 C2f 模块)通常能在消费级硬件上实现更快的收敛和更好的内存效率

实际应用案例

零售和库存管理

对于 零售分析,速度至关重要。YOLOv8n 可以在摄像头或 NVIDIA Jetson 模块等边缘设备上运行,以实时 track 库存。其 高推理速度 确保移动产品被准确计数而没有延迟。

自主系统与机器人技术

机器人技术需要精确的空间理解。YOLOv8 的 segmentation 能力使机器人能够区分障碍物的精确形状,而不仅仅是一个边界框。这种 多功能性 提高了导航安全性。尽管 YOLOv7 具备能力,但实现 segmentation 需要更多的精力和不同的代码库。

农业

精准农业中,模型 detect 作物病害或监测生长。Ultralytics 完善的生态系统意味着研究人员可以访问专门针对这些小众数据集的预训练权重和社区教程,从而降低了入门门槛。

结论

虽然YOLOv7在计算机视觉史上仍然是一个受人尊敬且强大的架构,但Ultralytics YOLOv8代表了现代开发的卓越选择。其最先进的性能、无与伦比的多功能性以及开发者优先的生态系统的结合,使其成为学术研究和企业部署的首选解决方案。

对于那些寻求效率和架构优化方面绝对最新成果的用户,Ultralytics 还发布了 YOLO11,它进一步突破了界限。然而,如果与 v7 代进行直接比较,YOLOv8 作为稳健、可靠且易于使用的赢家脱颖而出。

延伸阅读

探索其他模型比较,以加深您对 YOLO 生态系统的理解:


评论