跳转至内容

YOLOv7 与YOLO-YOLO:详细技术比较

选择最佳的物体检测架构是计算机视觉开发中的一个关键决策,它需要平衡推理延迟、准确性和计算资源分配之间的竞争需求。本技术分析对比了YOLOv7 和YOLO-YOLO,它们是 2022 年底发布的两个具有影响力的模型,推动了实时检测的发展。我们研究了它们独特的架构创新、基准性能以及对各种部署场景的适用性,以帮助您在选择过程中游刃有余。

YOLOv7:优化培训,实现实时精度

YOLOv7 标志着YOLO 系列的重大演进,它优先考虑架构效率和先进的训练策略,以在不增加推理成本的情况下提高性能。YOLOv7 由 Scaled-YOLOv4 的原作者开发,它引入了一些方法,让网络在训练阶段更有效地学习。

作者:王建尧、Alexey Bochkovskiy、廖鸿源Chien-Yao Wang, Alexey Bochkovskiy, and Hong-Yuan Mark Liao
组织:台湾中央研究院信息科学研究所
日期:2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docs:ultralytics

建筑创新

YOLOv7 的核心是扩展高效层聚合网络(E-ELAN)。这种架构允许模型通过控制最短和最长梯度路径来学习各种特征,从而在不破坏现有梯度流的情况下提高收敛性。此外,YOLOv7 还采用了 "可训练的无用包"(trainable bag-of-freebies),这是一套在训练数据处理过程中应用的优化技术,在部署过程中不会影响模型的结构。这些技术包括模型重新参数化和用于深度监督的辅助头,以确保骨干网捕获稳健的特征。

免费赠品袋

所谓 "免费样本袋",是指增加训练复杂度以提高准确性,但在实时推理过程中成本为零的方法。这种理念可确保最终导出的模型保持轻量级。

优势与劣势

YOLOv7 在MSCOCO基准测试中取得了出色的平衡,在同类产品中具有较高的平均精度 (mAP)。它的主要优势在于精度至关重要的高分辨率任务。不过,该架构的复杂性可能会使其在为定制研究进行修改时面临挑战。此外,虽然推理效率高,但训练过程是资源密集型的,与更新的架构相比,需要大量的GPU 内存。

了解有关YOLOv7的更多信息

DAMO-YOLO:寻找边缘的神经架构

阿里巴巴研究团队推出的YOLO 采用了不同的方法,利用神经架构搜索(NAS)自动发现专为低延迟环境定制的高效网络结构。

作者:徐先哲、蒋一琪、陈伟华、黄一伦、张远、孙秀玉Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
Organization:Alibaba Group
Date:2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:YOLO

建筑创新

YOLO 引入了MAE-NAS,这是一种生成名为 GiraffeNet 的骨干网的方法,可在特定延迟限制条件下实现吞吐量最大化。作为补充,ZeroHead 是一种轻量级检测头,它将分类和回归任务分离开来,同时删除了繁重的参数,大大缩小了模型大小。该架构还采用了一种名为 RepGFPN(广义特征金字塔网络)的高效颈部进行多尺度特征融合,并使用AlignedOTA进行标签分配,使分类得分与定位精度保持一致。

优势与劣势

YOLO 在边缘人工智能应用场景中表现出色。其较小的变体(Tiny/Small)速度惊人,适用于移动设备和物联网应用。NAS 的使用确保了架构在数学上的优化,从而提高了效率。相反,最大的YOLO 模型有时在纯准确性上会落后于最高级别的YOLOv7 模型。此外,作为一个以研究为中心的项目,它缺乏更广泛框架中的广泛生态系统和工具支持。

了解更多关于 DAMO-YOLO 的信息

性能指标比较

下表强调了性能权衡。YOLOv7 通常以更高的计算复杂度(FLOPs)为代价来实现更高的精度(mAP),而YOLO 则优先考虑速度和参数效率,尤其是在较小的配置中。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

真实世界的应用

在这些模型之间做出选择通常取决于部署硬件和所需的特定计算机视觉任务

  • 高端安全与分析 (YOLOv7):对于在功能强大的服务器上运行的应用程序(如安全警报系统或详细的交通管理)来说,每一个百分点的准确性都很重要,YOLOv7 就是一个很好的选择。YOLOv7 分辨细节的能力使其适用于检测高分辨率视频流中的小物体。
  • 边缘设备和机器人 (YOLO-YOLO):自主机器人或移动应用程序等有严格延迟预算的应用场景中,YOLO-YOLO 的轻量级架构大放异彩。低参数数减少了内存带宽压力,这对于执行物体检测的电池供电设备至关重要。

Ultralytics 的优势:为什么要现代化?

虽然YOLOv7 和YOLO 都是有能力的模型,但人工智能的发展日新月异。开发人员和研究人员在寻求面向未来、高效、用户友好的解决方案时,应考虑Ultralytics 生态系统,特别是 YOLO11.升级到现代Ultralytics 模型具有几个明显的优势:

1.精简易用

Ultralytics 模型优先考虑开发人员的体验。与通常需要复杂环境设置和手动脚本执行的研究资料库不同,Ultralytics 提供了统一的Python API和CLI。只需几行代码,您就可以训练、验证和部署模型。

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2.全面的多功能性

YOLOv7 和YOLO 主要用于边界框检测。相比之下,YOLO11 在同一框架内支持大量原生任务,包括实例分割姿势估计 面向对象检测(旋转框检测)图像分类。这样,您就可以在切换程序库的情况下解决复杂的问题,例如分析运动中的人体姿态

3.卓越的性能和效率

YOLO11 以多年的研发成果为基础,在大幅降低计算开销的同时提供最先进的准确性。它采用无锚检测头和优化的后端操作,与旧版YOLO 或transformer模型(如 RT-DETR.这种效率可以降低云计算成本,加快边缘硬件的处理速度。

4.强大的生态系统和支持

采用Ultralytics 模型可以将您与一个蓬勃发展、维护良好的生态系统联系起来。有了频繁的更新、丰富的文档和活跃的社区渠道,您再也不用调试不支持的代码了。此外,与Ultralytics HUB等工具的无缝集成也为模型部署和数据集管理提供了便利。

了解更多关于 YOLO11 的信息

结论

2022 年,YOLOv7 和YOLO 都为物体检测领域做出了重大贡献。YOLOv7 展示了可训练的优化技术如何提高准确性,而YOLO 则展示了神经架构搜索在创建高效、边缘就绪模型方面的强大功能。

然而,对于当今的生产环境而言,这并不容易、 YOLO11代表了视觉人工智能技术的巅峰。通过结合YOLO 的速度、YOLOv7 的精度和Ultralytics 框架无与伦比的可用性,YOLO11 提供了一个多功能解决方案,可加快开发周期并提高应用性能。无论您是在建设智能城市基础设施,还是在优化制造质量控制,Ultralytics 模型都能提供成功所需的可靠性和效率。

探索其他模型

如果您有兴趣探索计算机视觉领域的其他选择,可以考虑这些型号:

  • Ultralytics YOLOv8:YOLO11 的前身,以其稳健性和广泛的行业应用而著称。
  • YOLOv10:实时检测器,专注于NMS 训练,以减少延迟。
  • YOLOv9:引入可编程梯度信息 (PGI),减少深度网络中的信息丢失。
  • RT-DETR:transformer检测器,精度高,但通常需要更多GPU 内存。
  • YOLOv6:另一款注重效率的机型,专为工业应用而优化。

评论