Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv6-3.0 与 YOLOv5#

实时目标检测的发展见证了多种架构的演变,这些架构针对不同的部署场景进行了优化。在本次深入分析中,我们将对比两种主流模型:专注于行业的 YOLOv6-3.0 和基础且功能极为通用的 Ultralytics YOLOv5。了解每种模型的架构选择、性能指标和生态支持,将帮助你为实际应用选择最优的 计算机视觉 框架。

Link to this sectionYOLOv6-3.0:工业级吞吐量与硬件优化#

YOLOv6-3.0 由 美团 的视觉 AI 部门开发,专为高吞吐量的工业环境而量身打造。它侧重于在 NVIDIA GPU 等专用硬件加速器上实现最大的帧率。

  • 作者: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu 和 Xiangxiang Chu
  • 组织: 美团
  • 日期: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6
  • 文档: YOLOv6 文档

Link to this section架构优势#

YOLOv6-3.0 引入了多种旨在提升速度的结构优化。该模型采用了 EfficientRep 主干网络,专门针对 GPU 推理期间的硬件友好性进行了设计,这使得该架构在离线批处理任务中表现尤为强劲。

在训练阶段,该模型采用了 Anchor-Aided Training (AAT) 策略。此方法旨在结合锚点训练的稳定性与无锚点推理的速度。此外,其颈部架构使用 Bi-directional Concatenation (BiC) 模块来改善跨不同尺度的特征融合。虽然针对使用 TensorRT 的高端服务器 GPU 进行了高度优化,但这种专业化有时会导致在仅 CPU 或低功耗边缘设备上的延迟增加。

了解更多关于 YOLOv6 的信息

Link to this sectionUltralytics YOLOv5:易用视觉 AI 的先驱#

由 Ultralytics 推出的 YOLOv5 为易用性、训练效率和稳健的部署设定了新标准。它通过与现代深度学习工作流的深度集成,使高性能目标检测变得平民化。

Link to this section生态系统与多功能性#

YOLOv5 的决定性特征在于其 易用性。它基于 PyTorch 框架原生构建,仓库提供了一个统一的 Python API,极大地简化了 机器学习 的生命周期。从数据集配置到最终部署,集成化的生态系统确保开发者能减少在调试环境上花费的时间,从而将更多精力投入到应用开发中。

YOLOv5 不仅限于 目标检测。它拥有出色的 通用性,原生支持 图像分类实例分割。此外,它还提供了无与伦比的 训练效率,具有智能缓存、自动数据加载器以及对分布式多 GPU 训练的内置支持。

Ultralytics 模型中的内存效率

在比较模型架构时,内存消耗是一个关键因素。与沉重的 transformer 模型 相比,Ultralytics YOLO 模型在训练和推理过程中维持了显著更低的 VRAM 要求,这使得使用消费级硬件或 Google Colab 等云端笔记本的开发者能够轻松使用它们。

了解更多关于 YOLOv5 的信息

Link to this section性能与架构对比#

下表概述了两种架构在标准 COCO dataset 上评估时的性能指标。请注意模型在不同环境下是如何在平均精度均值 (mAP) 和推理速度之间取得平衡的。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Link to this section分析#

YOLOv6-3.0 取得了令人印象深刻的 mAP 分数,并且针对 T4 GPU 上的 TensorRT 流水线进行了深度优化。然而,YOLOv5 以其令人难以置信的 维护良好的生态系统 作为回应,该系统支持即时导出为多种格式,包括 ONNX、CoreML 和 TFLite。这种 性能平衡 确保了 YOLOv5 不仅能在专用服务器上可靠运行,还能在移动设备和 Raspberry Pi 等边缘计算环境中表现出色。

Link to this section代码示例:使用 Ultralytics 进行无缝训练#

Ultralytics 生态系统最大的优势之一是其精简的用户体验。训练、评估和导出模型仅需几行 Python 代码。

from ultralytics import YOLO

# Load a pre-trained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
# The API automatically handles dataset downloads and hyperparameter configuration
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format for flexible deployment
model.export(format="onnx")

Link to this section理想的用例和部署场景#

在这些架构之间进行选择,通常取决于你具体的硬件基础设施约束:

  • 何时部署 YOLOv6-3.0: 是自动化生产线和高吞吐量服务器分析的理想选择,前提是你有可用的专用 NVIDIA GPU 且延迟要求必须极低。其架构在可以充分利用 TensorRT 优化的环境中表现最佳。
  • 何时部署 YOLOv5: 是快速原型设计、跨平台部署以及寻求统一流水线的团队的完美选择。它多样的导出能力使其非常适合边缘设备上的零售分析、农业无人机监控以及健身应用中的 姿态估计

Link to this section目标检测的未来:迎接 YOLO26#

虽然 YOLOv5 和 YOLOv6 代表了重要的里程碑,但计算机视觉领域进步迅速。对于开始新项目或追求绝对顶尖技术的开发者,我们强烈建议升级到 Ultralytics YOLO26(2026 年 1 月发布)。

YOLO26 通过引入开创性的 端到端无 NMS 设计,重新定义了边缘优先的视觉 AI。通过消除对非极大值抑制(NMS)后处理的需求,它简化了部署逻辑并显著降低了延迟的波动性。

YOLO26 的关键创新包括:

  • MuSGD 优化器: SGD 和 Muon 的混合体,将先进的 LLM 训练稳定性带入计算机视觉,以实现更快、更可靠的收敛。
  • CPU 推理速度提升高达 43%: 针对没有专用加速器的环境进行了深度优化。
  • 移除 DFL: 移除分布式焦点损失(Distribution Focal Loss)简化了导出过程,并增强了与低功耗边缘设备的兼容性。
  • ProgLoss + STAL: 先进的损失函数显著提升了对小目标的识别能力,这对于航空影像和智慧城市 IoT 传感器至关重要。

对于通用任务,YOLO11 在 Ultralytics 系列中仍然是一个优秀且得到完全支持的选择。

了解更多关于 YOLO26 的信息

Link to this section结论#

YOLOv6-3.0 和 YOLOv5 在推动实时检测方面都发挥了关键作用。YOLOv6-3.0 为 GPU 加速的吞吐量提供了高度专业化的架构,而 YOLOv5 则通过其丰富的文档、易用性和多任务处理能力,为开发者提供了无与伦比的体验。

对于现代应用,利用集成化的 Ultralytics 生态系统可确保工作流面向未来。通过采用 YOLO26 等最新架构,你可以确保部署流水线受益于速度、准确性和算法简洁性方面的最新突破。

评论