Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv8 与 DAMO-YOLO#

计算机视觉领域在不断演进,新的架构不断突破边缘设备和大规模云集群的性能极限。在本次深度技术解析中,我们将对比两款出色的实时目标检测模型:YOLOv8DAMO-YOLO。通过研究它们的架构、性能指标和训练方法,机器学习工程师可以为部署流程做出明智的决策。

Link to this section模型背景与起源#

这两款模型推出时间相近,但源于不同的设计理念和研究目标。

Link to this sectionYOLOv8 详情#

了解更多关于 YOLOv8 的信息

Link to this sectionDAMO-YOLO 详情#

了解关于 DAMO-YOLO 的更多信息

Link to this section架构创新#

Link to this sectionYOLOv8:多功能的无锚框 (Anchor-Free) 设计#

Ultralytics YOLOv8 在前代基础上进行了重大改进,巩固了其作为高度可靠的行业领先模型的地位。它采用无锚框检测头,减少了盒预测数量并加快了推理速度。该架构使用了去耦头,将目标性、分类和回归任务分离,从而实现更准确的边界框预测。

此外,YOLOv8 在 CIoU loss 之外还实现了 Distribution Focal Loss (DFL),增强了模型精确定位物体边界的能力,特别是在面对小型或被遮挡目标时。其精简的主干网络针对 GPU 和 CPU 执行均进行了高度优化。

Link to this sectionDAMO-YOLO:由架构搜索驱动#

DAMO-YOLO 采取了不同的方法,严重依赖神经架构搜索 (NAS) 来自动设计其主干网络。阿里巴巴团队引入了“MAE-NAS”,旨在寻找在 TensorRT 加速下能够提供最优延迟与准确度平衡的结构。

该模型结合了 RepGFPN(重参数化广义特征金字塔网络)以实现高效的特征融合,并采用“ZeroHead”设计来最大限度地减少检测头的计算负担。在训练期间,它利用 AlignedOTA 进行标签分配,并高度依赖复杂的知识蒸馏过程,需要更大的教师模型来监督目标学生模型。

训练复杂度

虽然 DAMO-YOLO 通过 NAS 和蒸馏实现了令人印象深刻的延迟指标,但与 YOLOv8 高度优化的单阶段训练流程相比,这在训练过程中需要消耗更多的 CUDA 内存和计算时间。

Link to this section性能与指标#

将计算机视觉模型部署到生产环境时,平衡准确度 (mAP) 与推理速度至关重要。下表展示了两种模型在不同尺寸下的性能。

模型尺寸
(像素)
mAPval
50-95
速度
CPU ONNX
(ms)
速度
T4 TensorRT10
(ms)
参数量
(M)
FLOPs
(B)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv8 展示了卓越的性能平衡。YOLOv8n (nano) 模型仅需 320 万个参数,而 DAMO-YOLOt 则需要 850 万个,这使得它在移动设备或内存要求严格的环境中表现出巨大优势。此外,YOLOv8 提供了更丰富的尺寸选择,并可扩展至用于云端工作负载的高精度 YOLOv8x 版本。

Link to this section开发者体验与生态系统#

Link to this section易用性与训练效率#

最大的差异化因素之一是用户体验。Ultralytics 生态系统专为提升开发者效率而设计。训练自定义 YOLOv8 模型所需的内存使用量极低,并且可以通过统一的 Python API 或命令行界面执行。

相反,复现 DAMO-YOLO 的蒸馏增强训练通常需要处理复杂的配置文件以及多阶段的教师-学生 实验跟踪

以下是使用 Python 训练、验证和导出 YOLOv8 是多么简单的一个示例:

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

Link to this section跨视觉任务的通用性#

DAMO-YOLO 专门针对边界框目标检测构建。相比之下,YOLOv8 架构原生支持多种任务。开发者只需更换模型权重,无需更改底层部署代码库,即可执行 实例分割图像分类姿态估计。这种多功能性使得 Ultralytics 模型在处理复杂应用时更加实用。

Link to this section实际应用场景#

Link to this section何时使用 YOLOv8#

YOLOv8 在速度、准确度和部署便捷性方面的结合使其成为以下场景的理想选择:

  • 智慧零售分析: 执行 目标追踪 以监测顾客行为或自动化库存盘点。
  • 农业机器人: 利用其在各种硬件上的出色表现,实时识别农作物或害虫。
  • 医疗诊断: 使用实例分割快速准确地绘制医学影像中的异常情况。
  • 边缘部署:OpenVINOCoreML 等导出格式的无缝集成,使 YOLOv8 在受限设备上能够大放异彩。

Link to this section何时使用 DAMO-YOLO#

DAMO-YOLO 在特定场景中可能具有优势,特别是:

  • 学术 NAS 研究: 适用于研究重参数化或自动化架构设计方法的团队。
  • 严格受限于 GPU 的流水线: 仅在特定 NVIDIA 硬件上运行的应用程序,且 NAS 结构针对 TensorRT 执行限制进行了深度优化。

Link to this section应用场景与建议#

在 YOLOv8 和 DAMO-YOLO 之间进行选择,取决于你的具体项目需求、部署限制以及生态系统偏好。

Link to this section何时选择 YOLOv8#

YOLOv8 是以下场景的有力选择:

  • 多任务部署: 需要在 Ultralytics 生态系统中进行检测分割分类姿态估计的成熟模型项目。
  • 已建立的生产系统: 已经在 YOLOv8 架构上构建,并拥有稳定、经过良好测试的部署流水线的现有生产环境。
  • 广泛的社区和生态支持: 从 YOLOv8 丰富的教程、第三方集成和活跃的社区资源中受益的应用。

Link to this section何时选择 DAMO-YOLO#

建议在以下场景使用 DAMO-YOLO:

  • 高吞吐量视频分析: 在固定的 NVIDIA GPU 基础设施上处理高 FPS 视频流,其中 batch-1 吞吐量是主要指标。
  • 工业生产线: 在专用硬件上对 GPU 延迟有严格限制的场景,例如生产线上的实时质量检查。
  • 神经架构搜索研究: 研究自动化架构搜索 (MAE-NAS) 和高效重参数化骨干网络对检测性能的影响。

Link to this section何时选择 Ultralytics (YOLO26)#

对于大多数新项目,Ultralytics YOLO26 提供了性能和开发者体验的最佳组合:

  • 无 NMS 的边缘部署: 需要一致、低延迟推理且无需复杂非极大值抑制后处理的应用。
  • 仅 CPU 环境: 没有专用 GPU 加速的设备,YOLO26 带来的高达 43% 的 CPU 推理提速可提供决定性优势。
  • 小目标检测: 具有挑战性的场景,如 aerial drone imagery 或 IoT 传感器分析,其中 ProgLoss 和 STAL 可显著提升对极小目标的检测精度。

Link to this section展望未来:更新的 Ultralytics 模型#

尽管 YOLOv8 仍然是一个非常可靠的支柱,但计算机视觉领域发展迅速。用户也应考虑探索更新一代的模型:

YOLO26: 最新一代的 Ultralytics YOLO26 代表了范式的转变。它引入了原生的 端到端无 NMS 设计,彻底消除了与非极大值抑制后处理相关的延迟瓶颈。得益于全新的 MuSGD 优化器(SGD 和 Muon 的混合体)以及专用的 ProgLoss + STAL 损失函数,YOLO26 实现了极其稳定的训练和大幅改进的小目标识别能力。通过 DFL 移除(移除分布焦点损失以简化导出并提高边缘/低功耗设备的兼容性),架构调整使得 CPU 推理速度提升高达 43%(对比前代),使其成为现代边缘计算的最终选择。

YOLO11: 另一个绝佳选择,Ultralytics YOLO11 在 YOLOv8 的基础上进行了增量架构改进,并且仍然是社区中备受青睐的稳健模型。

简化你的工作流

准备好将你的模型从原型推向生产了吗?利用 Ultralytics Platform 自动标注数据集、跟踪实验,并无缝地将模型部署到云端或边缘设备。

总之,虽然 DAMO-YOLO 在架构搜索方面提供了有趣的学术见解,但 Ultralytics 模型提供了一个更加成熟、多功能且对开发者友好的生态系统。无论你是继续使用经受时间考验的 YOLOv8,还是升级到速度极快、无 NMS 的 YOLO26 架构,Ultralytics 套件依然是实时视觉 AI 的首选。

评论