Meet YOLO26: next-gen vision AI.

Link to this section性能指标深度解析#

Link to this section简介#

Performance metrics are key tools to evaluate the accuracy and efficiency of object detection models. They shed light on how effectively a model can identify and localize objects within images. Additionally, they help in understanding the model's handling of false positives and false negatives. These insights are crucial for evaluating and enhancing the model's performance. In this guide, we will explore various performance metrics associated with YOLO26, their significance, and how to interpret them.



Watch: Ultralytics YOLO26 Performance Metrics | MAP, F1 Score, Precision, IoU & Accuracy

Link to this section目标检测指标#

首先,让我们来讨论一些指标,它们不仅对 YOLO26 非常重要,而且广泛适用于各种目标检测模型。

  • 交并比 (IoU): IoU 是一种量化预测 边界框 与真实边界框之间重叠程度的指标。它在评估目标定位的准确性方面发挥着基础性作用。

  • 平均精度 (AP): AP 计算的是查准率-查全率曲线下的面积,它提供了一个单一数值,概括了模型的查准率和查全率表现。

  • 平均精度均值 (mAP): mAP 通过计算多个目标类别的平均 AP 值,扩展了 AP 的概念。这在多类别目标检测场景中非常有用,能够对模型性能进行全面的评估。

  • 查准率 (Precision) 和 查全率 (Recall): 查准率衡量的是所有正向预测中真正正样本的比例,用以评估模型避免假阳性的能力。而查全率则计算所有实际正样本中被正确预测为正样本的比例,衡量的是模型检测出某类别所有实例的能力。

  • F1 分数: F1 分数是查准率和查全率的调和平均值,在考虑假阳性和假阴性的同时,为模型性能提供了一个平衡的评估。

Link to this section如何计算 YOLO26 模型的指标#

现在,我们可以探索 YOLO26 的验证模式,该模式可用于计算上述提到的评估指标。

使用验证模式非常简单。一旦你有了训练好的模型,就可以调用 model.val() 函数。该函数将处理验证数据集并返回各种性能指标。但这些指标意味着什么?你应该如何解读它们呢?

Link to this section解读输出结果#

让我们拆解 model.val() 函数的输出,并了解输出的每个部分。

Link to this section类级别指标#

输出的一个部分是性能指标的类级别细分。当你试图了解模型在每个特定类别上的表现时,这些细粒度的信息非常有用,尤其是在包含多种目标类别的复杂数据集中。对于数据集中的每个类别,都会提供以下信息:

  • 类 (Class):这表示对象类别的名称,例如 "person" (人)、"car" (汽车) 或 "dog" (狗)。

  • 图像 (Images):此指标告诉你验证集中包含该对象类别的图像数量。

  • 实例 (Instances):这提供了该类别在验证集所有图像中出现的总次数。

  • Box(P, R, mAP50, mAP50-95):此指标提供了模型在检测对象方面的表现见解:

    • P (查准率):检测对象的准确性,表明有多少次检测是正确的。

    • R (查全率):模型识别图像中所有对象实例的能力。

    • mAP50:在交并比 (IoU) 阈值为 0.50 时计算的平均精度均值。它是衡量模型仅考虑“简单”检测时的准确性指标。

    • mAP50-95:在 0.50 到 0.95 的不同 IoU 阈值下计算的平均精度均值的平均值。它全面展示了模型在不同检测难度级别下的性能。

Link to this section速度指标#

推理速度可能与准确性同样关键,尤其是在实时目标检测场景中。本节详细说明了验证过程中各个阶段所花费的时间,从预处理到后处理。

Link to this sectionCOCO 指标评估#

对于在 COCO 数据集上进行验证的用户,系统会使用 COCO 评估脚本计算额外指标。这些指标深入展示了在不同 IoU 阈值下以及针对不同大小对象的查准率和查全率。

Link to this section可视化输出#

除了产生数值指标外,model.val() 函数还会产生可视化输出,能够让你更直观地理解模型的性能。以下是你所能期待的可视化输出分解:

  • F1 Score Curve (BoxF1_curve.png):此曲线代表了跨不同阈值的 F1 score。解读此曲线可以让你深入了解模型在不同阈值下误报与漏报之间的平衡。

  • Precision-Recall Curve (BoxPR_curve.png):作为任何分类问题不可或缺的可视化图表,此曲线展示了在不同阈值下精度与 recall 之间的权衡。当处理不平衡类别时,它显得尤为重要。

  • Precision Curve (BoxP_curve.png):这是不同阈值下精度值的图形表示。此曲线有助于你理解精度如何随阈值的变化而波动。

  • Recall Curve (BoxR_curve.png):相应地,此图表说明了召回率值如何随不同阈值的变化而改变。

  • 混淆矩阵 (confusion_matrix.png):混淆矩阵提供了结果的详细视图,展示了每个类别的真阳性、真阴性、假阳性和假阴性的计数。

  • 归一化混淆矩阵 (confusion_matrix_normalized.png):此可视化是混淆矩阵的归一化版本。它以比例而非原始计数来表示数据。这种格式使得跨类别对比性能变得更加简单。

  • 验证批次标签 (val_batchX_labels.jpg):这些图像描绘了验证集中不同批次的真实标签。它们清晰地展示了数据集所定义的物体及其各自的位置。

  • 验证批次预测 (val_batchX_pred.jpg):与标签图像形成对比,这些可视化图展示了 YOLO26 模型针对相应批次所做出的预测。通过将它们与标签图像进行比较,你可以轻松评估模型在视觉上检测和分类物体的效果。

对于 detectionsegmentationpose 任务,曲线图根据指标类型加了前缀:检测任务写入 Box* 曲线,分割任务同时写入 Box*Mask* 曲线,而姿态任务同时写入 Box*Pose* 曲线。

Link to this section结果存储#

为了日后参考,结果会被保存到一个目录中,通常名为 runs/detect/val。

Link to this section选择合适的指标#

选择合适的评估指标通常取决于具体应用。

  • mAP: 适用于对模型性能进行广泛评估。

  • IoU: 当精确的目标定位至关重要时,它是必不可少的。

  • 查准率: 当优先考虑最小化错误检测时非常重要。

  • 查全率: 当需要检测到每一个实例时至关重要。

  • F1 分数: 当需要在查准率和查全率之间取得平衡时非常有用。

对于实时应用,FPS (每秒帧数) 和延迟等速度指标对于确保及时得到结果至关重要。

Link to this section结果解读#

了解这些指标非常重要。以下是一些常见较低分数可能暗示的问题:

  • 低 mAP: 表明模型可能需要进行全面的改进。

  • 低 IoU: 模型在准确定位物体方面可能存在困难。尝试不同的边界框方法可能会有所帮助。

  • 低查准率: 模型可能检测到了太多不存在的对象。调整置信度阈值可能会减少这种情况。

  • 低查全率: 模型可能漏掉了真实物体。改进 特征提取 或使用更多数据可能会有所帮助。

  • 不平衡的 F1 分数: 查准率和查全率之间存在差异。

  • 类特定 AP: 此处的低分可以突出显示模型表现较差的类别。

Link to this section案例研究#

实际案例有助于澄清这些指标在实践中是如何工作的。

Link to this section案例 1#

  • 情况: mAP 和 F1 分数不理想,虽然查全率不错,但查准率不高。

  • 解读与行动: 可能存在过多的错误检测。收紧置信度阈值可能会减少这些错误,尽管这也可能会略微降低查全率。

Link to this section案例 2#

  • 情况: mAP 和查全率尚可,但 IoU 不足。

  • 解读与行动: 模型能很好地检测到物体,但定位可能不够精确。优化边界框预测可能会有所帮助。

Link to this section案例 3#

  • 情况: 即使整体 mAP 不错,某些类别的 AP 也远低于其他类别。

  • 解读与行动: 这些类别对模型来说可能更具挑战性。为这些类别使用更多数据或在训练期间调整类别权重可能会有所裨益。

Link to this section联系与协作#

加入由爱好者和专家组成的社区可以让你与 YOLO26 的旅程更进一步。以下是一些可以促进学习、故障排查和社交的途径。

Link to this section与更广泛的社区互动#

  • GitHub Issues: YOLO26 GitHub 仓库有一个 Issues 标签页,你可以在那里提出问题、报告 Bug 并建议新功能。社区成员和维护者非常活跃,这是获取特定问题帮助的好地方。

  • Ultralytics Discord 服务器: Ultralytics 拥有一个 Discord 服务器,你可以在那里与其他用户和开发者进行交流。

Link to this section官方文档与资源:#

  • Ultralytics YOLO26 文档: 官方文档 提供了 YOLO26 的全面概述,以及关于安装、使用和故障排除的指南。

使用这些资源不仅可以引导你克服任何挑战,还能让你了解 YOLO26 社区的最新趋势和最佳实践。

Link to this section结论#

在本指南中,我们仔细研究了 YOLO26 的基本性能指标。这些指标是了解模型运行状况的关键,对于任何旨在微调模型的人来说都至关重要。它们提供了必要的改进思路,并确保模型能够在现实生活中有效运行。

请记住,YOLO26 和 Ultralytics 社区是宝贵的财富。与同行开发者和专家交流可以开启在标准文档中找不到的见解和解决方案。在你的目标检测旅程中,保持学习精神,尝试新策略,并分享你的发现。通过这样做,你为社区的集体智慧做出了贡献,并确保了其成长。

Link to this section常见问题解答#

Link to this section平均精度均值 (mAP) 在评估 YOLO26 模型性能方面有什么意义?#

平均精度均值 (mAP) 对于评估 YOLO26 模型至关重要,因为它提供了一个概括多个类别的查准率和查全率的单一指标。mAP@0.50 衡量在 IoU 阈值为 0.50 时的查准率,专注于模型正确检测对象的能力。mAP@0.50:0.95 计算一系列 IoU 阈值下的平均精度,提供对检测性能的全面评估。高 mAP 分数表明模型有效地平衡了查准率和查全率,这对于 自动驾驶 和监控系统等应用至关重要,在这些应用中,准确的检测和最小的误报同样关键。

Link to this section如何解读 YOLO26 目标检测的交并比 (IoU) 值?#

交并比 (IoU) 衡量预测边界框与真实边界框之间的重叠程度。IoU 值范围从 0 到 1,数值越高表示定位越准确。IoU 为 1.0 表示完全对齐。通常,IoU 阈值 0.50 用于定义 mAP 等指标中的真阳性。较低的 IoU 值表明模型在精确目标定位方面存在困难,可以通过改进边界框回归或提高 训练数据集 中的标注精度来加以改善。

Link to this section为什么 F1 分数对于评估 YOLO26 目标检测模型很重要?#

F1 分数对于评估 YOLO26 模型很重要,因为它提供了查准率和查全率的调和平均值,平衡了假阳性和假阴性。在处理不平衡数据集或仅靠查准率或查全率不足以说明问题的应用场景中,它特别有价值。高 F1 分数表明模型在检测对象时表现有效,同时最大程度地减少了漏检和误报,使其适合 安防系统医疗影像 等关键应用。

Link to this section使用 Ultralytics YOLO26 进行实时目标检测的主要优势是什么?#

Ultralytics YOLO26 为实时目标检测提供了多种优势:

  • 速度与效率:针对高速推理进行了优化,适用于需要低延迟的应用。
  • 高准确性:先进的算法确保了高 mAP 和 IoU 分数,在查准率和查全率之间取得了平衡。
  • 灵活性:支持多种任务,包括 目标检测实例分割语义分割分类
  • 易用性:用户友好的界面、详尽的文档以及与 Ultralytics Platform (平台快速入门) 等工具的无缝集成。

这使得 YOLO26 成为从自动驾驶汽车到 智慧城市解决方案 等多种应用的理想选择。

Link to this sectionYOLO26 的验证指标如何帮助提升模型性能?#

YOLO26 的验证指标(如查准率、查全率、mAP 和 IoU)通过提供对检测不同方面的深入见解,帮助诊断和提升模型性能:

  • 查准率:有助于识别并最小化假阳性。
  • 查全率:确保所有相关目标都被检测到。
  • mAP:提供整体性能快照,引导一般性的改进。
  • IoU:有助于微调目标定位的准确性。

通过分析这些指标,可以针对特定的弱点采取行动,例如调整置信度阈值以提高查准率,或收集更多样化的数据以增强查全率。关于这些指标及其如何解读的详细说明,请查看 目标检测指标,并考虑实施 超参数调优 来优化你的模型。

评论