跳至内容

配置

YOLO settings and hyperparameters play a critical role in the model's performance, speed, and accuracy. These settings and hyperparameters can affect the model's behavior at various stages of the model development process, including training, validation, and prediction.



观看: Mastering Ultralytics YOLO: Configuration

Ultralytics 命令使用以下语法:

示例

yolo TASK MODE ARGS
from ultralytics import YOLO

# Load a YOLO11 model from a pre-trained weights file
model = YOLO("yolo11n.pt")

# Run MODE mode using the custom arguments ARGS (guess TASK)
model.MODE(ARGS)

在哪里?

默认值 ARG 值在本页中由 cfg/defaults.yaml 文件.

任务

YOLO 模型可用于多种任务,包括检测、分割、分类和姿态。这些任务产生的输出类型和设计用于解决的具体问题各不相同。

  • 检测:用于识别和定位图像或视频中感兴趣的对象或区域。
  • 分割:用于将图像或视频划分为与不同对象或类别相对应的区域或像素。
  • 分类:用于预测输入图像的类别标签。
  • 姿势用于识别图像或视频中的物体并估计其关键点。
  • OBB:定向(即旋转)边界框,适用于卫星或医学图像。
论据默认值说明
task'detect'指定要执行的YOLO 任务。选项包括 detect for object detection, segment 进行分割、 classify 进行分类、 pose 用于姿态估计和 obb 定向边界框。每项任务都针对图像和视频分析中的特定输出类型和问题量身定制。

任务指南

模式

YOLO 根据您要解决的具体问题,可以在不同模式下使用模型。这些模式包括

  • Train: For training a YOLO11 model on a custom dataset.
  • Val: For validating a YOLO11 model after it has been trained.
  • Predict: For making predictions using a trained YOLO11 model on new images or videos.
  • Export: For exporting a YOLO11 model to a format that can be used for deployment.
  • Track: For tracking objects in real-time using a YOLO11 model.
  • Benchmark: For benchmarking YOLO11 exports (ONNX, TensorRT, etc.) speed and accuracy.
论据默认值说明
mode'train'指定YOLO 型号的运行模式。选项包括 train 用于模型训练、 val 进行验证、 predict 对新数据进行推理、 export 用于将模型转换为部署格式、 track 用于物体跟踪,以及 benchmark 用于性能评估。每种模式都针对模型生命周期的不同阶段(从开发到部署)而设计。

模式指南

列车设置

The training settings for YOLO models encompass various hyperparameters and configurations used during the training process. These settings influence the model's performance, speed, and accuracy. Key training settings include batch size, learning rate, momentum, and weight decay. Additionally, the choice of optimizer, loss function, and training dataset composition can impact the training process. Careful tuning and experimentation with these settings are crucial for optimizing performance.

论据默认值说明
modelNone指定用于训练的模型文件。接受指向 .pt 预训练模型或 .yaml 配置文件。对于定义模型结构或初始化权重至关重要。
dataNone数据集配置文件的路径(例如 coco8.yaml). This file contains dataset-specific parameters, including paths to training and validation data, class names, and number of classes.
epochs100Total number of training epochs. Each epoch represents a full pass over the entire dataset. Adjusting this value can affect training duration and model performance.
timeNone最长训练时间(小时)。如果设置了该值,则会覆盖 epochs 参数,允许训练在指定的持续时间后自动停止。对于时间有限的训练场景非常有用。
patience100Number of epochs to wait without improvement in validation metrics before early stopping the training. Helps prevent overfitting by stopping training when performance plateaus.
batch16Batch size, with three modes: set as an integer (e.g., batch=16)、自动模式,内存利用率为 60%GPU (batch=-1),或具有指定利用率分数 (batch=0.70).
imgsz640Target image size for training. All images are resized to this dimension before being fed into the model. Affects model accuracy and computational complexity.
saveTrueEnables saving of training checkpoints and final model weights. Useful for resuming training or model deployment.
save_period-1保存模型检查点的频率,以 epochs 为单位。值为-1 时将禁用此功能。该功能适用于在长时间训练过程中保存临时模型。
cacheFalse在内存中缓存数据集图像 (True/ram)、磁盘 (disk),或禁用它 (False).通过减少磁盘 I/O 提高训练速度,但代价是增加内存使用量。
deviceNone指定用于训练的计算设备:单个GPU (device=0)、多个 GPU (device=0,1)、CPU (device=cpu) 或MPS for Apple silicon (device=mps).
workers8加载数据的工作线程数(每 RANK 如果多GPU 训练)。影响数据预处理和输入模型的速度,尤其适用于多GPU 设置。
projectNone保存训练结果的项目目录名称。允许有组织地存储不同的实验。
nameNone训练运行的名称。用于在项目文件夹内创建一个子目录,用于存储训练日志和输出结果。
exist_okFalse如果为 True,则允许覆盖现有的项目/名称目录。这对迭代实验非常有用,无需手动清除之前的输出。
pretrainedTrue决定是否从预处理模型开始训练。可以是布尔值,也可以是加载权重的特定模型的字符串路径。提高训练效率和模型性能。
optimizer'auto'为培训选择优化器。选项包括 SGD, Adam, AdamW, NAdam, RAdam, RMSProp 等,或 auto 用于根据模型配置进行自动选择。影响收敛速度和稳定性
verboseFalse在训练过程中启用冗长输出,提供详细日志和进度更新。有助于调试和密切监控培训过程。
seed0为训练设置随机种子,确保在相同配置下运行的结果具有可重复性。
deterministicTrue强制使用确定性算法,确保可重复性,但由于对非确定性算法的限制,可能会影响性能和速度。
single_clsFalse在训练过程中将多类数据集中的所有类别视为单一类别。适用于二元分类任务,或侧重于对象的存在而非分类。
rectFalse可进行矩形训练,优化批次组成以减少填充。这可以提高效率和速度,但可能会影响模型的准确性。
cos_lrFalseUtilizes a cosine learning rate scheduler, adjusting the learning rate following a cosine curve over epochs. Helps in managing learning rate for better convergence.
close_mosaic10Disables mosaic data augmentation in the last N epochs to stabilize training before completion. Setting to 0 disables this feature.
resumeFalse从上次保存的检查点恢复训练。自动加载模型权重、优化器状态和历时计数,无缝继续训练。
ampTrueEnables Automatic Mixed Precision (AMP) training, reducing memory usage and possibly speeding up training with minimal impact on accuracy.
fraction1.0指定用于训练的数据集的部分。允许在完整数据集的子集上进行训练,这对实验或资源有限的情况非常有用。
profileFalse在训练过程中,可对ONNX 和TensorRT 速度进行剖析,有助于优化模型部署。
freezeNoneFreezes the first N layers of the model or specified layers by index, reducing the number of trainable parameters. Useful for fine-tuning or transfer learning.
lr00.01初始学习率(即 SGD=1E-2, Adam=1E-3) .调整这个值对优化过程至关重要,会影响模型权重的更新速度。
lrf0.01最终学习率占初始学习率的百分比 = (lr0 * lrf),与调度程序结合使用,随着时间的推移调整学习率。
momentum0.937Momentum factor for SGD or beta1 for Adam optimizers, influencing the incorporation of past gradients in the current update.
weight_decay0.0005L2 regularization term, penalizing large weights to prevent overfitting.
warmup_epochs3.0学习率预热的历元数,学习率从低值逐渐增加到初始学习率,以在早期稳定训练。
warmup_momentum0.8热身阶段的初始动力,在热身期间逐渐调整到设定动力。
warmup_bias_lr0.1热身阶段的偏置参数学习率,有助于稳定初始历元的模型训练。
box7.5Weight of the box loss component in the loss function, influencing how much emphasis is placed on accurately predicting bounding box coordinates.
cls0.5分类损失在总损失函数中的权重,影响正确分类预测相对于其他部分的重要性。
dfl1.5分布焦点损失权重,在某些YOLO 版本中用于精细分类。
pose12.0姿态损失在姿态估计模型中的权重,影响着准确预测姿态关键点的重点。
kobj2.0姿态估计模型中关键点对象性损失的权重,平衡检测可信度与姿态精度。
label_smoothing0.0应用标签平滑,将硬标签软化为目标标签和标签均匀分布的混合标签,可以提高泛化效果。
nbs64用于损耗正常化的标称批量大小。
overlap_maskTrueDetermines whether segmentation masks should overlap during training, applicable in instance segmentation tasks.
mask_ratio4分割掩码的下采样率,影响训练时使用的掩码分辨率。
dropout0.0分类任务中正则化的丢弃率,通过在训练过程中随机省略单元来防止过拟合。
valTrue可在训练过程中进行验证,以便在单独的数据集上对模型性能进行定期评估。
plotsFalse生成并保存训练和验证指标图以及预测示例图,以便直观地了解模型性能和学习进度。

关于批处理大小设置的注意事项

"(《世界人权宣言》) batch 可以通过三种方式配置参数:

  • Fixed Batch Size:设置整数值(例如, batch=16),直接指定每批的图像数量。
  • 自动模式(60%GPU 内存):用 batch=-1 以自动调整批量大小,使CUDA 内存利用率达到约 60%。
  • 带利用率分数的自动模式:设置分数值(例如, batch=0.70) 可根据GPU 内存使用量的指定部分调整批量大小。

列车指南

预测设置

YOLO 模型的预测设置包括一系列超参数和配置,这些参数和配置会影响模型对新数据进行推理时的性能、速度和准确性。要想在特定任务中获得最佳性能,必须对这些设置进行仔细调整和实验。关键设置包括置信度阈值、非最大抑制(NMS)阈值和考虑的类别数。影响预测过程的其他因素还包括输入数据的大小和格式、是否存在补充特征(如掩码或每个方框的多个标签),以及模型所用于的特定任务。

推理论据:

论据类型默认值说明
sourcestr'ultralytics/assets'Specifies the data source for inference. Can be an image path, video file, directory, URL, or device ID for live feeds. Supports a wide range of formats and sources, enabling flexible application across different types of input.
conffloat0.25设置检测的最小置信度阈值。如果检测到的对象置信度低于此阈值,则将不予考虑。调整该值有助于减少误报。
ioufloat0.7Intersection Over Union (IoU) threshold for Non-Maximum Suppression (NMS). Lower values result in fewer detections by eliminating overlapping boxes, useful for reducing duplicates.
imgszint or tuple640定义用于推理的图像大小。可以是一个整数 640 for square resizing or a (height, width) tuple. Proper sizing can improve detection accuracy and processing speed.
halfboolFalseEnables half-precision (FP16) inference, which can speed up model inference on supported GPUs with minimal impact on accuracy.
devicestrNone指定用于推理的设备(例如:......)、 cpu, cuda:00).允许用户选择CPU 、特定GPU 或其他计算设备执行模型。
max_detint300每幅图像允许的最大检测次数。限制模型在单次推理中可检测到的物体总数,防止在密集场景中产生过多输出。
vid_strideint1视频输入的帧间距。允许跳过视频中的帧,以加快处理速度,但会牺牲时间分辨率。值为 1 时处理每一帧,值越大跳帧越多。
stream_bufferboolFalseDetermines whether to queue incoming frames for video streams. If False, old frames get dropped to accomodate new frames (optimized for real-time applications). If `True', queues new frames in a buffer, ensuring no frames get skipped, but will cause latency if inference FPS is lower than stream FPS.
visualizeboolFalse在推理过程中激活模型特征的可视化,从而深入了解模型 "看到 "了什么。这对调试和模型解释非常有用。
augmentboolFalse可对预测进行测试时间增强(TTA),从而在牺牲推理速度的情况下提高检测的鲁棒性。
agnostic_nmsboolFalse启用与类别无关的非最大抑制 (NMS),可合并不同类别的重叠方框。这在多类检测场景中非常有用,因为在这种场景中,类的重叠很常见。
classeslist[int]None根据一组类别 ID 过滤预测结果。只返回属于指定类别的检测结果。在多类检测任务中,该功能有助于集中检测相关对象。
retina_masksboolFalse如果模型中存在高分辨率的分割掩膜,则使用高分辨率的分割掩膜。这可以提高分割任务的掩膜质量,提供更精细的细节。
embedlist[int]NoneSpecifies the layers from which to extract feature vectors or embeddings. Useful for downstream tasks like clustering or similarity search.

可视化参数:

论据类型默认值说明
showboolFalse如果 True在一个窗口中显示注释的图像或视频。有助于在开发或测试过程中提供即时视觉反馈。
saveboolFalseTrueEnables saving of the annotated images or videos to file. Useful for documentation, further analysis, or sharing results. Defaults to True when using CLI & False when used in Python.
save_framesboolFalse处理视频时,将单个帧保存为图像。这对提取特定帧或逐帧进行详细分析非常有用。
save_txtboolFalse将检测结果保存在文本文件中,格式如下 [class] [x_center] [y_center] [width] [height] [confidence].有助于与其他分析工具集成。
save_confboolFalse在保存的文本文件中包含置信度分数。增强了后期处理和分析的细节。
save_cropboolFalse保存经过裁剪的检测图像。可用于数据集扩充、分析或创建特定物体的重点数据集。
show_labelsboolTrue在可视输出中显示每次检测的标签。让用户立即了解检测到的物体。
show_confboolTrue在标签旁显示每次检测的置信度得分。让人了解模型对每次检测的确定性。
show_boxesboolTrue在检测到的物体周围绘制边框。对于图像或视频帧中物体的视觉识别和定位至关重要。
line_widthNoneintNone指定边界框的线宽。如果 None根据图像大小自动调整线宽。提供可视化定制,使图像更加清晰。

预测指南

验证设置

YOLO 模型的 Val(验证)设置涉及各种超参数和配置,用于评估模型在验证数据集上的性能。这些设置会影响模型的性能、速度和准确性。常见的YOLO 验证设置包括批量大小、训练期间的验证频率和性能评估指标。影响验证过程的其他因素包括验证数据集的大小和组成,以及模型所用于的特定任务。

论据类型默认值说明
datastrNone指定数据集配置文件的路径(如 coco8.yaml). This file includes paths to validation data, class names, and number of classes.
imgszint640定义输入图像的尺寸。所有图像在处理前都会调整到这一尺寸。
batchint16设置每批图像的数量。使用 -1 的自动批处理功能,它会根据GPU 内存可用性自动调整。
save_jsonboolFalse如果 True此外,还可将结果保存到 JSON 文件中,以便进一步分析或与其他工具集成。
save_hybridboolFalse如果 True,保存混合版本的标签,将原始注释与额外的模型预测相结合。
conffloat0.001设置检测的最小置信度阈值。置信度低于此阈值的检测将被丢弃。
ioufloat0.6Sets the Intersection Over Union (IoU) threshold for Non-Maximum Suppression (NMS). Helps in reducing duplicate detections.
max_detint300限制每幅图像的最大检测次数。在密度较高的场景中非常有用,可以防止检测次数过多。
halfboolTrueEnables half-precision (FP16) computation, reducing memory usage and potentially increasing speed with minimal impact on accuracy.
devicestrNone指定验证设备 (cpu, cuda:0等)。可灵活利用CPU 或GPU 资源。
dnnboolFalse如果 True, uses the OpenCV DNN module for ONNX model inference, offering an alternative to PyTorch inference methods.
plotsboolFalse当设置为 True此外,它还能生成并保存预测结果与地面实况的对比图,以便对模型的性能进行可视化评估。
rectboolFalse如果 True该软件使用矩形推理进行批处理,减少了填充,可能会提高速度和效率。
splitstrval确定用于验证的数据集分割 (val, testtrain).可灵活选择数据段进行性能评估。

Careful tuning and experimentation with these settings are crucial to ensure optimal performance on the validation dataset and detect and prevent overfitting.

瓦尔指南

导出设置

YOLO 模型的导出设置包括与保存或导出模型以便在不同环境或平台中使用有关的配置和选项。这些设置会影响模型的性能、大小以及与不同系统的兼容性。关键的导出设置包括导出的模型文件格式(如ONNX,TensorFlow SavedModel )、目标设备(如CPU,GPU )和附加功能(如遮罩或每个方框多个标签)。导出过程还可能受到模型的特定任务和目标环境或平台的要求或限制的影响。

论据类型默认值说明
formatstr'torchscript'导出模型的目标格式,例如 'onnx', 'torchscript', 'tensorflow'或其他,定义与各种部署环境的兼容性。
imgszinttuple640模型输入所需的图像尺寸。对于正方形图像,可以是一个整数,或者是一个元组 (height, width) 了解具体尺寸。
kerasboolFalseEnables export to Keras format for TensorFlow SavedModel, providing compatibility with TensorFlow serving and APIs.
optimizeboolFalse在导出到TorchScript 时,应用针对移动设备的优化,可能会减小模型大小并提高性能。
halfboolFalse启用 FP16(半精度)量化,在支持的硬件上减小模型大小并可能加快推理速度。
int8boolFalseActivates INT8 quantization, further compressing the model and speeding up inference with minimal accuracy loss, primarily for edge devices.
dynamicboolFalse允许为ONNX 、TensorRT 和OpenVINO 导出动态输入尺寸,提高了处理不同图像尺寸的灵活性。
simplifyboolTrue简化模型图 ONNX 导出方式 onnxslim,可能会提高性能和兼容性。
opsetintNone指定ONNX opset 版本,以便与不同的ONNX 解析器和运行时兼容。如果未设置,则使用最新的支持版本。
workspacefloat4.0为TensorRT 优化设置最大工作区大小(GiB),以平衡内存使用和性能。
nmsboolFalse在CoreML 导出中添加非最大值抑制 (NMS),这对精确高效的检测后处理至关重要。
batchint1指定导出模型的批量推理大小,或导出模型将同时处理的图像的最大数量。 predict 模式。

对这些设置进行周到的配置至关重要,以确保导出的模型针对预期用例进行了优化,并能在目标环境中有效运行。

出口指南

增强设置

Augmentation techniques are essential for improving the robustness and performance of YOLO models by introducing variability into the training data, helping the model generalize better to unseen data. The following table outlines the purpose and effect of each augmentation argument:

论据类型默认值范围说明
hsv_hfloat0.0150.0 - 1.0通过色轮的一部分来调整图像的色调,从而引入色彩的可变性。帮助模型在不同的光照条件下通用。
hsv_sfloat0.70.0 - 1.0改变图像饱和度的一部分,影响色彩的强度。可用于模拟不同的环境条件。
hsv_vfloat0.40.0 - 1.0将图像的数值(亮度)修改一部分,帮助模型在不同的光照条件下表现良好。
degreesfloat0.0-180 - +180在指定的度数范围内随机旋转图像,提高模型识别不同方向物体的能力。
translatefloat0.10.0 - 1.0以图像大小的一小部分水平和垂直平移图像,帮助学习检测部分可见的物体。
scalefloat0.5>=0.0通过增益因子缩放图像,模拟物体与摄像机的不同距离。
shearfloat0.0-180 - +180按指定角度剪切图像,模拟从不同角度观察物体的效果。
perspectivefloat0.00.0 - 0.001对图像进行随机透视变换,增强模型理解三维空间中物体的能力。
flipudfloat0.00.0 - 1.0以指定的概率将图像翻转过来,在不影响物体特征的情况下增加数据的可变性。
fliplrfloat0.50.0 - 1.0以指定的概率将图像从左到右翻转,这对学习对称物体和增加数据集多样性非常有用。
bgrfloat0.00.0 - 1.0以指定的概率将图像通道从 RGB 翻转到 BGR,用于提高对错误通道排序的稳健性。
mosaicfloat1.00.0 - 1.0将四幅训练图像合成一幅,模拟不同的场景构成和物体互动。对复杂场景的理解非常有效。
mixupfloat0.00.0 - 1.0混合两幅图像及其标签,创建合成图像。通过引入标签噪声和视觉变化,增强模型的泛化能力。
copy_pastefloat0.00.0 - 1.0从一幅图像中复制物体并粘贴到另一幅图像上,用于增加物体实例和学习物体遮挡。
copy_paste_modestrflip-Copy-Paste augmentation method selection among the options of ("flip", "mixup").
auto_augmentstrrandaugment-自动应用预定义的增强策略 (randaugment, autoaugment, augmix),通过丰富视觉特征来优化分类任务。
erasingfloat0.40.0 - 0.9在分类训练过程中随机擦除部分图像,鼓励模型将识别重点放在不明显的特征上。
crop_fractionfloat1.00.1 - 1.0将分类图像裁剪为其大小的一小部分,以突出中心特征并适应对象比例,减少背景干扰。

这些设置可根据数据集和手头任务的具体要求进行调整。试验不同的值有助于找到最佳的增强策略,从而获得最佳的模型性能。

记录、检查点和绘图设置

在训练YOLO 模型时,日志、检查点、绘图和文件管理都是重要的考虑因素。

  • 记录:在训练过程中记录各种指标和统计数据通常有助于跟踪模型的进展和诊断可能出现的任何问题。这可以使用 TensorBoard 等日志库或将日志信息写入文件来实现。
  • 检查点:在训练过程中定期保存模型的检查点是一种很好的做法。这样,如果训练过程中断或想尝试不同的训练配置,就可以从上一个点重新开始训练。
  • 绘图:可视化模型的性能和训练进度有助于了解模型的表现并发现潜在问题。可以使用 matplotlib 等绘图库,或使用 TensorBoard 等日志库生成图表。
  • 文件管理:管理训练过程中生成的各种文件(如模型检查点、日志文件和绘图)是一项挑战。重要的是要有一个清晰有序的文件结构来跟踪这些文件,并在需要时方便地访问和分析它们。

有效的日志、检查点、绘图和文件管理可帮助您跟踪模型的进展情况,使调试和优化训练过程变得更加容易。

论据默认值说明
project'runs'指定保存训练运行的根目录。每个运行都将保存在该目录下的一个单独子目录中。
name'exp'定义实验名称。如果未指定,YOLO 会在每次运行时自动递增该名称,例如 exp, exp2等,以避免覆盖之前的实验。
exist_okFalse决定是否覆盖已存在的同名实验目录。将其设置为 True 允许覆盖,而 False 防止它发生。
plotsFalse控制训练图和验证图的生成和保存。设置为 True to create plots such as loss curves, precision-recall curves, and sample predictions. Useful for visually tracking model performance over time.
saveFalse启用保存训练检查点和最终模型权重。设置为 True 定期保存模型状态,以便从这些检查点恢复训练或部署模型。

常见问题

如何在训练过程中提高YOLO 模型的性能?

Improving YOLO model performance involves tuning hyperparameters like batch size, learning rate, momentum, and weight decay. Adjusting augmentation settings, selecting the right optimizer, and employing techniques like early stopping or mixed precision can also help. For detailed guidance on training settings, refer to the Train Guide.

YOLO 模型准确性需要考虑哪些关键超参数?

影响YOLO 模型准确性的关键超参数包括

  • 批量大小 (batch):较大的批量可以稳定训练,但可能需要更多内存。
  • 学习率 (lr0):控制权重更新的步长;较小的比率可进行微调,但收敛速度较慢。
  • 动力 (momentum):帮助梯度矢量向正确方向加速,抑制振荡。
  • 图像大小 (imgsz):更大的图像尺寸可以提高精确度,但会增加计算负荷。

根据您的数据集和硬件能力调整这些值。更多详情,请参阅 "列车设置"部分。

如何设置训练YOLO 模型的学习率?

学习率 (lr0)对优化至关重要。常见的起点是 0.01 新元或 0.001 亚当。监控训练指标并在必要时进行调整非常重要。使用余弦学习率调度器 (cos_lr)或热身技巧(warmup_epochs, warmup_momentum) 在训练过程中动态修改速率。更多详情请查看 列车指南.

YOLO 模型的默认推理设置是什么?

默认推理设置包括

  • 置信度阈值 (conf=0.25):检测的最低置信度。
  • IoU 阈值 (iou=0.7):用于非最大抑制(NMS)。
  • 图像大小 (imgsz=640):在推理之前调整输入图像的大小。
  • 设备 (device=None): Selects CPU or GPU for inference. For a comprehensive overview, visit the 预测设置 部分和 预测指南.

为什么要使用YOLO 模型进行混合精度训练?

混合精度训练,通过 amp=True利用 FP16 和 FP32 的优势,可以帮助减少内存使用量,加快训练速度。这对现代 GPU 非常有利,因为 GPU 本身支持混合精度,可以在内存中容纳更多模型,并在不显著降低精度的情况下加快计算速度。在 列车指南.

📅 Created 11 months ago ✏️ Updated 17 days ago

评论