跳至内容

配置

YOLO 设置和超参数对模型的性能、速度和准确性起着至关重要的作用。这些设置会影响模型在训练、验证和预测等不同阶段的行为。

观看:掌握Ultralytics YOLO:配置



观看: 掌握Ultralytics YOLO :配置

Ultralytics 命令使用以下语法:

示例

yolo TASK MODE ARGS
from ultralytics import YOLO

# Load a YOLO model from a pre-trained weights file
model = YOLO("yolo11n.pt")

# Run MODE mode using the custom arguments ARGS (guess TASK)
model.MODE(ARGS)

在哪里?

默认值 ARG 值在本页中定义,并来自 cfg/defaults.yaml 文件.

任务

Ultralytics YOLO 模型可执行各种计算机视觉任务,包括

  • 检测 物体检测可识别和定位图像或视频中的物体。
  • 分割实例分割将图像或视频划分为与不同对象或类别相对应的区域。
  • 分类图像分类可预测输入图像的类别标签。
  • 姿势 姿态估计可识别图像或视频中的物体并估计其关键点。
  • OBB定向边界框使用旋转边界框,适用于卫星或医学图像。
论据 默认值 说明
task 'detect' 指定YOLO 任务: detect 对于 物体检测, segment 进行分割、 classify 进行分类、 pose 用于姿态估计,以及 obb 定向边界框。每项任务都是针对图像和视频分析中的特定输出和问题量身定制的。

任务指南

模式

Ultralytics YOLO 模型以不同的模式运行,每种模式都针对模型生命周期的特定阶段而设计:

  • 训练在自定义数据集上训练YOLO 模型。
  • Val: 验证训练有素的YOLO 模型。
  • 预测:使用训练有素的YOLO 模型对新图像或视频进行预测。
  • 导出:导出YOLO 模型以供部署。
  • 跟踪使用YOLO 模型实时跟踪物体。
  • 基准:对YOLO 输出ONNX、TensorRT 等)的速度和准确性进行基准测试。
论据 默认值 说明
mode 'train' 指定YOLO 型号的运行模式: train 用于模型训练、 val 进行验证、 predict 进行推理、 export 用于转换为部署格式、 track 用于物体跟踪,以及 benchmark 进行性能评估。每种模式都支持从开发到部署的不同阶段。

模式指南

列车设置

YOLO 模型的训练设置包括影响模型性能、速度和准确性的超参数和配置。关键设置包括批量大小学习率、动量和权重衰减。优化器、损失函数和数据集组成的选择也会对训练产生影响。调整和实验对获得最佳性能至关重要。更多详情,请参阅Ultralytics 入口点功能

论据 类型 默认值 说明
model str None 指定用于训练的模型文件。接受指向 .pt 预训练模型或 .yaml 配置文件。对于定义模型结构或初始化权重至关重要。
data str None 数据集配置文件的路径(例如 coco8.yaml).该文件包含特定于数据集的参数,包括训练和 验证数据类名和类数。
epochs int 100 训练历元总数。每个历元代表对整个数据集进行一次完整的训练。调整该值会影响训练时间和模型性能。
time float None 最长训练时间(小时)。如果设置了该值,则会覆盖 epochs 参数,允许训练在指定的持续时间后自动停止。对于时间有限的训练场景非常有用。
patience int 100 在验证指标没有改善的情况下,提前停止训练所需的历元数。当性能趋于平稳时停止训练,有助于防止过度拟合
batch int 16 批量大小有三种模式: 设置为整数(如 batch=16)、自动模式,内存利用率为 60%GPU (batch=-1),或指定利用率的自动模式 (batch=0.70).
imgsz intlist 640 用于训练的目标图像尺寸。所有图像在输入模型前都会被调整到这一尺寸。影响模型精度和计算复杂度。
save bool True 可保存训练检查点和最终模型权重。这对恢复训练或模型部署非常有用。
save_period int -1 保存模型检查点的频率,以 epochs 为单位。值为-1 时将禁用此功能。该功能适用于在长时间训练过程中保存临时模型。
cache bool False 在内存中缓存数据集图像 (True/ram)、磁盘 (disk),或禁用它 (False).通过减少磁盘 I/O,提高训练速度,但代价是增加内存使用量。
device intstrlist None 指定用于训练的计算设备:单个GPU (device=0)、多个 GPU (device=0,1)、CPU (device=cpu) 或MPS for Apple silicon (device=mps).
workers int 8 加载数据的工作线程数(每 RANK 如果多GPU 训练)。影响数据预处理和输入模型的速度,尤其适用于多GPU 设置。
project str None 保存训练结果的项目目录名称。允许有组织地存储不同的实验。
name str None 训练运行的名称。用于在项目文件夹内创建一个子目录,用于存储训练日志和输出结果。
exist_ok bool False 如果为 True,则允许覆盖现有的项目/名称目录。这对迭代实验非常有用,无需手动清除之前的输出。
pretrained boolstr True 决定是否从预处理模型开始训练。可以是布尔值,也可以是加载权重的特定模型的字符串路径。提高训练效率和模型性能。
optimizer str 'auto' 为培训选择优化器。选项包括 SGD, Adam, AdamW, NAdam, RAdam, RMSProp 等,或 auto 用于根据模型配置进行自动选择。影响收敛速度和稳定性
seed int 0 为训练设置随机种子,确保在相同配置下运行的结果具有可重复性。
deterministic bool True 强制使用确定性算法,确保可重复性,但由于对非确定性算法的限制,可能会影响性能和速度。
single_cls bool False 在训练过程中将多类数据集中的所有类别视为单一类别。适用于二元分类任务,或侧重于对象的存在而非分类。
classes list[int] None 指定要训练的类 ID 列表。有助于在训练过程中筛选出特定的类并将其作为训练重点。
rect bool False 可进行矩形训练,优化批次组成以减少填充。这可以提高效率和速度,但可能会影响模型的准确性。
multi_scale bool False 通过增加/减少 imgsz 的系数 0.5 在训练过程中通过多次训练,使模型更加准确。 imgsz 在推理过程中
cos_lr bool False 利用余弦学习率调度器,根据历时的余弦曲线调整学习率。这有助于管理学习率,实现更好的收敛。
close_mosaic int 10 在训练完成前禁用最后 N 个历元的马赛克数据增强以稳定训练。设置为 0 则禁用此功能。
resume bool False 从上次保存的检查点恢复训练。自动加载模型权重、优化器状态和历时计数,无缝继续训练。
amp bool True 启用自动混合精度(AMP) 训练,可减少内存使用量并加快训练速度,同时将对精度的影响降至最低。
fraction float 1.0 指定用于训练的数据集的部分。允许在完整数据集的子集上进行训练,这对实验或资源有限的情况非常有用。
profile bool False 在训练过程中,可对ONNX 和TensorRT 速度进行剖析,有助于优化模型部署。
freeze intlist None 冻结模型的前 N 层或按索引指定的层,从而减少可训练参数的数量。这对微调或迁移学习非常有用。
lr0 float 0.01 初始学习率(即 SGD=1E-2, Adam=1E-3).调整这个值对优化过程至关重要,会影响模型权重的更新速度。
lrf float 0.01 最终学习率占初始学习率的百分比 = (lr0 * lrf),与调度程序结合使用,随着时间的推移调整学习率。
momentum float 0.937 用于 SGD 的动量因子,或用于Adam 优化器的 beta1,用于将过去的梯度纳入当前更新。
weight_decay float 0.0005 L2正则化项,对大权重进行惩罚,以防止过度拟合。
warmup_epochs float 3.0 学习率预热的历元数,学习率从低值逐渐增加到初始学习率,以在早期稳定训练。
warmup_momentum float 0.8 热身阶段的初始动力,在热身期间逐渐调整到设定动力。
warmup_bias_lr float 0.1 热身阶段的偏置参数学习率,有助于稳定初始历元的模型训练。
box float 7.5 损失函数中边框损失部分的权重,影响对准确预测边框坐标的重视程度。
cls float 0.5 分类损失在总损失函数中的权重,影响正确分类预测相对于其他部分的重要性。
dfl float 1.5 分布焦点损失权重,在某些YOLO 版本中用于精细分类。
pose float 12.0 姿态损失在姿态估计模型中的权重,影响着准确预测姿态关键点的重点。
kobj float 2.0 姿态估计模型中关键点对象性损失的权重,平衡检测可信度与姿态精度。
nbs int 64 用于损耗正常化的标称批量大小。
overlap_mask bool True 决定是将对象遮罩合并为一个遮罩进行训练,还是将每个对象的遮罩分开。在重叠的情况下,较小的掩码会在合并时覆盖在较大的掩码之上。
mask_ratio int 4 分割掩码的下采样率,影响训练时使用的掩码分辨率。
dropout float 0.0 分类任务中正则化的丢弃率,通过在训练过程中随机省略单元来防止过拟合。
val bool True 可在训练过程中进行验证,以便在单独的数据集上对模型性能进行定期评估。
plots bool False 生成并保存训练和验证指标图以及预测示例图,以便直观了解模型性能和学习进度。

关于批量大小设置的说明

"(《世界人权宣言》) batch 参数提供三种配置选项:

  • 固定批量大小:用整数指定每批图像的数量(例如:......)、 batch=16).
  • 自动模式(60%GPU 内存):使用 batch=-1 自动调整为大约 60% 的CUDA 内存使用率。
  • 利用率自动模式:设置分数(例如 batch=0.70) 根据指定的GPU 内存使用情况进行调整。

列车指南

预测设置

YOLO 模型的预测设置包括超参数和配置,它们会影响推理过程中的性能、速度和准确性。关键设置包括置信度阈值、非最大抑制(NMS)阈值和类数。输入数据的大小、格式和辅助特征(如掩码)也会影响预测结果。调整这些设置对实现最佳性能至关重要。

推理论据:

论据 类型 默认值 说明
source str 'ultralytics/assets' 指定推理的数据源。可以是图像路径、视频文件、目录、URL 或用于实时馈送的设备 ID。支持多种格式和来源,可灵活应用于不同类型的输入
conf float 0.25 设置检测的最小置信度阈值。如果检测到的对象置信度低于此阈值,则将不予考虑。调整该值有助于减少误报。
iou float 0.7 非最大抑制 (NMS) 的交叉重叠(IoU) 阈值。较低的数值可以消除重叠的方框,从而减少检测次数,这对减少重复检测非常有用。
imgsz inttuple 640 定义用于推理的图像大小。可以是一个整数 640 或一个(高度、宽度)元组。适当调整大小可以提高检测效率 精确度 和处理速度。
half bool False 启用精度(FP16)推理,可加快支持的 GPU 上的模型推理速度,同时将对精度的影响降至最低。
device str None 指定用于推理的设备(例如:......)、 cpu, cuda:00).允许用户选择CPU 、特定GPU 或其他计算设备执行模型。
batch int 1 指定推理的批量大小(仅当来源为 目录、视频文件或 .txt 文件).更大的批次规模可以提供更高的吞吐量,缩短推理所需的总时间。
max_det int 300 每幅图像允许的最大检测次数。限制模型在单次推理中可以检测到的物体总数,防止在密集场景中产生过多的输出。
vid_stride int 1 视频输入的帧间距。允许跳过视频中的帧,以加快处理速度,但会牺牲时间分辨率。数值为 1 时会处理每一帧,数值越大越跳帧。
stream_buffer bool False 决定是否对接收到的视频流帧进行排队。如果 False在这种情况下,旧帧会被丢弃,以容纳新帧(针对实时应用进行了优化)。如果 True会将新帧在缓冲区中排队,确保不会跳过任何帧,但如果推理的 FPS 低于流的 FPS,就会造成延迟。
visualize bool False 在推理过程中激活模型特征的可视化,从而深入了解模型 "看到 "了什么。这对调试和模型解释非常有用。
augment bool False 可对预测进行测试时间增强(TTA),从而在牺牲推理速度的情况下提高检测的鲁棒性。
agnostic_nms bool False 启用与类别无关的非最大抑制 (NMS),可合并不同类别的重叠方框。这在多类检测场景中非常有用,因为在这种场景中,类的重叠很常见。
classes list[int] None 根据一组类别 ID 过滤预测结果。只有属于指定类别的检测结果才会返回。这对于在多类检测任务中集中检测相关对象非常有用。
retina_masks bool False 返回高分辨率分割掩码。返回的掩码 (masks.data) 如果启用,将与原始图像大小相匹配。如果禁用,它们将与推理过程中使用的图像大小一致。
embed list[int] None 指定从中提取特征向量或嵌入的层。这对聚类或相似性搜索等下游任务非常有用。
project str None 保存预测结果的项目目录名称,如果 save 已启用。
name str None 预测运行的名称。用于在项目文件夹内创建一个子目录,在下列情况下存储预测输出结果 save 已启用。
stream bool False 通过返回结果对象生成器,而不是一次性将所有帧加载到内存中,从而实现对长视频或大量图像的高效内存处理。
verbose bool True 控制是否在终端显示详细的推理日志,提供预测过程的实时反馈。

可视化参数:

论据 类型 默认值 说明
show bool False 如果 True在一个窗口中显示注释的图像或视频。有助于在开发或测试过程中提供即时视觉反馈。
save bool False or True 可将注释的图像或视频保存到文件中。这对记录、进一步分析或共享结果非常有用。使用CLI 时默认为 True,在Python 中使用时默认为 False。
save_frames bool False 处理视频时,将单个帧保存为图像。可用于提取特定帧或进行详细的逐帧分析。
save_txt bool False 将检测结果保存在文本文件中,格式如下 [class] [x_center] [y_center] [width] [height] [confidence].有助于与其他分析工具集成。
save_conf bool False 在保存的文本文件中包含置信度分数。增强了后期处理和分析的细节。
save_crop bool False 保存经过裁剪的检测图像。可用于数据集扩充、分析或创建特定物体的重点数据集。
show_labels bool True 在可视输出中显示每次检测的标签。让用户立即了解检测到的物体。
show_conf bool True 在标签旁显示每次检测的置信度得分。让人了解模型对每次检测的确定性。
show_boxes bool True 在检测到的物体周围绘制边框。对于图像或视频帧中物体的视觉识别和定位至关重要。
line_width None or int None 指定边界框的线宽。如果 None根据图像大小自动调整线宽。提供可视化定制,使图像更加清晰。
font_size float None 注释文本字体大小。如果设置为 None.
font str 'Arial.ttf' 可视化文本注释的字体名称或路径。
pil bool False 以 PIL 图像对象(而非 numpy 数组)的形式返回图像。
kpt_radius int 5 可视化姿态估计结果时关键点的半径。
kpt_line bool True 在可视化姿势估计时,用线条连接关键点。
masks bool True 在可视化输出中显示分割掩码。
probs bool True 在可视化中加入分类概率。
filename str None 保存注释图像时的路径和文件名 save=True.
color_mode str 'class' 指定可视化的着色模式,例如 "实例 "或 "类"。
txt_color tuple[int, int, int] (255, 255, 255) 分类任务注释的 RGB 文本颜色。

预测指南

验证设置

YOLO 模型的验证设置涉及在验证数据集上评估性能的超参数和配置。这些设置会影响性能、速度和准确性。常见的设置包括批量大小、验证频率和性能指标。验证数据集的大小和组成以及具体任务也会影响这一过程。

论据 类型 默认值 说明
data str None 指定数据集配置文件的路径(如 coco8.yaml).该文件包括指向 验证数据类名和类数。
imgsz int 640 定义输入图像的尺寸。所有图像在处理前都会调整到这个尺寸。更大的尺寸可以提高小物体的精确度,但会增加计算时间。
batch int 16 设置每批图像的数量。数值越大,GPU 内存利用效率越高,但需要的 VRAM 也越多。根据可用硬件资源进行调整。
save_json bool False 如果 True此外,还可将结果保存为 JSON 文件,以便进一步分析、与其他工具集成或提交给 COCO 等评估服务器。
save_hybrid bool False 如果 True保存混合版本的标签,将原始注释与额外的模型预测相结合。适用于半监督学习和数据集增强。
conf float 0.001 设置检测的最小置信度阈值。较低的值会增加召回率,但可能会带来更多的误报。在验证过程中用于计算精确度-召回曲线。
iou float 0.6 设置 "非最大抑制"的 "交叉重叠联合"阈值。控制重复检测消除。
max_det int 300 限制每幅图像的最大检测次数。在高密度场景中非常有用,可以防止检测次数过多并管理计算资源。
half bool True 可进行精度(FP16)计算,减少内存使用量,在提高速度的同时,将对精度的影响降至最低。
device str None 指定验证设备 (cpu, cuda:0等)。何时 None会自动选择最佳可用设备。可以用逗号分隔指定多个CUDA 设备。
dnn bool False 如果 True使用 OpenCV 用于ONNX 模型推理的 DNN 模块,为 PyTorch 推理方法。
plots bool False 当设置为 True此外,它还能生成并保存预测结果与地面实况、混淆矩阵和 PR 曲线的对比图,以便对模型性能进行可视化评估。
rect bool True 如果 True该软件使用矩形推理进行分批处理,减少了填充,并可能通过以原始长宽比处理图像来提高速度和效率。
split str 'val' 确定用于验证的数据集分割 (val, testtrain).可灵活选择数据段进行性能评估。
project str None 保存验证输出结果的项目目录名称。帮助整理来自不同实验或模型的结果。
name str None 验证运行的名称。用于在项目文件夹内创建一个子目录,用于存储验证日志和输出结果。
verbose bool False 如果 True在验证过程中显示详细信息,包括每类指标、批处理进度和其他调试信息。
save_txt bool False 如果 True该系统可将检测结果保存为文本文件,每幅图像一个文件,便于进一步分析、定制后处理或与其他系统集成。
save_conf bool False 如果 True时,在保存的文本文件中包含置信度值。 save_txt 启用后,可提供更详细的分析和过滤输出。
save_crop bool False 如果 True该功能可保存检测到的物体的裁剪图像,这些图像可用于创建重点数据集、视觉验证或进一步分析单个检测结果。
workers int 8 加载数据的工作线程数。数值越大,数据预处理速度越快,但可能会增加CPU 占用率。设置为 0 会使用主线程,这在某些环境中会更稳定。
augment bool False 在验证过程中启用测试时间增强(TTA),通过在输入的转换版本上运行推理,以推理速度为代价提高检测精度。
agnostic_nms bool False 启用与类别无关的 "非最大值抑制"(Non-Maximum Suppression)功能,可合并重叠的方框,而不管其预测类别如何。这对注重实例的应用非常有用。
single_cls bool False 在验证过程中将所有类别视为单一类别。这对评估模型在二元检测任务中的性能很有用,或者在类别区分并不重要的情况下也很有用。

仔细调整和实验对于确保最佳性能以及检测和防止过度拟合至关重要。

瓦尔指南

导出设置

YOLO 模型的导出设置包括保存或导出模型以便在不同环境中使用的配置。这些设置会影响性能、大小和兼容性。关键设置包括导出文件格式(如ONNX、TensorFlow SavedModel)、目标设备(如CPU、GPU)以及掩码等功能。模型的任务和目标环境的限制也会影响导出过程。

论据 类型 默认值 说明
format str 'torchscript' 导出模型的目标格式,例如 'onnx', 'torchscript', 'engine' TensorRT)或其他格式。每种格式都能兼容不同的 部署环境.
imgsz inttuple 640 模型输入所需的图像尺寸。对于正方形图像,可以是整数(例如、 640 为 640×640)或一个元组 (height, width) 了解具体尺寸。
keras bool False 可导出为 Keras 格式 TensorFlowSavedModel的 Keras 格式,提供与TensorFlow serving 和 API 的兼容性。
optimize bool False 在导出到TorchScript 时针对移动设备进行优化,从而缩小模型大小并提高推理性能。与NCNN 格式或CUDA 设备不兼容。
half bool False 启用 FP16(半精度)量化,在支持的硬件上减小模型大小并可能加快推理速度。与 INT8 量化或ONNX 的CPU 输出不兼容。
int8 bool False 激活 INT8 量化,进一步压缩模型并加快推理速度,同时将精度损失降到最低,主要用于边缘设备。与TensorRT 一起使用时,会执行训练后量化 (PTQ)。
dynamic bool False 允许ONNX、TensorRT 和OpenVINO 输出动态输入尺寸,提高了处理不同图像尺寸的灵活性。自动设置为 True 使用 INT8 的TensorRT 时。
simplify bool True 简化了ONNX 输出的模型图。 onnxslim这可能会提高推理引擎的性能和兼容性。
opset int None 指定ONNX 操作集版本,以便与不同的 ONNX解析器和运行时的兼容性。如果未设置,则使用最新支持的版本。
workspace floatNone None 设置工作区的最大大小(单位:GiB TensorRT 优化,平衡内存使用和性能。使用方法 None TensorRT 进行自动分配,最高可达设备最大值。
nms bool False 如果支持(请参阅导出格式),则在导出模型中添加非最大值抑制 (NMS),以提高检测后处理效率。不适用于端对端模型。
batch int 1 指定导出模型的批量推理大小,或导出模型同时处理的最大图像数。 predict 模式。对于边缘TPU 输出,该值自动设为 1。
device str None 指定导出设备:GPU (device=0)、CPU (device=cpu)、MPS for Apple silicon (device=mps)或NVIDIA Jetson 的 DLA (device=dla:0device=dla:1).TensorRT 输出会自动使用GPU。
data str 'coco8.yaml' 通往 数据集 配置文件(默认: coco8.yaml),这对 INT8 量化校准至关重要。如果在启用 INT8 时没有指定,将分配一个默认数据集。

周到的配置可确保导出的模型针对其使用情况进行优化,并在目标环境中有效运行。

出口指南

解决方案设置

Ultralytics 解决方案的配置设置提供了灵活性,可为对象计数、热图创建、运动跟踪、数据分析、区域跟踪、队列管理和基于区域的计数等任务定制模型。通过这些选项,可以根据具体需求轻松调整,以获得准确、有用的结果。

论据 类型 默认值 说明
model str None Ultralytics YOLO 模型文件的路径。
region list [(20, 400), (1260, 400)] 定义计数区域的点列表。
show_in bool True 用于控制是否在视频流中显示输入计数的标志。
show_out bool True 用于控制是否在视频流中显示输出计数的标志。
analytics_type str line 图形类型,即 line, bar, areapie.
colormap int cv2.COLORMAP_JET 热图使用的颜色图。
json_file str None 包含所有停车坐标数据的 JSON 文件的路径。
up_angle float 145.0 向上 "姿势的角度阈值。
kpts list[int, int, int] [6, 8, 10] 用于监控锻炼的关键点列表。这些关键点与肩部、肘部和腕部等身体关节或部位相对应,用于俯卧撑、引体向上、深蹲、腹肌锻炼等运动。
down_angle float 90.0 俯卧 "姿势的角度阈值。
blur_ratio float 0.5 调整模糊强度的百分比,取值范围为 0.1 - 1.0.
crop_dir str "cropped-detections" 用于存储裁剪检测数据的目录名称。
records int 5 通过安全警报系统触发电子邮件的总探测次数。
vision_point tuple[int, int] (50, 50) 视觉将使用 VisionEye 解决方案跟踪物体并绘制路径的点。
tracker str 'botsort.yaml' 指定要使用的跟踪算法,例如 bytetrack.yamlbotsort.yaml.
conf float 0.3 设置检测的置信度阈值;数值越低,跟踪的物体越多,但可能会出现误报。
iou float 0.5 设置交叉重叠 (IoU) 阈值,用于过滤重叠检测。
classes list None 按类别索引筛选结果。例如 classes=[0, 2, 3] 只跟踪指定的类别。
verbose bool True 控制跟踪结果的显示,提供被跟踪物体的可视化输出。
device str None 指定用于推理的设备(例如:......)、 cpu, cuda:00).允许用户选择CPU 、特定GPU 或其他计算设备执行模型。
show bool False 如果 True在一个窗口中显示注释的图像或视频。有助于在开发或测试过程中提供即时视觉反馈。
line_width None or int None 指定边界框的线宽。如果 None根据图像大小自动调整线宽。提供可视化定制,使图像更加清晰。

解决方案指南

增强设置

数据增强技术通过在训练数据中引入可变性,帮助模型更好地泛化到未见数据中,对提高YOLO 模型的稳健性和性能至关重要。下表概述了每种增强参数的目的和效果:

论据 类型 默认值 范围 说明
hsv_h float 0.015 0.0 - 1.0 通过色轮的一部分来调整图像的色调,从而引入色彩的可变性。帮助模型在不同的光照条件下通用。
hsv_s float 0.7 0.0 - 1.0 改变图像饱和度的一部分,影响色彩的强度。可用于模拟不同的环境条件。
hsv_v float 0.4 0.0 - 1.0 将图像的数值(亮度)修改一部分,帮助模型在不同的光照条件下表现良好。
degrees float 0.0 -180 - +180 在指定的度数范围内随机旋转图像,提高模型识别不同方向物体的能力。
translate float 0.1 0.0 - 1.0 将图像进行水平和垂直平移,平移幅度为图像大小的一小部分,有助于学习检测部分可见的物体。
scale float 0.5 >=0.0 通过增益因子缩放图像,模拟物体与摄像机的不同距离。
shear float 0.0 -180 - +180 按指定角度剪切图像,模拟从不同角度观察物体的效果。
perspective float 0.0 0.0 - 0.001 对图像进行随机透视变换,增强模型理解三维空间中物体的能力。
flipud float 0.0 0.0 - 1.0 以指定的概率将图像翻转过来,在不影响物体特征的情况下增加数据的可变性。
fliplr float 0.5 0.0 - 1.0 以指定概率从左到右翻转图像,这对学习对称物体和增加数据集多样性很有用。
bgr float 0.0 0.0 - 1.0 以指定的概率将图像通道从 RGB 翻转到 BGR,用于提高对错误通道排序的稳健性。
mosaic float 1.0 0.0 - 1.0 将四幅训练图像合成一幅,模拟不同的场景构成和物体互动。对复杂场景的理解非常有效。
mixup float 0.0 0.0 - 1.0 混合两幅图像及其标签,创建合成图像。通过引入标签噪声和视觉变化,增强模型的泛化能力。
copy_paste float 0.0 0.0 - 1.0 在图像中复制和粘贴对象,有助于增加对象实例和学习对象遮挡。需要分割标签。
copy_paste_mode str 'flip' - 在 ( )选项中选择复制-粘贴增强方法。"flip", "mixup").
auto_augment str 'randaugment' - 自动应用预定义的增强策略 (randaugment, autoaugment, augmix),通过丰富视觉特征来优化分类任务。
erasing float 0.4 0.0 - 0.9 在分类训练中随机擦除部分图像,鼓励模型将识别重点放在不明显的特征上。
crop_fraction float 1.0 0.1 - 1.0 将分类图像裁剪为其大小的一小部分,以突出中心特征并适应对象比例,减少背景干扰。

调整这些设置以满足数据集和任务要求。试验不同的值有助于找到最佳的增强策略,从而获得最佳的模型性能。

记录、检查点和绘图设置

在训练YOLO 模型时,记录、检查点、绘图和文件管理都很重要:

  • 日志记录:使用TensorBoard等库或通过写入文件来跟踪模型的进度并诊断问题。
  • 检查点:定期保存模型,以继续训练或尝试不同的配置。
  • 绘图:使用 matplotlib 或 TensorBoard 等库可视化性能和训练进度。
  • 文件管理:整理培训期间生成的文件,如检查点、日志文件和绘图,以便于访问和分析。

对这些方面的有效管理有助于跟踪进度,并使调试和优化更加容易。

论据 默认值 说明
project 'runs' 指定保存训练运行的根目录。每个运行都保存在单独的子目录中。
name 'exp' 定义实验名称。如果未指定,YOLO 会在每次运行时递增该名称(如 exp, exp2) 以避免覆盖。
exist_ok False 决定是否覆盖现有实验目录。 True 允许覆盖; False 防止它发生。
plots False 控制训练图和验证图的生成和保存。设置为 True 绘制损耗曲线等图表、 精确度-召回 曲线和样本预测,以便对性能进行可视化跟踪。
save False 启用保存训练检查点和最终模型权重。设置为 True 定期保存模型状态,以便恢复训练或部署模型。

常见问题

如何提高YOLO 模型在训练中的表现?

通过调整批量大小学习率、动量和权重衰减等超参数来提高性能。调整数据增强设置,选择合适的优化器,并使用提前停止或混合精度等技术。有关详情,请参阅《训练指南》。

YOLO 模型精度的关键超参数是什么?

影响精度的关键超参数包括

  • 批量大小 (batch):较大的尺寸可以稳定训练,但需要更多的内存。
  • 学习率 (lr0):速率越小,调整越精细,但收敛速度越慢。
  • 动力 (momentum):加速梯度矢量,抑制振荡。
  • 图像大小 (imgsz):尺寸越大,精度越高,但计算量也越大。

根据您的数据集和硬件调整这些设置。更多信息,请参阅 "列车设置"。

如何设置训练YOLO 模型的学习率?

学习率 (lr0) 至关重要;从 0.01 新元或 0.001 对于 亚当优化器.监控指标并根据需要进行调整。使用余弦学习率调度器 (cos_lr)或热身(warmup_epochs, warmup_momentum).详情见 列车指南.

YOLO 模型的默认推理设置是什么?

默认设置包括

  • 置信度阈值 (conf=0.25):检测的最低置信度。
  • IoU 阈值 (iou=0.7):用于 非最大抑制(NMS).
  • 图像大小 (imgsz=640):调整输入图像的大小。
  • 设备 (device=None):选择CPU 或GPU。

有关全面概述,请参阅Predict SettingsPredict Guide

为什么使用YOLO 模型进行混合精度训练?

混合精度 培训 (amp=True)减少了内存使用量,并加快了使用 FP16 和 FP32 的训练速度。它有利于现代 GPU,允许使用更大的模型和更快的计算速度,而不会造成明显的精度损失。了解更多 列车指南.

📅创建于 1 年前 ✏️已更新 7 天前

评论