配置
YOLO 设置和超参数对模型的性能、速度和准确性起着至关重要的作用。这些设置和超参数会影响模型开发过程中各个阶段的行为,包括训练、验证和预测。
观看: 掌握Ultralytics YOLO :配置
Ultralytics 命令使用以下语法:
示例
在哪里?
TASK
(可选)是 (侦测, 分部, 纶, 姿势, obb)MODE
(必填)是 (训练, 缬氨酸, 预言, 出口, 赛道, 基准)ARGS
(可选)为arg=value
如imgsz=640
覆盖默认值。
默认值 ARG
值在本页中由 cfg/defaults.yaml
文件.
任务
YOLO 模型可用于多种任务,包括检测、分割、分类和姿态。这些任务产生的输出类型和设计用于解决的具体问题各不相同。
- 检测:用于识别和定位图像或视频中感兴趣的对象或区域。
- 分割:用于将图像或视频划分为与不同对象或类别相对应的区域或像素。
- 分类:用于预测输入图像的类别标签。
- 姿势用于识别图像或视频中的物体并估计其关键点。
- OBB:定向(即旋转)边界框,适用于卫星或医学图像。
论据 | 默认值 | 说明 |
---|---|---|
task |
'detect' |
指定要执行的YOLO 任务。选项包括 detect 对于 物体检测, segment 进行分割、 classify 进行分类、 pose 用于姿态估计和 obb 定向边界框。每项任务都针对图像和视频分析中的特定输出类型和问题量身定制。 |
模式
YOLO 根据您要解决的具体问题,可以在不同模式下使用模型。这些模式包括
- 训练:用于在自定义数据集上训练YOLO11 模型。
- Val:用于在YOLO11 模型训练完成后对其进行验证。
- 预测:使用训练有素的YOLO11 模型对新图像或视频进行预测。
- 导出:用于将YOLO11 模型导出为可用于部署的格式。
- 跟踪:使用YOLO11 模型实时跟踪物体。
- 基准:用于对YOLO11 导出(ONNX,TensorRT 等)的速度和准确性进行基准测试。
论据 | 默认值 | 说明 |
---|---|---|
mode |
'train' |
指定YOLO 型号的运行模式。选项包括 train 用于模型训练、 val 进行验证、 predict 对新数据进行推理、 export 用于将模型转换为部署格式、 track 用于物体跟踪,以及 benchmark 用于性能评估。每种模式都针对模型生命周期的不同阶段(从开发到部署)而设计。 |
列车设置
YOLO 模型的训练设置包括训练过程中使用的各种超参数和配置。这些设置会影响模型的性能、速度和准确性。关键的训练设置包括批量大小、学习率、动量和权重衰减。此外,优化器、损失函数和训练数据集组成的选择也会影响训练过程。对这些设置进行仔细的调整和实验对于优化性能至关重要。
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
model |
str |
None |
指定用于训练的模型文件。接受指向 .pt 预训练模型或 .yaml 配置文件。对于定义模型结构或初始化权重至关重要。 |
data |
str |
None |
数据集配置文件的路径(例如 coco8.yaml ).该文件包含特定于数据集的参数,包括训练和 验证数据类名和类数。 |
epochs |
int |
100 |
训练历元总数。每个历元代表对整个数据集进行一次完整的训练。调整该值会影响训练时间和模型性能。 |
time |
float |
None |
最长训练时间(小时)。如果设置了该值,则会覆盖 epochs 参数,允许训练在指定的持续时间后自动停止。对于时间有限的训练场景非常有用。 |
patience |
int |
100 |
在验证指标没有改善的情况下,提前停止训练所需的历元数。当性能趋于平稳时停止训练,有助于防止过度拟合。 |
batch |
int |
16 |
批量大小有三种模式: 设置为整数(如 batch=16 )、自动模式,内存利用率为 60%GPU (batch=-1 ),或指定利用率的自动模式 (batch=0.70 ). |
imgsz |
int 或 list |
640 |
用于训练的目标图像尺寸。所有图像在输入模型前都会被调整到这一尺寸。影响模型精度和计算复杂度。 |
save |
bool |
True |
可保存训练检查点和最终模型权重。这对恢复训练或模型部署非常有用。 |
save_period |
int |
-1 |
保存模型检查点的频率,以 epochs 为单位。值为-1 时将禁用此功能。该功能适用于在长时间训练过程中保存临时模型。 |
cache |
bool |
False |
在内存中缓存数据集图像 (True /ram )、磁盘 (disk ),或禁用它 (False ).通过减少磁盘 I/O,提高训练速度,但代价是增加内存使用量。 |
device |
int 或 str 或 list |
None |
指定用于训练的计算设备:单个GPU (device=0 )、多个 GPU (device=0,1 )、CPU (device=cpu ) 或MPS for Apple silicon (device=mps ). |
workers |
int |
8 |
加载数据的工作线程数(每 RANK 如果多GPU 训练)。影响数据预处理和输入模型的速度,尤其适用于多GPU 设置。 |
project |
str |
None |
保存训练结果的项目目录名称。允许有组织地存储不同的实验。 |
name |
str |
None |
训练运行的名称。用于在项目文件夹内创建一个子目录,用于存储训练日志和输出结果。 |
exist_ok |
bool |
False |
如果为 True,则允许覆盖现有的项目/名称目录。这对迭代实验非常有用,无需手动清除之前的输出。 |
pretrained |
bool |
True |
决定是否从预处理模型开始训练。可以是布尔值,也可以是加载权重的特定模型的字符串路径。提高训练效率和模型性能。 |
optimizer |
str |
'auto' |
为培训选择优化器。选项包括 SGD , Adam , AdamW , NAdam , RAdam , RMSProp 等,或 auto 用于根据模型配置进行自动选择。影响收敛速度和稳定性 |
seed |
int |
0 |
为训练设置随机种子,确保在相同配置下运行的结果具有可重复性。 |
deterministic |
bool |
True |
强制使用确定性算法,确保可重复性,但由于对非确定性算法的限制,可能会影响性能和速度。 |
single_cls |
bool |
False |
在训练过程中将多类数据集中的所有类别视为单一类别。适用于二元分类任务,或侧重于对象的存在而非分类。 |
classes |
list[int] |
None |
指定要训练的类 ID 列表。有助于在训练过程中筛选出特定的类并将其作为训练重点。 |
rect |
bool |
False |
可进行矩形训练,优化批次组成以减少填充。这可以提高效率和速度,但可能会影响模型的准确性。 |
multi_scale |
bool |
False |
Enables multi-scale training by increasing/decreasing imgsz by upto a factor of 0.5 during training. Trains the model to be more accurate with multiple imgsz during inference. |
cos_lr |
bool |
False |
利用余弦学习率调度器,根据历时的余弦曲线调整学习率。这有助于管理学习率,实现更好的收敛。 |
close_mosaic |
int |
10 |
在训练完成前禁用最后 N 个历元的马赛克数据增强以稳定训练。设置为 0 则禁用此功能。 |
resume |
bool |
False |
从上次保存的检查点恢复训练。自动加载模型权重、优化器状态和历时计数,无缝继续训练。 |
amp |
bool |
True |
启用自动混合精度(AMP) 训练,可减少内存使用量并加快训练速度,同时将对精度的影响降至最低。 |
fraction |
float |
1.0 |
指定用于训练的数据集的部分。允许在完整数据集的子集上进行训练,这对实验或资源有限的情况非常有用。 |
profile |
bool |
False |
在训练过程中,可对ONNX 和TensorRT 速度进行剖析,有助于优化模型部署。 |
freeze |
int 或 list |
None |
冻结模型的前 N 层或按索引指定的层,从而减少可训练参数的数量。这对微调或迁移学习非常有用。 |
lr0 |
float |
0.01 |
初始学习率(即 SGD=1E-2 , Adam=1E-3 ) .调整这个值对优化过程至关重要,会影响模型权重的更新速度。 |
lrf |
float |
0.01 |
最终学习率占初始学习率的百分比 = (lr0 * lrf ),与调度程序结合使用,随着时间的推移调整学习率。 |
momentum |
float |
0.937 |
用于 SGD 的动量因子,或用于Adam 优化器的 beta1,用于将过去的梯度纳入当前更新。 |
weight_decay |
float |
0.0005 |
L2正则化项,对大权重进行惩罚,以防止过度拟合。 |
warmup_epochs |
float |
3.0 |
学习率预热的历元数,学习率从低值逐渐增加到初始学习率,以在早期稳定训练。 |
warmup_momentum |
float |
0.8 |
热身阶段的初始动力,在热身期间逐渐调整到设定动力。 |
warmup_bias_lr |
float |
0.1 |
热身阶段的偏置参数学习率,有助于稳定初始历元的模型训练。 |
box |
float |
7.5 |
损失函数中边框损失部分的权重,影响对准确预测边框坐标的重视程度。 |
cls |
float |
0.5 |
分类损失在总损失函数中的权重,影响正确分类预测相对于其他部分的重要性。 |
dfl |
float |
1.5 |
分布焦点损失权重,在某些YOLO 版本中用于精细分类。 |
pose |
float |
12.0 |
姿态损失在姿态估计模型中的权重,影响着准确预测姿态关键点的重点。 |
kobj |
float |
2.0 |
姿态估计模型中关键点对象性损失的权重,平衡检测可信度与姿态精度。 |
nbs |
int |
64 |
用于损耗正常化的标称批量大小。 |
overlap_mask |
bool |
True |
Determines whether object masks should be merged into a single mask for training, or kept separate for each object. In case of overlap, the smaller mask is overlaid on top of the larger mask during merge. |
mask_ratio |
int |
4 |
分割掩码的下采样率,影响训练时使用的掩码分辨率。 |
dropout |
float |
0.0 |
分类任务中正则化的丢弃率,通过在训练过程中随机省略单元来防止过拟合。 |
val |
bool |
True |
可在训练过程中进行验证,以便在单独的数据集上对模型性能进行定期评估。 |
plots |
bool |
False |
生成并保存训练和验证指标图以及预测示例图,以便直观了解模型性能和学习进度。 |
关于批量大小设置的说明
"(《世界人权宣言》) batch
参数有三种配置方式:
- 固定批量大小:设置一个整数值(例如、
batch=16
),直接指定每批图像的数量。 - 自动模式(60%GPU 内存):使用
batch=-1
以自动调整批量大小,使CUDA 内存利用率达到约 60%。 - 利用率自动模式:设置一个分数值(例如、
batch=0.70
) 可根据GPU 内存使用量的指定部分调整批量大小。
预测设置
YOLO 模型的预测设置包括一系列超参数和配置,这些参数和配置会影响模型对新数据进行推理时的性能、速度和准确性。要想在特定任务中获得最佳性能,必须对这些设置进行仔细调整和实验。关键设置包括置信度阈值、非最大抑制(NMS)阈值和考虑的类别数。影响预测过程的其他因素还包括输入数据的大小和格式、是否存在辅助特征(如掩码或每个方框的多个标签),以及模型所用于的特定任务。
推理论据:
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
source |
str |
'ultralytics/assets' |
指定推理的数据源。可以是图像路径、视频文件、目录、URL 或用于实时馈送的设备 ID。支持多种格式和来源,可灵活应用于不同类型的输入。 |
conf |
float |
0.25 |
设置检测的最小置信度阈值。如果检测到的对象置信度低于此阈值,则将不予考虑。调整该值有助于减少误报。 |
iou |
float |
0.7 |
非最大抑制 (NMS) 的交叉重叠(IoU) 阈值。较低的数值可以消除重叠的方框,从而减少检测次数,这对减少重复检测非常有用。 |
imgsz |
int 或 tuple |
640 |
定义用于推理的图像大小。可以是一个整数 640 或一个(高度、宽度)元组。适当调整大小可以提高检测效率 精确度 和处理速度。 |
half |
bool |
False |
启用半精度(FP16)推理,可加快支持的 GPU 上的模型推理速度,同时将对精度的影响降至最低。 |
device |
str |
None |
指定用于推理的设备(例如:......)、 cpu , cuda:0 或 0 ).允许用户选择CPU 、特定GPU 或其他计算设备执行模型。 |
batch |
int |
1 |
指定推理的批量大小(仅当来源为 目录、视频文件或 .txt 文件).更大的批次规模可以提供更高的吞吐量,缩短推理所需的总时间。 |
max_det |
int |
300 |
每幅图像允许的最大检测次数。限制模型在单次推理中可以检测到的物体总数,防止在密集场景中产生过多的输出。 |
vid_stride |
int |
1 |
视频输入的帧间距。允许跳过视频中的帧,以加快处理速度,但会牺牲时间分辨率。数值为 1 时会处理每一帧,数值越大越跳帧。 |
stream_buffer |
bool |
False |
决定是否对接收到的视频流帧进行排队。如果 False , old frames get dropped to accommodate new frames (optimized for real-time applications). If `True', queues new frames in a buffer, ensuring no frames get skipped, but will cause latency if inference FPS is lower than stream FPS. |
visualize |
bool |
False |
在推理过程中激活模型特征的可视化,从而深入了解模型 "看到 "了什么。这对调试和模型解释非常有用。 |
augment |
bool |
False |
可对预测进行测试时间增强(TTA),从而在牺牲推理速度的情况下提高检测的鲁棒性。 |
agnostic_nms |
bool |
False |
启用与类别无关的非最大抑制 (NMS),可合并不同类别的重叠方框。这在多类检测场景中非常有用,因为在这种场景中,类的重叠很常见。 |
classes |
list[int] |
None |
根据一组类别 ID 过滤预测结果。只有属于指定类别的检测结果才会返回。这对于在多类检测任务中集中检测相关对象非常有用。 |
retina_masks |
bool |
False |
返回高分辨率分割掩码。返回的掩码 (masks.data ) 如果启用,将与原始图像大小相匹配。如果禁用,它们将与推理过程中使用的图像大小一致。 |
embed |
list[int] |
None |
指定从中提取特征向量或嵌入的层。这对聚类或相似性搜索等下游任务非常有用。 |
project |
str |
None |
保存预测结果的项目目录名称,如果 save 已启用。 |
name |
str |
None |
预测运行的名称。用于在项目文件夹内创建一个子目录,在下列情况下存储预测输出结果 save 已启用。 |
可视化参数:
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
show |
bool |
False |
如果 True 在一个窗口中显示注释的图像或视频。有助于在开发或测试过程中提供即时视觉反馈。 |
save |
bool |
False 或 True |
可将注释的图像或视频保存到文件中。这对记录、进一步分析或共享结果非常有用。使用CLI 时默认为 True,在Python 中使用时默认为 False。 |
save_frames |
bool |
False |
处理视频时,将单个帧保存为图像。可用于提取特定帧或进行详细的逐帧分析。 |
save_txt |
bool |
False |
将检测结果保存在文本文件中,格式如下 [class] [x_center] [y_center] [width] [height] [confidence] .有助于与其他分析工具集成。 |
save_conf |
bool |
False |
在保存的文本文件中包含置信度分数。增强了后期处理和分析的细节。 |
save_crop |
bool |
False |
保存经过裁剪的检测图像。可用于数据集扩充、分析或创建特定物体的重点数据集。 |
show_labels |
bool |
True |
在可视输出中显示每次检测的标签。让用户立即了解检测到的物体。 |
show_conf |
bool |
True |
在标签旁显示每次检测的置信度得分。让人了解模型对每次检测的确定性。 |
show_boxes |
bool |
True |
在检测到的物体周围绘制边框。对于图像或视频帧中物体的视觉识别和定位至关重要。 |
line_width |
None 或 int |
None |
指定边界框的线宽。如果 None 根据图像大小自动调整线宽。提供可视化定制,使图像更加清晰。 |
验证设置
YOLO 模型的 Val(验证)设置涉及各种超参数和配置,用于评估模型在验证数据集上的性能。这些设置会影响模型的性能、速度和准确性。常见的YOLO 验证设置包括批量大小、训练期间的验证频率和性能评估指标。影响验证过程的其他因素包括验证数据集的大小和组成,以及模型所用于的特定任务。
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
data |
str |
None |
指定数据集配置文件的路径(如 coco8.yaml ).该文件包括指向 验证数据类名和类数。 |
imgsz |
int |
640 |
定义输入图像的尺寸。所有图像在处理前都会调整到这一尺寸。 |
batch |
int |
16 |
设置每批图像的数量。使用 -1 的自动批处理功能,它会根据GPU 内存可用性自动调整。 |
save_json |
bool |
False |
如果 True 此外,还可将结果保存到 JSON 文件中,以便进一步分析或与其他工具集成。 |
save_hybrid |
bool |
False |
如果 True ,保存混合版本的标签,将原始注释与额外的模型预测相结合。 |
conf |
float |
0.001 |
设置检测的最小置信度阈值。置信度低于此阈值的检测将被丢弃。 |
iou |
float |
0.6 |
设置非最大抑制 (NMS) 的交叉重叠(IoU) 阈值。有助于减少重复检测。 |
max_det |
int |
300 |
限制每幅图像的最大检测次数。在密度较高的场景中非常有用,可以防止检测次数过多。 |
half |
bool |
True |
可进行半精度(FP16)计算,减少内存使用量,在提高速度的同时,将对精度的影响降至最低。 |
device |
str |
None |
指定验证设备 (cpu , cuda:0 等)。可灵活利用CPU 或GPU 资源。 |
dnn |
bool |
False |
如果 True 使用 OpenCV 用于ONNX 模型推理的 DNN 模块,为 PyTorch 推理方法。 |
plots |
bool |
False |
当设置为 True 此外,它还能生成并保存预测结果与地面实况的对比图,以便对模型的性能进行可视化评估。 |
rect |
bool |
True |
如果 True 该软件使用矩形推理进行批处理,减少了填充,可能会提高速度和效率。 |
split |
str |
val |
确定用于验证的数据集分割 (val , test 或 train ).可灵活选择数据段进行性能评估。 |
project |
str |
None |
保存验证输出的项目目录名称。 |
name |
str |
None |
Name of the validation run. Used for creating a subdirectory within the project folder, where validation logs and outputs are stored. |
对这些设置进行仔细调整和试验,对于确保验证数据集的最佳性能以及检测和防止过度拟合至关重要。
导出设置
YOLO 模型的导出设置包括与保存或导出模型以便在不同环境或平台中使用有关的配置和选项。这些设置会影响模型的性能、大小以及与不同系统的兼容性。关键的导出设置包括导出的模型文件格式(如ONNX,TensorFlow SavedModel )、目标设备(如CPU,GPU )和附加功能(如遮罩或每个方框多个标签)。导出过程还可能受到模型的特定任务和目标环境或平台的要求或限制的影响。
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
format |
str |
'torchscript' |
导出模型的目标格式,例如 'onnx' , 'torchscript' , 'tensorflow' 或其他,定义与各种部署环境的兼容性。 |
imgsz |
int 或 tuple |
640 |
模型输入所需的图像尺寸。对于正方形图像,可以是一个整数,或者是一个元组 (height, width) 了解具体尺寸。 |
keras |
bool |
False |
可导出为 Keras 格式 TensorFlowSavedModel的 Keras 格式,提供与TensorFlow serving 和 API 的兼容性。 |
optimize |
bool |
False |
在导出到TorchScript 时,应用针对移动设备的优化,可能会减小模型大小并提高性能。 |
half |
bool |
False |
启用 FP16(半精度)量化,在支持的硬件上减小模型大小并可能加快推理速度。 |
int8 |
bool |
False |
激活 INT8 量化,进一步压缩模型并加快推理速度,同时将精度损失降至最低,主要用于边缘设备。 |
dynamic |
bool |
False |
允许为ONNX 、TensorRT 和OpenVINO 导出动态输入尺寸,提高了处理不同图像尺寸的灵活性。 |
simplify |
bool |
True |
简化了ONNX 输出的模型图。 onnxslim 这可能会提高性能和兼容性。 |
opset |
int |
None |
指定ONNX opset 版本,以便与不同的ONNX 解析器和运行时兼容。如果未设置,则使用最新的支持版本。 |
workspace |
float 或 None |
None |
为TensorRT 优化设置最大工作区大小(GiB),以平衡内存使用和性能;使用 None TensorRT 进行自动分配,最高可达设备最大值。 |
nms |
bool |
False |
在CoreML 导出中添加非最大值抑制 (NMS),这对精确高效的检测后处理至关重要。 |
batch |
int |
1 |
指定导出模型的批量推理大小,或导出模型将同时处理的图像的最大数量。 predict 模式。 |
device |
str |
None |
指定导出设备:GPU (device=0 )、CPU (device=cpu )、MPS for Apple silicon (device=mps )或NVIDIA Jetson 的 DLA (device=dla:0 或 device=dla:1 ). |
对这些设置进行周到的配置至关重要,以确保导出的模型针对预期用例进行了优化,并能在目标环境中有效运行。
解决方案设置
Ultralytics Solutions 的配置设置提供了一种灵活的方式,可针对各种任务自定义模型,如对象计数、热图创建、锻炼跟踪、数据分析、区域跟踪、队列管理和基于区域的计数。通过这些选项,可以轻松调整设置,根据特定需求获得准确、有用的结果。
论据 | 类型 | 默认值 | 说明 |
---|---|---|---|
region |
list |
[(20, 400), (1080, 400), (1080, 360), (20, 360)] |
定义用于物体计数、队列监控、轨迹区或速度估算的区域点。这些点被定义为坐标,形成一个多边形区域进行分析。 |
show_in |
bool |
True |
表示是否显示算作进入定义区域的对象。这对实际分析(如监控进入趋势)至关重要。 |
show_out |
bool |
True |
表示是否显示算作已退出定义区域的对象。适用于需要进行出口跟踪和分析的应用程序。 |
colormap |
int or tuple |
COLORMAP_PARULA |
为热图可视化指定 OpenCV 支持的颜色映射。默认值为 COLORMAP_PARULA 但也可根据不同的可视化偏好使用其他色图。 |
up_angle |
float |
145.0 |
角度阈值,用于检测运动监控中的 "向上 "位置。可根据不同运动的关键点位置进行调整。 |
down_angle |
float |
90.0 |
在运动监控中检测 "向下 "位置的角度阈值。可根据特定运动的关键点位置进行调整。 |
kpts |
list |
[6, 8, 10] |
用于监控锻炼的关键点列表。这些关键点与肩部、肘部和腕部等身体关节或部位相对应,用于俯卧撑、引体向上、深蹲、腹肌锻炼等运动。 |
analytics_type |
str |
line |
指定要生成的分析可视化类型。选项包括 "line" , "pie" , "bar" 或 "area" .默认值为 "line" 用于趋势可视化。 |
json_file |
str |
None |
定义停车系统或类似应用区域的 JSON 文件的路径。可灵活配置分析区域。 |
records |
int |
5 |
Total detections count that triggers an automated email notification about unusual activity. |
增强设置
增强技术通过在训练数据中引入可变性,帮助模型更好地泛化到未见数据中,对提高YOLO 模型的稳健性和性能至关重要。下表概述了每种增强参数的目的和效果:
论据 | 类型 | 默认值 | 范围 | 说明 |
---|---|---|---|---|
hsv_h |
float |
0.015 |
0.0 - 1.0 |
通过色轮的一部分来调整图像的色调,从而引入色彩的可变性。帮助模型在不同的光照条件下通用。 |
hsv_s |
float |
0.7 |
0.0 - 1.0 |
改变图像饱和度的一部分,影响色彩的强度。可用于模拟不同的环境条件。 |
hsv_v |
float |
0.4 |
0.0 - 1.0 |
将图像的数值(亮度)修改一部分,帮助模型在不同的光照条件下表现良好。 |
degrees |
float |
0.0 |
-180 - +180 |
在指定的度数范围内随机旋转图像,提高模型识别不同方向物体的能力。 |
translate |
float |
0.1 |
0.0 - 1.0 |
将图像进行水平和垂直平移,平移幅度为图像大小的一小部分,有助于学习检测部分可见的物体。 |
scale |
float |
0.5 |
>=0.0 |
通过增益因子缩放图像,模拟物体与摄像机的不同距离。 |
shear |
float |
0.0 |
-180 - +180 |
按指定角度剪切图像,模拟从不同角度观察物体的效果。 |
perspective |
float |
0.0 |
0.0 - 0.001 |
对图像进行随机透视变换,增强模型理解三维空间中物体的能力。 |
flipud |
float |
0.0 |
0.0 - 1.0 |
以指定的概率将图像翻转过来,在不影响物体特征的情况下增加数据的可变性。 |
fliplr |
float |
0.5 |
0.0 - 1.0 |
以指定概率从左到右翻转图像,这对学习对称物体和增加数据集多样性很有用。 |
bgr |
float |
0.0 |
0.0 - 1.0 |
以指定的概率将图像通道从 RGB 翻转到 BGR,用于提高对错误通道排序的稳健性。 |
mosaic |
float |
1.0 |
0.0 - 1.0 |
将四幅训练图像合成一幅,模拟不同的场景构成和物体互动。对复杂场景的理解非常有效。 |
mixup |
float |
0.0 |
0.0 - 1.0 |
混合两幅图像及其标签,创建合成图像。通过引入标签噪声和视觉变化,增强模型的泛化能力。 |
copy_paste |
float |
0.0 |
0.0 - 1.0 |
在图像中复制和粘贴对象,有助于增加对象实例和学习对象遮挡。需要分割标签。 |
copy_paste_mode |
str |
flip |
- | 在 ( )选项中选择复制-粘贴增强方法。"flip" , "mixup" ). |
auto_augment |
str |
randaugment |
- | 自动应用预定义的增强策略 (randaugment , autoaugment , augmix ),通过丰富视觉特征来优化分类任务。 |
erasing |
float |
0.4 |
0.0 - 0.9 |
在分类训练中随机擦除部分图像,鼓励模型将识别重点放在不明显的特征上。 |
crop_fraction |
float |
1.0 |
0.1 - 1.0 |
将分类图像裁剪为其大小的一小部分,以突出中心特征并适应对象比例,减少背景干扰。 |
这些设置可根据数据集和手头任务的具体要求进行调整。试验不同的值有助于找到最佳的增强策略,从而获得最佳的模型性能。
记录、检查点和绘图设置
在训练YOLO 模型时,日志、检查点、绘图和文件管理都是重要的考虑因素。
- 记录:在训练过程中记录各种指标和统计数据通常有助于跟踪模型的进展和诊断可能出现的任何问题。可以使用日志库(如 TensorBoard)或将日志信息写入文件。
- 检查点:在训练过程中定期保存模型的检查点是一种很好的做法。这样,如果训练过程中断或想尝试不同的训练配置,就可以从上一个点重新开始训练。
- 绘图:可视化模型的性能和训练进度有助于了解模型的表现并发现潜在问题。可以使用 matplotlib 等绘图库,或使用 TensorBoard 等日志库生成图表。
- 文件管理:管理训练过程中生成的各种文件(如模型检查点、日志文件和绘图)是一项挑战。重要的是要有一个清晰有序的文件结构来跟踪这些文件,并在需要时方便地访问和分析它们。
有效的日志、检查点、绘图和文件管理可帮助您跟踪模型的进展情况,使调试和优化训练过程变得更加容易。
论据 | 默认值 | 说明 |
---|---|---|
project |
'runs' |
指定保存训练运行的根目录。每个运行都将保存在该目录下的一个单独子目录中。 |
name |
'exp' |
定义实验名称。如果未指定,YOLO 会在每次运行时自动递增该名称,例如 exp , exp2 等,以避免覆盖之前的实验。 |
exist_ok |
False |
决定是否覆盖已存在的同名实验目录。将其设置为 True 允许覆盖,而 False 防止它发生。 |
plots |
False |
控制训练图和验证图的生成和保存。设置为 True 绘制损耗曲线等图表、 精确度-召回 曲线和样本预测。有助于直观地跟踪模型随时间变化的性能。 |
save |
False |
启用保存训练检查点和最终模型权重。设置为 True 定期保存模型状态,以便从这些检查点恢复训练或部署模型。 |
常见问题
如何在训练过程中提高YOLO 模型的性能?
要提高YOLO 模型的性能,需要调整超参数,如批量大小、学习率、动量和权重衰减。调整增强设置、选择合适的优化器以及采用提前停止或混合精度等技术也会有所帮助。有关训练设置的详细指导,请参阅《训练指南》。
YOLO 模型准确性需要考虑哪些关键超参数?
影响YOLO 模型准确性的关键超参数包括
- 批量大小 (
batch
):较大的批量可以稳定训练,但可能需要更多内存。 - 学习率 (
lr0
):控制权重更新的步长;较小的比率可进行微调,但收敛速度较慢。 - 动力 (
momentum
):帮助梯度矢量向正确方向加速,抑制振荡。 - 图像大小 (
imgsz
):更大的图像尺寸可以提高精确度,但会增加计算负荷。
根据您的数据集和硬件能力调整这些值。更多详情,请参阅 "列车设置"部分。
如何设置训练YOLO 模型的学习率?
学习率 (lr0
)对优化至关重要。常见的起点是 0.01
新元或 0.001
亚当。监控训练指标并在必要时进行调整非常重要。使用余弦学习率调度器 (cos_lr
)或热身技巧(warmup_epochs
, warmup_momentum
) 在训练过程中动态修改速率。更多详情请查看 列车指南.
YOLO 模型的默认推理设置是什么?
默认推理设置包括
- 置信度阈值 (
conf=0.25
):检测的最低置信度。 - IoU 阈值 (
iou=0.7
):用于非最大抑制(NMS)。 - 图像大小 (
imgsz=640
):在推理之前调整输入图像的大小。 - 设备 (
device=None
):选择CPU 或GPU 进行推理。
有关全面概述,请访问Predict 设置部分和Predict 指南。
为什么要使用YOLO 模型进行混合精度训练?
混合精度训练,通过 amp=True
利用 FP16 和 FP32 的优势,可以帮助减少内存使用量,加快训练速度。这对现代 GPU 非常有利,因为 GPU 本身支持混合精度,可以在内存中容纳更多模型,并在不明显降低精度的情况下加快计算速度。在 列车指南.