机器学习最佳实践和模型训练技巧
导言
计算机视觉项目最重要的步骤之一就是模型训练。在完成这一步之前,您需要确定目标并收集和注释数据。在对数据进行预处理以确保其干净一致后,就可以开始训练模型了。
观看: 模型训练技巧 | 如何处理大型数据集 | 批量大小、GPU 利用率和 混合精度
那么,什么是模型训练?模型训练是教会模型识别视觉模式并根据数据进行预测的过程。它直接影响应用程序的性能和准确性。在本指南中,我们将介绍最佳实践、优化技术和故障排除技巧,帮助您有效地训练计算机视觉模型。
如何训练机器学习模型
计算机视觉模型是通过调整其内部参数来训练的,以尽量减少误差。起初,模型会收到一大组有标签的图像。它对这些图像中的内容进行预测,并将预测结果与实际标签或内容进行比较,从而计算出误差。这些误差显示了模型的预测与真实值的偏差程度。
在训练过程中,模型通过一个称为反向传播的过程反复进行预测、计算误差和更新参数。在此过程中,模型会调整其内部参数 (weights and biases) 以减少误差。通过多次重复这一循环,模型逐渐提高了准确性。随着时间的推移,它就能学会识别形状、颜色和纹理等复杂模式。
这一学习过程使计算机视觉模型能够执行各种任务,包括物体检测、实例分割和图像分类。我们的最终目标是创建一个能够将其学习成果推广到新的、未见过的图像中的模型,从而在实际应用中准确理解视觉数据。
既然我们已经知道了训练模型时幕后发生了什么,那么让我们来看看训练模型时需要考虑的要点。
在大型数据集上进行训练
在计划使用大型数据集训练模型时,需要考虑几个不同的方面。例如,可以调整批量大小、控制GPU 利用率、选择使用多尺度训练等。下面让我们逐一详细介绍这些选项。
批量大小和GPU 利用率
在大型数据集上训练模型时,有效利用GPU 是关键。批量大小是一个重要因素。它是机器学习模型在一次训练迭代中处理的数据样本数量。 使用GPU 支持的最大批量大小,可以充分利用其功能,缩短模型训练时间。但是,要避免GPU 内存不足。如果遇到内存错误,请逐步减少批量大小,直到模型训练顺利进行。
关于YOLO11 ,您可以设置 batch_size
参数中的 培训配置 以匹配GPU 的容量。此外,设置 batch=-1
会自动确定 批量大小 根据设备的能力,您可以有效地处理这些数据。通过微调批量大小,您可以充分利用GPU 资源,改善整个培训过程。
子集培训
子集训练是一种聪明的策略,即在代表较大数据集的较小数据集上训练模型。它可以节省时间和资源,尤其是在初始模型开发和测试期间。如果您的时间不够或正在尝试不同的模型配置,子集训练是一个不错的选择。
YOLO11 时,可以通过使用 fraction
参数。通过该参数,您可以指定将数据集的哪一部分用于训练。例如,设置 fraction=0.1
将在 10% 的数据上训练模型。在使用完整数据集训练模型之前,您可以使用这种技术快速迭代和调整模型。子集训练可帮助您快速取得进展,并尽早发现潜在问题。
多尺度培训
多尺度训练是一种通过在不同大小的图像上进行训练来提高模型泛化能力的技术。您的模型可以学会检测不同尺度和距离的物体,从而变得更加强大。
例如,在训练YOLO11 时,可以通过设置 scale
参数。该参数可按指定系数调整训练图像的大小,模拟不同距离的物体。例如,设置 scale=0.5
randomly zooms training images by a factor between 0.5 and 1.5 during training. Configuring this parameter allows your model to experience a variety of image scales and improve its detection capabilities across different object sizes and scenarios.
缓存
缓存是提高机器学习模型训练效率的一项重要技术。通过在内存中存储预处理图像,缓存减少了GPU 从磁盘加载数据的等待时间。模型可以持续接收数据,而不会因磁盘 I/O 操作而造成延迟。
在训练YOLO11 时,可以使用 cache
参数:
cache=True
:在内存中存储数据集图像,提供最快的访问速度,但代价是增加内存使用量。cache='disk'
:将图像存储在磁盘上,速度比 RAM 慢,但比每次加载新数据快。cache=False
:禁用缓存,完全依赖磁盘 I/O,这是速度最慢的选项。
混合精密训练
混合精度训练同时使用 16 位 (FP16) 和 32 位 (FP32) 浮点类型。通过使用 FP16 加快计算速度,使用 FP32 保持所需的精度,从而充分利用了 FP16 和 FP32 的优势。神经网络的大部分操作都是在 FP16 中完成的,从而受益于更快的计算速度和更低的内存使用率。不过,模型权重的主副本保存在 FP32 中,以确保权重更新步骤的准确性。在相同的硬件限制条件下,您可以处理更大的模型或更大的批量。
要实现混合精度训练,需要修改训练脚本,并确保硬件(如 GPU)支持混合精度训练。许多现代深度学习框架,如 Tensorflow提供了对混合精度的内置支持。
在使用YOLO11 时,混合精度训练非常简单。您可以使用 amp
标记。设置 amp=True
实现自动混合精度 (AMP) 训练。混合精度训练是优化模型训练过程的一种简单而有效的方法。
预训练重量
使用预训练权重是加快模型训练过程的明智之举。预训练的权重来自于已经在大型数据集上训练过的模型,为你的模型提供了先机。迁移学习可使预训练模型适应新的相关任务。对预训练模型的微调包括从这些权重开始,然后在特定数据集上继续训练。这种训练方法训练时间更快,而且通常性能更好,因为模型一开始就对基本特征有了扎实的了解。
"(《世界人权宣言》) pretrained
通过YOLO11 ,参数可轻松实现转移学习。设置 pretrained=True
将使用默认的预训练权重,或者您也可以指定自定义预训练模型的路径。使用预训练权重和迁移学习可以有效提高模型能力,降低训练成本。
处理大型数据集时需要考虑的其他技术
在处理大型数据集时,还需要考虑其他一些技术:
- 学习率调度器:实施学习率调度器可在训练过程中动态调整学习率。经过良好调整的学习率可以防止模型过冲最小值并提高稳定性。当训练YOLO11 时
lrf
参数将最终学习率设置为初始学习率的一部分,从而帮助管理学习率调度。 - 分布式训练:在处理大型数据集时,分布式训练可以改变游戏规则。您可以将训练工作量分散到多个 GPU 或机器上,从而缩短训练时间。
要训练的纪元数
在训练模型时,一个历元指的是对整个训练数据集进行一次完整的遍历。在一个历元期间,模型会对训练集中的每个示例处理一次,并根据学习算法更新其参数。通常需要多个历元才能让模型随着时间的推移学习和完善其参数。
一个常见问题是如何确定训练模型的历元数。一个好的起点是 300 个历元。如果模型在早期出现过拟合,可以减少epoch次数。如果 300 个 Epoch 之后没有出现过拟合,则可以将训练时间延长至 600、1200 或更多 Epoch。
不过,理想的epoch次数会根据数据集的大小和项目目标而有所不同。较大的数据集可能需要更多的epoch次数才能让模型有效学习,而较小的数据集可能需要较少的epoch次数以避免过度拟合。关于YOLO11 ,您可以设置 epochs
参数。
提前停车
早期停止是优化模型训练的一项重要技术。通过监控验证性能,一旦模型停止改进,就可以停止训练。这样既能节省计算资源,又能防止过度拟合。
这一过程包括设置一个耐心参数,决定在停止训练前要等待多少个历元验证指标的改善。如果模型的性能在这些历元内没有改善,就会停止训练,以避免浪费时间和资源。
对于YOLO11 ,可以通过在训练配置中设置耐心参数来启用提前停止。例如 patience=5
也就是说,如果验证指标连续 5 个历元没有改善,训练就会停止。使用这种方法可以确保训练过程保持高效,并在不进行过多计算的情况下实现最佳性能。
在云培训和本地培训之间做出选择
培训模型有两种选择:云培训和本地培训。
云培训提供了可扩展性和强大的硬件,是处理大型数据集和复杂模型的理想选择。Google Cloud、AWS 和 Azure 等平台可按需访问高性能 GPU 和 TPU,从而加快训练时间,并可进行大型模型实验。不过,云训练可能会很昂贵,尤其是长期训练,而且数据传输会增加成本和延迟。
本地培训可提供更强的控制和定制能力,让您可以根据特定需求定制环境,并避免持续的云成本。对于长期项目来说,本地培训更经济,而且由于数据保留在本地,因此更安全。不过,本地硬件可能有资源限制,需要维护,这可能导致大型模型的培训时间延长。
选择优化器
优化器是一种算法,它可以调整神经网络的权重,使损失函数最小化,损失函数用于衡量模型的性能。简单地说,优化器通过调整参数来帮助模型学习,从而减少误差。选择正确的优化器会直接影响模型学习的速度和准确性。
您还可以对优化器参数进行微调,以提高模型性能。调整学习率可以设置更新参数时的步长。为了保持稳定,您可以从适度的学习率开始,随着时间的推移逐渐降低学习率,以提高长期学习能力。此外,动量的设置决定了过去的更新对当前更新的影响程度。动量的常用值约为 0.9。一般来说,它能提供良好的平衡。
常用优化器
不同的优化器有不同的优缺点。让我们来看看几种常见的优化器。
-
SGD(随机梯度下降):
- 利用损失函数相对于参数的梯度更新模型参数。
- 简单高效,但收敛速度较慢,可能会陷入局部最小值。
-
亚当(自适应矩估计):
- 结合了具有动量的 SGD 和 RMSProp 的优点。
- 根据梯度第一矩和第二矩的估计值,调整每个参数的学习率。
- 非常适合噪声数据和稀疏梯度。
- 效率高,通常需要较少的调整,因此是YOLO11 的推荐优化器。
-
RMSProp(均方根传播):
- 将梯度除以最近梯度的平均值,从而调整每个参数的学习率。
- 有助于处理梯度消失问题,对递归神经网络非常有效。
对于YOLO11 , optimizer
参数可让您从各种优化器中进行选择,包括 SGD、Adam、AdamW、NAdam、RAdam 和 RMSProp,也可以将其设置为 auto
以根据模型配置进行自动选择。
与社区联系
作为计算机视觉爱好者社区的一员,可以帮助您解决问题并加快学习速度。以下是一些联系、获取帮助和分享想法的方法。
社区资源
- GitHub 问题:访问YOLO11 GitHub 代码库,使用 "问题 "选项卡提问、报告错误和建议新功能。社区和维护者非常活跃,随时准备提供帮助。
- Ultralytics Discord 服务器:加入Ultralytics Discord 服务器,与其他用户和开发人员聊天,获得支持并分享经验。
官方文件
- Ultralytics YOLO11 文档:查看 YOLO11 官方文档,了解各种计算机视觉项目的详细指南和有用技巧。
使用这些资源将帮助您解决难题,并了解计算机视觉领域的最新趋势和实践。
主要收获
训练计算机视觉模型需要遵循良好的实践、优化策略并解决出现的问题。调整批量大小、混合精度训练和从预先训练的权重开始等技术可以让你的模型运行得更好,训练得更快。子集训练和提前停止训练等方法可以帮助您节省时间和资源。与社区保持联系并紧跟新趋势将有助于您不断提高模型训练技能。
常见问题
在使用Ultralytics YOLO 训练大型数据集时,如何提高GPU 的利用率?
要提高GPU 的利用率,请设置 batch_size
请将培训配置中的参数设置为GPU 支持的最大尺寸。这可确保您充分利用GPU 的功能,缩短训练时间。如果遇到内存错误,可逐步减少批量大小,直到训练顺利进行。对于YOLO11 ,设置 batch=-1
将自动确定最佳批量大小,以实现高效处理。有关详细信息,请参阅 培训配置.
什么是混合精度训练,如何在YOLO11 中启用?
混合精度训练利用 16 位 (FP16) 和 32 位 (FP32) 浮点类型来平衡计算速度和精度。这种方法可加快训练速度并减少内存使用量,同时不影响模型 精确度.要在YOLO11 中启用混合精度训练,请设置 amp
参数改为 True
在训练配置中。这将激活自动混合精度 (AMP) 训练。有关该优化技术的更多详情,请参阅 培训配置.
多尺度训练如何提高YOLO11 模型的性能?
多尺度训练通过在不同大小的图像上进行训练来提高模型性能,从而使模型在不同尺度和距离的图像上具有更好的泛化能力。在YOLO11 中,您可以通过设置 scale
参数。例如 scale=0.5
将图像尺寸缩小一半,而 scale=2.0
加倍。这种技术可以模拟不同距离的物体,使模型在各种情况下都更加稳健。有关设置和更多详情,请查看 培训配置.
如何使用预训练权重来加快YOLO11 中的训练速度?
使用预训练的权重可以大大减少训练时间,并通过从一个已经了解基本特征的模型开始训练来提高模型性能。在YOLO11 中,您可以设置 pretrained
参数改为 True
或在训练配置中指定自定义预训练权重的路径。这种方法被称为迁移学习,它利用大型数据集的知识来适应你的特定任务。进一步了解预训练权重及其优势 这里.
建议训练模型的历元数是多少,如何在YOLO11 中设置?
历元数是指模型训练过程中训练数据集的完整遍数。典型的起始点是 300 个历元。如果模型过早拟合,可以减少次数。或者,如果没有观察到过拟合,可以将训练次数延长到 600、1200 或更多。要在YOLO11 中进行设置,请使用 epochs
参数。有关确定理想epoch次数的其他建议,请参阅本节的 计时次数.