跳转至内容

云端训练

Ultralytics 训练服务提供单击式云GPU训练功能,无需复杂配置即可轻松启动模型训练。支持实时指标流传输与自动检查点保存,YOLO 高效训练。


观看: 基于Ultralytics 云端培训

从UI出发的列车

直接从平台开始云培训:

  1. 导航至您的项目
  2. 点击火车模型
  3. 配置训练参数
  4. 点击开始训练

步骤1:选择数据集

从您的上传文件中选择一个数据集:

选项描述
您的数据集您已上传的数据集
公共数据集来自探索的共享数据集

步骤2:配置模型

选择基础模型和参数:

参数描述默认值
模型基础架构(YOLO11n,s,m,l,x)YOLO11n
纪元训练迭代次数100
图像大小输入分辨率640
批量大小每次迭代的样本数汽车

步骤3:GPU

选择您的计算资源:

GPU视频内存速度每小时成本
RTX 6000 Pro96GB非常快免费
M4 Pro(Mac)64GB快速免费
RTX 309024GB$0.44
RTX 409024GB快速$0.74
L40S48GB快速$1.14
A100 40GB40GB非常快$1.29
A100 80GB80GB非常快$1.99
H100 80GB80GB最快$3.99

GPU

  • RTX 6000 Pro(免费):适用于Ultralytics tralytics基础设施上的大多数训练任务
  • M4 Pro(免费):适用于兼容工作负载的Apple Silicon选项
  • RTX 4090:付费云端培训的最佳性价比之选
  • A100 80GB:适用于大批量处理或大型模型
  • H100:为时间敏感型训练提供最高性能

免费培训层级

RTX 6000 Pro Ada(96GB显存)和M4 Pro GPUUltralytics 免费使用,非常适合入门级和常规训练任务。

步骤4:开始训练

点击开始培训以启动您的工作。平台:

  1. GPU 分配资源
  2. 下载您的数据集
  3. 开始训练
  4. 实时流式传输指标

免费积分

新账户可获赠5美元信用额度——足够在RTX 4090上进行多次训练运行。前往"设置 > 账单"查看余额

监视器培训

查看实时培训进度:

实时指标

指标描述
损失训练和验证损失
mAP平均精度均值
精确度正确的阳性预测
召回率检测到的真实值
GPUGPU 百分比
内存GPU 使用情况

检查点

检查点会自动保存:

  • 每个时代:最新权重已保存
  • 最佳模型:保留最高mAP
  • 最终模型:训练完成时的权重

暂停与继续

停止训练

点击“停止训练”可暂停您的任务:

  • 当前检查点已保存
  • GPU 已释放
  • 费用停止计费

恢复训练

从您上次的检查点继续:

  1. 导航至模型
  2. 点击继续训练
  3. 确认继续

简历限制

您只能恢复明确停止的训练任务。失败的训练任务可能需要从头开始重新启动。

远程培训

在自有硬件上进行训练,同时将指标流式传输至平台。

软件包版本要求

平台集成需要ultralytics>= 8.4.0 版本。较低版本将无法与平台兼容。

pip install "ultralytics>=8.4.0"

设置API密钥

  1. 前往设置 > API密钥
  2. 创建具有训练作用域的新密钥
  3. 设置环境变量:
export ULTRALYTICS_API_KEY="your_api_key"

流媒体训练

使用 projectname 流式传输指标的参数:

yolo train model=yolo11n.pt data=coco.yaml epochs=100 \
  project=username/my-project name=experiment-1
from ultralytics import YOLO

model = YOLO("yolo11n.pt")
model.train(
    data="coco.yaml",
    epochs=100,
    project="username/my-project",
    name="experiment-1",
)

使用平台数据集

使用存储在平台上的数据集进行训练:

yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100

字段 ul:// URI格式会自动下载并配置您的数据集。

账单

培训成本基于GPU 情况:

成本计算

Total Cost = GPU Rate × Training Time (hours)
示例GPU时间成本
小差事RTX 40901小时$0.74
中等工作A100 40GB4小时$5.16
大型项目H1008小时$31.92

付款方式

方法描述
账户余额预装信用点
按任务付费工作完成时收费

最低余额

启动基于纪元的训练需要至少5.00美元的余额。

查看培训费用

培训结束后,请在“计费”选项卡中查看详细费用:

  • 每 epoch 成本细分
  • 总GPU 时间
  • 下载成本报告

训练技巧

选择合适的模型尺寸

模型参数最适合
YOLO11n2.6M实时、边缘设备
YOLO11s9.4M速度与精度的平衡
YOLO11m20.1M更高精度
YOLO11l25.3M生产精度
YOLO11x56.9M最高精度

优化培训时间

  1. 从小处着手:先用较少的训练轮次进行测试
  2. 使用GPU:GPU 模型/批量大小GPU
  3. 验证数据集:确保训练前的数据质量
  4. 及早监控:若指标停滞则停止

故障排除

问题解决方案
训练卡在0%检查数据集格式,重试
内存不足减少批处理大小或使用GPU
精度差增加训练 epoch 数,检查数据质量
训练缓慢考虑更快的GPU

常见问题

培训需要多长时间?

培训时间取决于:

  • 数据集大小
  • 模型尺寸
  • epoch数
  • GPU

典型时间(1000张图像,100个 epoch):

模型RTX 4090A100
YOLO11n30分钟20分钟
YOLO11m60分钟40分钟
YOLO11x120分钟80分钟

我能通宵训练吗?

是的,训练将持续进行直至完成。训练结束后您将收到通知。请确保您的账户余额充足以支持基于 epoch 的训练。

如果我的积分用完了怎么办?

训练将在当前 epoch 结束时暂停。检查点已保存,您可在充值后继续训练。

我可以使用自定义训练参数吗?

是的,高级用户可以在训练配置中指定额外的参数。

训练参数参考

核心参数

参数类型默认值范围描述
epochsint1001+训练 epoch 数
batchint16-1 = 自动批处理大小(-1表示自动)
imgszint64032+输入图像尺寸
patienceint1000+提前终止的耐心
workersint80+数据加载器工作者
cache布尔值虚假-缓存图像(内存/磁盘)

学习率参数

参数类型默认值范围描述
lr0浮点数0.010.0-1.0初始学习率
lrf浮点数0.010.0-1.0最终LR因子
momentum浮点数0.9370.0-1.0SGD
weight_decay浮点数0.00050.0-1.0L2正则化
warmup_epochs浮点数3.00+预热 epochs
cos_lr布尔值虚假-余弦LR调度器

增强参数

参数类型默认值范围描述
hsv_h浮点数0.0150.0-1.0HSV色相增强
hsv_s浮点数0.70.0-1.0HSV饱和度
hsv_v浮点数0.40.0-1.0HSV值
degrees浮点数0.0-旋转角度
translate浮点数0.10.0-1.0翻译比例
scale浮点数0.50.0-1.0比例因子
fliplr浮点数0.50.0-1.0水平翻转探针
flipud浮点数0.00.0-1.0垂直翻转探针
mosaic浮点数1.00.0-1.0马赛克增强
mixup浮点数0.00.0-1.0混淆增强
copy_paste浮点数0.00.0-1.0复制粘贴(segment)

优化器选择

价值描述
auto自动选择(默认)
SGD随机梯度下降法
AdamAdam 优化器
AdamWAdam 重量衰减

任务特定参数

某些参数仅适用于特定任务:

  • 分割: overlap_mask, mask_ratio, copy_paste
  • 姿势估计: pose (减重) kobj (关键点客观性)
  • 分类: dropout, erasing, auto_augment


📅 0 天前创建 ✏️ 0 天前更新
glenn-jocher

评论