模型训练

Ultralytics Platform 提供了全面的工具来训练 YOLO 模型,从组织实验到通过实时指标流运行云训练作业,应有尽有。



Watch: Get Started with Ultralytics Platform - Train

概览

训练部分可以帮助你:

  • 组织模型到 projects 中以便于管理
  • 训练:通过单击即可在云端 GPU 上进行训练
  • 监控:训练期间实时监控各项指标
  • 对比:跨实验对比模型性能
  • 导出:导出至 17 种以上的部署格式(请参阅 supported formats

Ultralytics Platform Train Overview

工作流程

graph LR
    A[📁 Project] --> B[⚙️ Configure]
    B --> C[🚀 Train]
    C --> D[📈 Monitor]
    D --> E[📦 Export]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
    style E fill:#00BCD4,color:#fff
阶段描述
项目创建一个工作空间以组织相关模型
配置选择 dataset、基础模型和训练参数
训练在云端 GPU 或你的本地硬件上运行
监控查看实时损失曲线和指标
导出转换为 17 种以上的部署格式(details

训练选项

Ultralytics Platform 支持多种训练方法:

方法描述适用人群
Cloud Training在 Ultralytics 云端 GPU 上训练无需本地 GPU,可扩展性强
Local Training本地训练,将指标流式传输至平台现有硬件,注重隐私
Colab Training将 Google Colab 与平台集成使用免费 GPU 访问

GPU 选项

Ultralytics Cloud 上可用于云训练的 GPU:

GPU代次显存成本/小时适用人群
RTX 2000 AdaAda16 GB$0.24小型数据集,测试
RTX A4500Ampere20 GB$0.25中小型数据集
RTX 4000 AdaAda20 GB$0.26中型数据集
RTX A5000Ampere24 GB$0.27中型数据集
L4Ada24 GB$0.39针对推理优化
A40Ampere48 GB$0.44更大的批次大小
RTX 3090Ampere24 GB$0.46常规训练
RTX A6000Ampere48 GB$0.49大型模型
RTX PRO 4500Blackwell32 GB$0.64极佳的性价比
RTX 4090Ada24 GB$0.69最优性价比
RTX 6000 AdaAda48 GB$0.77大批量训练
L40SAda48 GB$0.86大批量训练
RTX 5090Blackwell32 GB$0.99最新消费级架构
L40Ada48 GB$0.99大型模型
A100 PCIeAmpere80 GB$1.39生产环境训练
A100 SXMAmpere80 GB$1.49生产环境训练
RTX PRO 6000Blackwell96 GB$1.89默认推荐
H100 PCIeHopper80 GB$2.39高性能训练
H100 SXMHopper80 GB$2.99最快训练
H100 NVLHopper94 GB$3.07极致性能
H200 NVLHopper143 GB$3.39最大显存
H200 SXMHopper141 GB$3.99极致性能
B200Blackwell180 GB$5.49大型模型 (Pro+)
B300Blackwell288 GB$7.39超大型模型 (Pro+)
GPU 层级访问权限

B200 和 B300 GPU 需要 Pro 或 Enterprise 计划。所有其他 GPU 均适用于包括 Free 在内的所有计划。

注册积分

新账户会收到用于训练的注册积分。详情请查看 Billing

实时指标

训练期间,可在三个子选项卡中查看实时指标:

graph LR
    A[Charts] --> B[Loss Curves]
    A --> C[Performance Metrics]
    D[Console] --> E[Live Logs]
    D --> F[Error Detection]
    G[System] --> H[GPU Utilization]
    G --> I[Memory & Temp]

    style A fill:#2196F3,color:#fff
    style D fill:#FF9800,color:#fff
    style G fill:#9C27B0,color:#fff
子标签指标
图表Box/class/DFL 损失,mAP50,mAP50-95,精度,召回率
控制台带有 ANSI 颜色和错误检测功能的实时训练日志
系统GPU 利用率、内存、温度、CPU、磁盘
自动检查点

对于云训练,最佳模型best.pt,即 mAP 最高的检查点)会自动保存,并在训练完成后提供下载、导出和部署。

快速入门

在一分钟内开始云训练:

  1. 在侧边栏创建一个项目
  2. 点击 New Model
  3. 选择模型、数据集和 GPU
  4. 点击 Start Training

快速链接

常见问题解答

训练需要多长时间?

训练时间取决于:

  • 数据集大小(图像数量)
  • 模型大小(n, s, m, l, x)
  • Epoch(轮次)数量
  • 所选的 GPU 类型

在 RTX PRO 6000 上使用 YOLO26n 训练 1000 张图像、100 个 Epoch 的典型运行时间约为 2-3 小时。较小的任务(在 RTX 4090 上训练 500 张图像、50 个 Epoch)在一小时内即可完成。请查看 cost examples 以获取详细估算。

我可以同时训练多个模型吗?

可以。并发云训练限制取决于你的计划:Free 允许 3 个,Pro 允许 10 个,Enterprise 则无限制。若需进行更多并行训练,请使用多台机器进行远程训练。

如果训练失败会发生什么?

如果训练失败:

  1. 每个 Epoch 都会保存检查点
  2. 你可以从上一个检查点恢复训练
  3. 积分仅按已完成的计算时间计费

如何选择合适的 GPU?

场景推荐 GPU
大多数训练任务RTX PRO 6000
大型数据集或大批量H100 SXM 或 H200
预算有限RTX 4090

评论