跳转至内容

数据集

Ultralytics 为管理训练数据提供了高效解决方案。数据集上传后即可立即用于模型训练,并自动完成数据处理与统计生成。


观看: 将数据集上传至Ultralytics

上传数据集

Ultralytics 支持多种上传格式,以实现灵活性:

格式描述
图像单个图像文件(JPG、PNG、WebP、TIFF、RAW)
ZIP压缩包压缩文件夹,内含图片及可选标签
视频MP4、AVI文件——以约1帧/秒的速度提取帧
YOLO标准YOLO 结构及标签

视频帧提取

上传视频时,会自动提取帧:

  • 帧率:约每秒1帧
  • 最大帧数:每段视频100帧
  • 处理:上传前的客户端提取
  • 格式:帧转换为标准图像格式

这非常适合从监控录像、动作记录或任何视频源创建训练数据集。

数据集准备

对于标注数据集,请使用标准YOLO :

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

YAML文件定义了您的数据集配置:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

上传流程

  1. 在侧边栏中导航至数据集
  2. 点击“上传数据集”或将文件拖拽至上传区域
  3. 选择任务类型(detect、segment、姿势估计、旋转框检测、classify)
  4. 添加名称及可选描述
  5. 点击上传

上传后,平台将处理您的数据:

  1. 标准化:大尺寸图片已调整大小(最大4096像素)
  2. 缩略图:生成256像素预览图
  3. 标签解析:提取YOLO 标签
  4. 统计:计算出的班级分布情况
上传前验证

您可以在上传前在本地验证数据集:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

浏览图片

以多种布局查看您的数据集图像:

查看描述
网格带注释叠加层的缩略图网格
紧凑更小的缩略图以便快速浏览
表格包含文件名、尺寸和标签数量的列表

全屏查看器

点击任意图片即可打开全屏查看器:

  • 导航:使用方向键或点击浏览
  • 元数据:文件名、尺寸、分割、标签数量
  • 注释:切换注释可见性
  • 课程分类:按课程标签计数

按拆分过滤

按数据集划分过滤图像:

分裂目的
训练用于模型训练
验证用于训练期间的验证
测试用于最终评估
未知未分配拆分

数据集统计

统计选项卡提供对数据集的自动分析:

Distribution

显示每类注释数量的条形图:

位置热力图

图像中注释位置的可视化:

量纲分析

图像尺寸散点图(宽度与高度):

统计缓存

统计数据缓存时长为5分钟。注释的修改将在缓存过期后生效。

导出数据集

将数据集导出为NDJSON格式以供离线使用:

  1. 打开数据集操作菜单
  2. 点击导出
  3. 下载NDJSON文件

NDJSON格式每行存储一个JSON对象:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

请参Ultralytics 格式文档以获取完整规范。

数据集统一资源标识符

使用 ul:// URI格式:

ul://username/datasets/dataset-slug

使用此URI从任何位置训练模型:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100

利用平台数据随时随地进行训练

字段 ul:// URI可在任何环境中运行:

  • 本地机器:在您的硬件上训练,数据自动下载
  • Google :在笔记本中访问您的平台数据集
  • 远程服务器:在云虚拟机上进行训练,并享有完整数据集访问权限

可见性设置

控制谁能查看您的数据集:

设置描述
私人只有你能访问
公共任何人都可以在探索页面查看

要更改可见性:

  1. 打开数据集操作菜单
  2. 点击编辑
  3. 切换可见性设置
  4. 点击保存

编辑数据集

更新数据集名称、描述或可见性:

  1. 打开数据集操作菜单
  2. 点击编辑
  3. 进行更改
  4. 点击保存

删除数据集

删除不再需要的数据集:

  1. 打开数据集操作菜单
  2. 点击删除
  3. 确认删除

垃圾与恢复

已删除的数据集将移至回收站,保留30天。您可通过设置中的回收站页面进行恢复。

在数据集上训练

直接从您的数据集开始训练:

  1. 在数据集页面上点击“列车模型”
  2. 选择一个项目或创建新项目
  3. 配置训练参数
  4. 开始训练

详情请参阅云培训

常见问题

上传后我的数据会怎样?

您的数据将在您选择的区域(美国、欧盟或AP)进行处理和存储。图片将:

  1. 格式和尺寸均已验证
  2. 若大于4096像素则进行标准化处理(保持宽高比)
  3. 使用内容可寻址存储(CAS)并采用SHA-256哈希算法进行存储
  4. 缩略图以256像素生成,实现快速浏览
  5. 未经您许可,绝不分享

存储是如何运作的?

Ultralytics 内容可寻址存储(CAS)实现高效存储:

  • 重复数据删除:由不同用户上传的相同图像仅存储一次
  • 完整性:SHA-256哈希算法确保数据完整性
  • 效率:降低存储成本并加快处理速度
  • 区域性:数据将保留在您选择的区域(美国、欧盟或AP)

我能向现有数据集添加图片吗?

是的,请在数据集页面使用“添加图片”按钮上传更多图片。系统将自动计算新的统计数据。

如何在数据集之间移动图像?

使用批量选择功能:

  1. 在图库中选择图片
  2. 点击移动复制
  3. 选择目标数据集

支持哪些标签格式?

Ultralytics YOLO 标签:

  • 检测: class_id x_center y_center width height
  • 分割: class_id x1 y1 x2 y2 ... (多边形点)
  • 姿势估计: class_id x_center y_center width height kp1_x kp1_y kp1_v ...
  • OBB: class_id x1 y1 x2 y2 x3 y3 x4 y4

所有坐标均已归一化(范围为0-1)。



📅 0 天前创建 ✏️ 0 天前更新
glenn-jocher

评论