跳转至内容

数据集

Ultralytics Platform 数据集为管理您的训练数据提供了简化的解决方案。一旦上传,数据集即可立即用于模型训练,并自动进行处理和统计数据生成。

上传数据集

Ultralytics 支持多种上传格式,以实现灵活性。

支持的图像格式

格式扩展备注
JPEG.jpg, .jpeg最常见,推荐
PNG.png支持透明度
WebP.webp现代,压缩效果好
BMP.bmp未压缩
GIF.gif提取第一帧
多伦多国际电影节.tiff, .tif高品质
HEIC.heiciPhone照片
AVIF.avif次世代格式
JP2.jp2JPEG 2000
DNG.dng原始相机

支持的视频格式

视频自动提取为帧:

格式扩展提取
MP4.mp4每秒帧数,最高100帧
WebM.webm每秒帧数,最高100帧
MOV.mov每秒帧数,最高100帧
AVI.avi每秒帧数,最高100帧
MKV.mkv每秒帧数,最高100帧
M4V.m4v每秒帧数,最高100帧

文件大小限制

类型最大尺寸
图像每个50 MB
视频每块1 GB
ZIP文件50 GB

档案馆

支持最大50GB的ZIP文件,完整保留文件夹结构,并支持自动解压和处理。

准备数据集

对于带标签的数据集,请使用标准 YOLO 格式:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yaml 文件定义了您的数据集配置:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

上传过程

  1. 在侧边栏中导航到数据集
  2. 点击上传数据集或将文件拖入上传区域
  3. 选择任务类型 (detect, segment, 姿势估计, 旋转框检测, classify)
  4. 添加名称和可选描述
  5. 点击 上传

上传后,平台将处理您的数据:

  1. 归一化:大图像已调整大小(最大 4096 像素)
  2. 缩略图:生成 256 像素预览图
  3. 标签解析:提取 YOLO 格式标签
  4. 统计:计算类别分布
上传前验证

您可以在上传前在本地验证您的数据集:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

浏览图像

以多种布局查看您的数据集图像:

查看描述
网格带标注叠加的缩略图网格
紧凑更小的缩略图用于快速扫描
表格包含文件名、尺寸和标签数量的列表

全屏查看器

点击任意图像以打开全屏查看器,其中包含:

  • 导航:方向键或点击浏览
  • 元数据:文件名、尺寸、拆分、标签数量
  • 标注:切换标注可见性
  • 类别细分:每个类别的标签数量

按拆分筛选

按数据集拆分筛选图像:

拆分目的
训练用于模型训练
验证用于训练期间的验证
测试用于最终评估
未知未分配拆分

数据集统计

统计选项卡提供您数据集的自动分析:

类别分布

显示每个类别标注数量的条形图:

位置热图

标注在图像中出现位置的可视化:

维度分析

图像尺寸(宽度与高度)的散点图:

统计缓存

统计数据缓存5分钟。标注的更改将在缓存过期后反映。

导出数据集

以NDJSON格式导出您的数据集供离线使用:

  1. 打开数据集操作菜单
  2. 点击导出
  3. 下载NDJSON文件

NDJSON格式每行存储一个JSON对象:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

请参阅Ultralytics NDJSON 格式文档以获取完整规范。

数据集 URI

通过以下方式引用平台数据集 ul:// URI格式:

ul://username/datasets/dataset-slug

使用此 URI 可在任何地方训练模型:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

使用平台数据随时随地训练

字段 ul:// URI 可在任何环境中运行:

  • 本地机器:在您的硬件上训练,数据自动下载
  • Google Colab:在笔记本中访问您的平台数据集
  • 远程服务器:在云虚拟机上训练,并拥有完整数据集访问权限

可见性设置

控制谁可以查看您的数据集:

设置描述
私有仅您可访问
公开任何人均可在探索页面查看

更改可见性:

  1. 打开数据集操作菜单
  2. 点击 编辑
  3. 切换可见性设置
  4. 点击保存

编辑数据集

更新数据集名称、描述或可见性:

  1. 打开数据集操作菜单
  2. 点击 编辑
  3. 进行更改
  4. 点击保存

删除数据集

删除不再需要的数据集:

  1. 打开数据集操作菜单
  2. 点击删除
  3. 确认删除

回收站与恢复

已删除的数据集将移至回收站并保留 30 天。您可以从“设置”中的“回收站”页面恢复它们。

在数据集上训练

直接从您的数据集开始训练:

  1. 在数据集页面上点击训练模型
  2. 选择一个项目或创建新项目
  3. 配置训练参数
  4. 开始训练

请参阅云训练了解详情。

常见问题

上传后我的数据会怎样?

您的数据将在您选择的区域(美国、欧盟或 AP)进行处理和存储。图像为:

  1. 已验证格式和大小
  2. 如果大于 4096 像素则进行归一化(保持宽高比)
  3. 使用内容可寻址存储 (CAS) 进行存储,并采用 SHA-256 哈希
  4. 生成 256 像素的缩略图以便快速浏览

存储如何工作?

Ultralytics 平台使用内容可寻址存储 (CAS)以实现高效存储:

  • 去重:不同用户上传的相同图像仅存储一次
  • 完整性:SHA-256 哈希确保数据完整性
  • 效率:降低存储成本并加快处理速度
  • 区域性:数据保留在您选择的区域(美国、欧盟或 AP)

我可以向现有数据集添加图像吗?

是的,使用数据集页面上的添加图像按钮上传更多图像。新的统计数据将自动计算。

如何在数据集之间移动图像?

使用批量选择功能:

  1. 在图库中选择图像
  2. 点击移动复制
  3. 选择目标数据集

支持哪些标签格式?

Ultralytics Platform 支持 YOLO 格式标签:

任务格式示例
检测class cx cy w h0 0.5 0.5 0.2 0.3
分割class x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
姿势估计class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
分类目录结构train/cats/, train/dogs/

所有坐标均已归一化(范围为0-1)。姿势估计 标记:0=未标注,1=已标注但被遮挡,2=已标注且可见。



📅 创建于 20 天前 ✏️ 更新于 12 天前
glenn-jocherLaughing-q

评论