数据集
Ultralytics Platform 数据集为管理您的训练数据提供了简化的解决方案。一旦上传,数据集即可立即用于模型训练,并自动进行处理和统计数据生成。
上传数据集
Ultralytics 支持多种上传格式,以实现灵活性。
支持的图像格式
| 格式 | 扩展 | 备注 |
|---|---|---|
| JPEG | .jpg, .jpeg | 最常见,推荐 |
| PNG | .png | 支持透明度 |
| WebP | .webp | 现代,压缩效果好 |
| BMP | .bmp | 未压缩 |
| GIF | .gif | 提取第一帧 |
| 多伦多国际电影节 | .tiff, .tif | 高品质 |
| HEIC | .heic | iPhone照片 |
| AVIF | .avif | 次世代格式 |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | 原始相机 |
支持的视频格式
视频自动提取为帧:
| 格式 | 扩展 | 提取 |
|---|---|---|
| MP4 | .mp4 | 每秒帧数,最高100帧 |
| WebM | .webm | 每秒帧数,最高100帧 |
| MOV | .mov | 每秒帧数,最高100帧 |
| AVI | .avi | 每秒帧数,最高100帧 |
| MKV | .mkv | 每秒帧数,最高100帧 |
| M4V | .m4v | 每秒帧数,最高100帧 |
文件大小限制
| 类型 | 最大尺寸 |
|---|---|
| 图像 | 每个50 MB |
| 视频 | 每块1 GB |
| ZIP文件 | 50 GB |
档案馆
支持最大50GB的ZIP文件,完整保留文件夹结构,并支持自动解压和处理。
准备数据集
对于带标签的数据集,请使用标准 YOLO 格式:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
yaml 文件定义了您的数据集配置:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
上传过程
- 在侧边栏中导航到数据集
- 点击上传数据集或将文件拖入上传区域
- 选择任务类型 (detect, segment, 姿势估计, 旋转框检测, classify)
- 添加名称和可选描述
- 点击 上传
上传后,平台将处理您的数据:
- 归一化:大图像已调整大小(最大 4096 像素)
- 缩略图:生成 256 像素预览图
- 标签解析:提取 YOLO 格式标签
- 统计:计算类别分布
上传前验证
您可以在上传前在本地验证您的数据集:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
浏览图像
以多种布局查看您的数据集图像:
| 查看 | 描述 |
|---|---|
| 网格 | 带标注叠加的缩略图网格 |
| 紧凑 | 更小的缩略图用于快速扫描 |
| 表格 | 包含文件名、尺寸和标签数量的列表 |
全屏查看器
点击任意图像以打开全屏查看器,其中包含:
- 导航:方向键或点击浏览
- 元数据:文件名、尺寸、拆分、标签数量
- 标注:切换标注可见性
- 类别细分:每个类别的标签数量
按拆分筛选
按数据集拆分筛选图像:
| 拆分 | 目的 |
|---|---|
| 训练 | 用于模型训练 |
| 验证 | 用于训练期间的验证 |
| 测试 | 用于最终评估 |
| 未知 | 未分配拆分 |
数据集统计
统计选项卡提供您数据集的自动分析:
类别分布
显示每个类别标注数量的条形图:
位置热图
标注在图像中出现位置的可视化:
维度分析
图像尺寸(宽度与高度)的散点图:
统计缓存
统计数据缓存5分钟。标注的更改将在缓存过期后反映。
导出数据集
以NDJSON格式导出您的数据集供离线使用:
- 打开数据集操作菜单
- 点击导出
- 下载NDJSON文件
NDJSON格式每行存储一个JSON对象:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
请参阅Ultralytics NDJSON 格式文档以获取完整规范。
数据集 URI
通过以下方式引用平台数据集 ul:// URI格式:
ul://username/datasets/dataset-slug
使用此 URI 可在任何地方训练模型:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
使用平台数据随时随地训练
字段 ul:// URI 可在任何环境中运行:
- 本地机器:在您的硬件上训练,数据自动下载
- Google Colab:在笔记本中访问您的平台数据集
- 远程服务器:在云虚拟机上训练,并拥有完整数据集访问权限
可见性设置
控制谁可以查看您的数据集:
| 设置 | 描述 |
|---|---|
| 私有 | 仅您可访问 |
| 公开 | 任何人均可在探索页面查看 |
更改可见性:
- 打开数据集操作菜单
- 点击 编辑
- 切换可见性设置
- 点击保存
编辑数据集
更新数据集名称、描述或可见性:
- 打开数据集操作菜单
- 点击 编辑
- 进行更改
- 点击保存
删除数据集
删除不再需要的数据集:
- 打开数据集操作菜单
- 点击删除
- 确认删除
回收站与恢复
已删除的数据集将移至回收站并保留 30 天。您可以从“设置”中的“回收站”页面恢复它们。
在数据集上训练
直接从您的数据集开始训练:
- 在数据集页面上点击训练模型
- 选择一个项目或创建新项目
- 配置训练参数
- 开始训练
请参阅云训练了解详情。
常见问题
上传后我的数据会怎样?
您的数据将在您选择的区域(美国、欧盟或 AP)进行处理和存储。图像为:
- 已验证格式和大小
- 如果大于 4096 像素则进行归一化(保持宽高比)
- 使用内容可寻址存储 (CAS) 进行存储,并采用 SHA-256 哈希
- 生成 256 像素的缩略图以便快速浏览
存储如何工作?
Ultralytics 平台使用内容可寻址存储 (CAS)以实现高效存储:
- 去重:不同用户上传的相同图像仅存储一次
- 完整性:SHA-256 哈希确保数据完整性
- 效率:降低存储成本并加快处理速度
- 区域性:数据保留在您选择的区域(美国、欧盟或 AP)
我可以向现有数据集添加图像吗?
是的,使用数据集页面上的添加图像按钮上传更多图像。新的统计数据将自动计算。
如何在数据集之间移动图像?
使用批量选择功能:
- 在图库中选择图像
- 点击移动或复制
- 选择目标数据集
支持哪些标签格式?
Ultralytics Platform 支持 YOLO 格式标签:
| 任务 | 格式 | 示例 |
|---|---|---|
| 检测 | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| 分割 | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| 姿势估计 | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| 分类 | 目录结构 | train/cats/, train/dogs/ |
所有坐标均已归一化(范围为0-1)。姿势估计 标记:0=未标注,1=已标注但被遮挡,2=已标注且可见。