数据集
Ultralytics 为管理训练数据提供了高效解决方案。数据集上传后即可立即用于模型训练,并自动完成数据处理与统计生成。
观看: 将数据集上传至Ultralytics
上传数据集
Ultralytics 支持多种上传格式,以实现灵活性:
| 格式 | 描述 |
|---|---|
| 图像 | 单个图像文件(JPG、PNG、WebP、TIFF、RAW) |
| ZIP压缩包 | 压缩文件夹,内含图片及可选标签 |
| 视频 | MP4、AVI文件——以约1帧/秒的速度提取帧 |
| YOLO | 标准YOLO 结构及标签 |
视频帧提取
上传视频时,会自动提取帧:
- 帧率:约每秒1帧
- 最大帧数:每段视频100帧
- 处理:上传前的客户端提取
- 格式:帧转换为标准图像格式
这非常适合从监控录像、动作记录或任何视频源创建训练数据集。
数据集准备
对于标注数据集,请使用标准YOLO :
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
YAML文件定义了您的数据集配置:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
上传流程
- 在侧边栏中导航至数据集
- 点击“上传数据集”或将文件拖拽至上传区域
- 选择任务类型(detect、segment、姿势估计、旋转框检测、classify)
- 添加名称及可选描述
- 点击上传
上传后,平台将处理您的数据:
- 标准化:大尺寸图片已调整大小(最大4096像素)
- 缩略图:生成256像素预览图
- 标签解析:提取YOLO 标签
- 统计:计算出的班级分布情况
上传前验证
您可以在上传前在本地验证数据集:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
浏览图片
以多种布局查看您的数据集图像:
| 查看 | 描述 |
|---|---|
| 网格 | 带注释叠加层的缩略图网格 |
| 紧凑 | 更小的缩略图以便快速浏览 |
| 表格 | 包含文件名、尺寸和标签数量的列表 |
全屏查看器
点击任意图片即可打开全屏查看器:
- 导航:使用方向键或点击浏览
- 元数据:文件名、尺寸、分割、标签数量
- 注释:切换注释可见性
- 课程分类:按课程标签计数
按拆分过滤
按数据集划分过滤图像:
| 分裂 | 目的 |
|---|---|
| 训练 | 用于模型训练 |
| 验证 | 用于训练期间的验证 |
| 测试 | 用于最终评估 |
| 未知 | 未分配拆分 |
数据集统计
统计选项卡提供对数据集的自动分析:
类Distribution
显示每类注释数量的条形图:
位置热力图
图像中注释位置的可视化:
量纲分析
图像尺寸散点图(宽度与高度):
统计缓存
统计数据缓存时长为5分钟。注释的修改将在缓存过期后生效。
导出数据集
将数据集导出为NDJSON格式以供离线使用:
- 打开数据集操作菜单
- 点击导出
- 下载NDJSON文件
NDJSON格式每行存储一个JSON对象:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
请参Ultralytics 格式文档以获取完整规范。
数据集统一资源标识符
使用 ul:// URI格式:
ul://username/datasets/dataset-slug
使用此URI从任何位置训练模型:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo11n.pt data=ul://username/datasets/my-dataset epochs=100
利用平台数据随时随地进行训练
字段 ul:// URI可在任何环境中运行:
- 本地机器:在您的硬件上训练,数据自动下载
- Google :在笔记本中访问您的平台数据集
- 远程服务器:在云虚拟机上进行训练,并享有完整数据集访问权限
可见性设置
控制谁能查看您的数据集:
| 设置 | 描述 |
|---|---|
| 私人 | 只有你能访问 |
| 公共 | 任何人都可以在探索页面查看 |
要更改可见性:
- 打开数据集操作菜单
- 点击编辑
- 切换可见性设置
- 点击保存
编辑数据集
更新数据集名称、描述或可见性:
- 打开数据集操作菜单
- 点击编辑
- 进行更改
- 点击保存
删除数据集
删除不再需要的数据集:
- 打开数据集操作菜单
- 点击删除
- 确认删除
垃圾与恢复
已删除的数据集将移至回收站,保留30天。您可通过设置中的回收站页面进行恢复。
在数据集上训练
直接从您的数据集开始训练:
- 在数据集页面上点击“列车模型”
- 选择一个项目或创建新项目
- 配置训练参数
- 开始训练
详情请参阅云培训。
常见问题
上传后我的数据会怎样?
您的数据将在您选择的区域(美国、欧盟或AP)进行处理和存储。图片将:
- 格式和尺寸均已验证
- 若大于4096像素则进行标准化处理(保持宽高比)
- 使用内容可寻址存储(CAS)并采用SHA-256哈希算法进行存储
- 缩略图以256像素生成,实现快速浏览
- 未经您许可,绝不分享
存储是如何运作的?
Ultralytics 内容可寻址存储(CAS)实现高效存储:
- 重复数据删除:由不同用户上传的相同图像仅存储一次
- 完整性:SHA-256哈希算法确保数据完整性
- 效率:降低存储成本并加快处理速度
- 区域性:数据将保留在您选择的区域(美国、欧盟或AP)
我能向现有数据集添加图片吗?
是的,请在数据集页面使用“添加图片”按钮上传更多图片。系统将自动计算新的统计数据。
如何在数据集之间移动图像?
使用批量选择功能:
- 在图库中选择图片
- 点击移动或复制
- 选择目标数据集
支持哪些标签格式?
Ultralytics YOLO 标签:
- 检测:
class_id x_center y_center width height - 分割:
class_id x1 y1 x2 y2 ...(多边形点) - 姿势估计:
class_id x_center y_center width height kp1_x kp1_y kp1_v ... - OBB:
class_id x1 y1 x2 y2 x3 y3 x4 y4
所有坐标均已归一化(范围为0-1)。