数据集
Ultralytics Platform 数据集为管理您的训练数据提供了简化的解决方案。一旦上传,数据集即可立即用于模型训练,并自动进行处理和统计数据生成。
上传数据集
Ultralytics 支持多种上传格式,以实现灵活性。
支持的格式
| 格式 | 扩展 | 备注 | 最大尺寸 |
|---|---|---|---|
| JPEG | .jpg, .jpeg | 最常见,推荐 | 50 MB |
| PNG | .png | 支持透明度 | 50 MB |
| WebP | .webp | 现代,压缩效果好 | 50 MB |
| BMP | .bmp | 未压缩 | 50 MB |
| 多伦多国际电影节 | .tiff, .tif | 高品质 | 50 MB |
| HEIC | .heic | iPhone照片 | 50 MB |
| AVIF | .avif | 次世代格式 | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | 原始相机 | 50 MB |
| MPO | .mpo | 多图对象 | 50 MB |
视频在客户端以每秒1帧的速度自动提取为帧(每段视频最多100帧)。
| 格式 | 扩展 | 提取 | 最大尺寸 |
|---|---|---|---|
| MP4 | .mp4 | 每秒帧数,最高100帧 | 1 GB |
| WebM | .webm | 每秒帧数,最高100帧 | 1 GB |
| MOV | .mov | 每秒帧数,最高100帧 | 1 GB |
| AVI | .avi | 每秒帧数,最高100帧 | 1 GB |
| MKV | .mkv | 每秒帧数,最高100帧 | 1 GB |
| M4V | .m4v | 每秒帧数,最高100帧 | 1 GB |
视频帧提取
视频帧在浏览器中以每秒1帧的速度提取后上传。60秒视频将生成60帧。每段视频最多提取100帧,因此超过约100秒的视频将进行采样处理。
归档文件将被自动提取并处理。
| 格式 | 扩展 | 备注 | 最大尺寸 |
|---|---|---|---|
| ZIP | .zip | 最常见的 | 10 GB |
| TAR | .tar | 未压缩的归档文件 | 10 GB |
| TAR.GZ | .tar.gz, .tgz | 压缩存档 | 10 GB |
| GZ | .gz | Gzip压缩 | 10 GB |
准备数据集
该平台支持两种注释格式以及原始数据上传: Ultralytics YOLO, COCO以及原始(未标注图像):
YOLO ,并包含一个 data.yaml 文件:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
yaml 文件定义了您的数据集配置:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
使用具有COCO 的JSON注释文件:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
该JSON文件包含 images, annotations和 categories 数组:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO 在上传过程中会自动转换。检测(bbox), 分段 (segmentation 多边形),以及姿势估计keypoints) 任务均受支持。类别标识符在所有注释文件中被重新映射为一个0起始的密集序列。有关格式转换的操作,请参见 格式转换工具.
原始上传
原始:上传未标注的图像(无标签)。当您计划直接在平台上使用标注编辑器进行标注时,此功能非常实用。
扁平目录结构
您也可以上传不包含train/val文件夹结构的图像。未按分隔文件夹上传的图像将被分配至 train 默认情况下会拆分。您稍后可使用批量移动到拆分功能重新分配它们。
格式自动检测
格式将自动检测:带有 data.yaml 包含 names, train或 val 键被视为YOLO。包含COCO 文件的数据集(包含 images, annotations和 categories 数组)被视为COCO。仅包含图像而无标注的数据集被视为原始数据集。
上传过程
- 导航至
Datasets在侧边栏中 - 点击
New Dataset或将文件拖拽至上传区域 - 选择任务类型(参见支持的任务)
- 添加名称和可选描述
- 设置可见性(公开或私有)及可选许可(参见可用许可)
- 点击
Create

上传后,平台将通过多阶段处理流程处理您的数据:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- 验证:格式与尺寸检查
- 标准化:大尺寸图片调整大小(最大4096像素,最小边长28像素)
- 缩略图:生成256像素的WebP预览图
- 标签解析: YOLO 及COCO 标签提取
- 统计数据:计算出的类分布与图像尺寸

上传前验证
您可以在上传前在本地验证您的数据集:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
图片尺寸要求
图片最短边尺寸必须至少为28像素。小于此尺寸的图片将在处理过程中被拒绝。最长边超过4096像素的图片将自动调整尺寸,同时保持宽高比不变。
浏览图像
以多种布局查看您的数据集图像:
| 查看 | 描述 |
|---|---|
| 网格 | 带注释叠加层的缩略图网格(默认) |
| 紧凑 | 更小的缩略图用于快速扫描 |
| 表格 | 列表包含缩略图、文件名、尺寸、大小、分割、类目及标签数量 |

排序与筛选
图片可进行排序和筛选,以实现高效浏览:
| 排序 | 描述 |
|---|---|
| 最新 | 最近新增 |
| 最古老的 | 最早添加 |
| 姓名 A-Z | 按字母顺序排列 |
| 名称 Z-A | 反向字母排序 |
| 尺寸(最小) | 按文件大小从小到大排序 |
| 尺寸(最大) | 按文件大小排序,大文件优先 |
| 大多数标签 | 大多数注释 |
| 最少标签 | 最少注释 |
| 筛选 | 选项 |
|---|---|
| 分体式过滤器 | 训练、验证、测试或全部 |
| 标签过滤器 | 所有图像,带注释或不带注释 |
| 搜索 | 按文件名筛选图片 |
寻找无标签图像
使用标签过滤器设置为 Unannotated 快速查找仍需标注的图像。对于需要track 进度的大型数据集而言,此功能尤为实用。
全屏查看器
点击任意图像以打开全屏查看器,其中包含:
- 导航:使用方向键或缩略图预览浏览
- 元数据:文件名、尺寸、分割标记、注释数量
- 注释:切换注释叠加层可见性
- 课程分类:按课程标签计数并带颜色标识
- 编辑:进入注释模式以添加或修改标签
- 下载:下载原始图像文件
- 删除:从数据集中删除该图像
- Zoom:
Cmd/Ctrl+Scroll放大/缩小 - 像素视图:切换像素化渲染以进行近距离检查

按拆分筛选
按数据集拆分筛选图像:
| 拆分 | 目的 |
|---|---|
| 训练 | 用于模型训练 |
| 验证 | 用于训练期间的验证 |
| 测试 | 用于最终评估 |
数据集标签页
每个数据集页面都包含五个标签页,可通过标签栏访问:
图片选项卡
默认视图显示带注释叠加层的图片库。支持网格、紧凑和表格三种视图模式。在此拖放文件可添加更多图片。
课程标签页
管理数据集的注释类:
- 类直方图:条形图,显示各类别的注释数量,支持线性/对数刻度切换
- 课程表格:可排序、可搜索的表格,包含课程名称、标签数量和图片数量
- 编辑类名:点击任意类名即可直接重命名
- 编辑类颜色:点击颜色样本可更改类颜色
- 添加新类:使用底部的输入框添加类

对称数组的对数尺度
如果您的数据集存在类不平衡(例如,10,000个"人"标签但仅有50个"自行车"标签),请使用 Log Scale 启用类直方图以清晰可视化所有类别。
图表选项卡
根据您的数据集自动计算的统计数据:
| 图表 | 描述 |
|---|---|
| 分拆分销 | 训练集/验证集/测试集图像数量及标签百分比的环形图 |
| 顶级课程 | 10个最常见标注类别的环形图 |
| 图像宽度 | 图像宽度分布直方图及其均值 |
| 图像高地 | 图像高度分布直方图及其均值 |
| 每实例积分 | 每个标注的边界点或关键点数量(姿势估计) |
| 注释位置 | 边界框中心位置的二维热力图 |
| 图像尺寸 | 2D宽度与高度热力图(含纵横比参考线) |

统计缓存
统计数据缓存5分钟。标注的更改将在缓存过期后反映。
全屏热力图
点击任何热力图上的展开按钮,即可进入全屏模式查看。该模式提供更大、更精细的视图——有助于理解大型数据集中的空间分布规律。
模型选项卡
在可搜索表格中查看所有基于此数据集训练的模型:
| 列 | 描述 |
|---|---|
| 名称 | 带链接的模型名称 |
| 项目 | 带图标的父项目 |
| 状态 | 训练状态徽章 |
| 任务 | YOLO 类型 |
| 训练轮次 | 最佳 epoch / 总 epoch 数 |
| mAP50-95 | 平均精确率 |
| mAP50 | IoU .50时 |
| 创建日期 | 创建日期 |

错误选项卡
处理失败的图像在此处列出,并附有:
- 错误横幅:失败图片总数及指导信息
- 错误表:文件名、用户友好型错误描述、修复提示及预览缩略图
- 常见错误包括文件损坏、不支持的格式、图像过小(最小28像素)以及不支持的颜色模式。
常见处理错误
| 错误 | 原因 | 修复 |
|---|---|---|
| 无法读取图像文件 | 格式损坏或不受支持 | 从图像编辑器重新导出 |
| 不完整或损坏 | 文件在传输过程中被截断 | 重新下载原始文件 |
| 图片过小 | 最小尺寸低于28像素 | 使用更高分辨率的源图像 |
| 不支持的颜色模式 | CMYK或索引色彩模式 | 转换为RGB模式 |
导出数据集
将数据集导出为NDJSON格式以供离线使用:
- 点击数据集标题中的下载图标
- NDJSON文件将自动下载

NDJSON格式每行存储一个JSON对象。首行包含数据集元数据,随后每张图像占一行:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
签名URL
导出的NDJSON中的图像URL经过签名验证,有效期为7天。若需获取最新URL,请重新导出数据集。
请参阅Ultralytics NDJSON 格式文档以获取完整规范。
批量操作
通过表格视图的上下文菜单批量管理图片:
迁往斯普利特
将选定图像重新分配至同一数据集内的不同分割:
- 切换到表格视图
- 使用复选框选择图片
- 右键单击以打开上下文菜单
- 选择
Move to split> 训练, 验证或 测试
您还可以在网格视图中将图像拖拽到分割滤镜标签上。
组织列车/谷分流
将所有图像上传至一个数据集,然后使用批量移动到分割功能将子集组织为训练集、验证集和测试集。
批量删除
一次性删除多张图片:
- 在表格视图中选择图片
- 右键点击并选择
Delete - 确认删除
数据集 URI
通过以下方式引用平台数据集 ul:// URI格式(参见 使用平台数据集):
ul://username/datasets/dataset-slug
使用此 URI 可在任何地方训练模型:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
使用平台数据随时随地训练
字段 ul:// URI 可在任何环境中运行:
- 本地机器:在您的硬件上训练,数据自动下载
- Google Colab:在笔记本中访问您的平台数据集
- 远程服务器:在云虚拟机上训练,并拥有完整数据集访问权限
可用许可证
该平台支持以下数据集许可协议:
| 许可证 | 类型 |
|---|---|
| 无 | 未选择许可证 |
| CC0-1.0 | 公有领域 |
| CC-BY-2.5 | 宽容的 |
| CC-BY-4.0 | 宽容的 |
| CC-BY-SA-4.0 | Copyleft |
| CC-BY-NC-4.0 | 非商业性 |
| CC-BY-NC-SA-4.0 | Copyleft |
| CC-BY-ND-4.0 | 无衍生品 |
| CC-BY-NC-ND-4.0 | 非商业性 |
| Apache-2.0 | 宽容的 |
| 麻省理工学院 | 宽容的 |
| AGPL-3.0 | Copyleft |
| GPL-3.0 | Copyleft |
| 仅限研究 | 限制 |
| 其他 | 自定义 |
Copyleft 许可协议
当克隆采用左转授权许可(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)的数据集时,克隆数据将继承该许可,且许可选择器将被锁定。
可见性设置
控制谁可以查看您的数据集:
| 设置 | 描述 |
|---|---|
| 私有 | 仅您可访问 |
| 公开 | 任何人均可在探索页面查看 |
可见性是在创建数据集时设置的。 New Dataset 通过拨动开关切换对话框。公共数据集在 探索 页面。
编辑数据集
数据集元数据可在数据集页面直接在线编辑——无需弹出对话框:
- 名称点击数据集名称进行编辑。更改内容在鼠标移开时自动保存。
Enter. - 描述:点击描述(或“添加描述...”占位符)进行编辑。更改内容会自动保存。
- 任务类型:点击任务徽章以选择其他任务类型。
- 许可证:点击许可证选择器可更改数据集许可证。
更改任务类型
更改任务类型可能会影响现有注释的可视化效果。不兼容的注释将不会显示。
克隆数据集
查看非您拥有的公共数据集时,请点击 Clone Dataset 在您的工作区中创建副本。该克隆包含所有图像、标注和类别定义。若原始数据集采用左转授权许可,克隆将继承该许可,且许可选择器将被锁定。
星标与分享
- 星标:点击星标按钮可将数据集添加至收藏夹。星标数量对所有用户可见。
- 分享:对于公共数据集,点击分享按钮即可复制链接或分享至社交平台。
删除数据集
删除不再需要的数据集:
- 打开数据集操作菜单
- 点击
Delete - 在对话框中确认:"这将把[名称]移至回收站。您可在30天内恢复它。"
回收站与恢复
已删除的数据集会被移至回收站——并非永久删除。您可在30天内恢复它们。 Settings > Trash.
在数据集上训练
直接从您的数据集开始训练:
- 点击
New Model在数据集页面上 - 选择一个项目或创建新项目
- 配置训练参数
- 开始训练
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
请参阅云训练了解详情。
常见问题
上传后我的数据会怎样?
您的数据将在您选择的区域(美国、欧盟或 AP)进行处理和存储。图像为:
- 已验证格式和大小
- 若最小尺寸低于28像素,则被拒绝
- 若大于4096像素则进行标准化处理(保持宽高比;编码以优化存储)
- 使用内容可寻址存储(CAS)存储,采用XXH3-128哈希算法
- 缩略图以256像素的WebP格式生成,实现快速浏览
存储如何工作?
Ultralytics 平台使用内容可寻址存储 (CAS)以实现高效存储:
- 去重:不同用户上传的相同图像仅存储一次
- 完整性:XXH3-128哈希确保数据完整性
- 效率:降低存储成本并加快处理速度
- 区域性:数据保留在您选择的区域(美国、欧盟或 AP)
我可以向现有数据集添加图像吗?
是的,将文件拖拽至数据集页面或使用上传按钮即可添加更多图像。新统计数据将自动计算生成。
如何在分屏之间移动图像?
使用批量移动到拆分功能:
- 在表格视图中选择图片
- 右键点击并选择
Move to split - 选择目标分割(训练集、验证集或测试集)
支持哪些标签格式?
Ultralytics 支持两种注释格式上传:
一 .txt 每张图像对应一个文件,包含归一化坐标(范围0-1):
| 任务 | 格式 | 示例 |
|---|---|---|
| 检测 | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| 分割 | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| 姿势估计 | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| 分类 | 目录结构 | train/cats/, train/dogs/ |
姿势估计 标志:0=未标注,1=已标注但被遮挡,2=已标注且可见。
JSON文件 images, annotations和 categories 数组。支持检测(bbox), 分割(多边形)姿势估计keypoints任务。COCO 绝对像素坐标,这些坐标在上传过程中会自动转换为标准化格式。