Link to this section数据集#
Ultralytics Platform 数据集为管理你的训练数据提供了一个精简的解决方案。上传后,平台会自动处理图像、标签和统计数据。一旦处理完成,且数据集在 train 拆分中至少包含一张图像,在 val 或 test 拆分中至少包含一张图像,至少包含一张已标注的图像,且总数至少为两张图像,该数据集即可准备进行训练。
Link to this section上传数据集#
Ultralytics Platform 接受多种上传格式,以提供灵活性。
如果你已经在 Ultralytics HUB 或 Roboflow 中拥有数据集,请使用 Integrations 直接导入它们——无需手动导出或重新上传。
Link to this section支持的格式#
| 格式 | 扩展名 | 注意事项 | 最大尺寸 |
|---|---|---|---|
| JPEG | .jpg, .jpeg | 最常见,推荐使用 | 50 MB |
| PNG | .png | 支持透明度 | 50 MB |
| WebP | .webp | 现代格式,压缩效果好 | 50 MB |
| BMP | .bmp | 未压缩 | 50 MB |
| TIFF | .tiff, .tif | 高质量 | 50 MB |
| HEIC | .heic | iPhone 照片 | 50 MB |
| AVIF | .avif | 下一代格式 | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | 原始相机格式 | 50 MB |
| MPO | .mpo | 多图片对象 | 50 MB |
Link to this section准备你的数据集#
平台支持 Ultralytics YOLO、COCO、Ultralytics NDJSON 以及原始(未标注)上传:
使用带有 data.yaml 文件的标准 YOLO 目录结构:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yamlYAML 文件定义了你的数据集配置:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog原始:上传未标注的图像(无标签)。当你计划直接在平台上使用 标注编辑器 进行标注时,这非常有用。
你也可以在没有显式拆分文件夹的情况下上传图像。平台在上传期间会尊重活动的拆分目标,对于非分类数据集,当未提供拆分信息时,它可能会自动从训练集的一部分中创建一个验证拆分。你之后总是可以通过批量移动到拆分或拆分重分配来重新分配图像。
The format is detected automatically: datasets with a data.yaml containing names, train, or val keys are treated as YOLO. Datasets with COCO JSON files (containing images, annotations, and categories arrays) are treated as COCO. .ndjson exports are imported as Ultralytics NDJSON. Datasets with only images and no annotations are treated as raw.
关于任务特定的格式详细信息,请参阅 支持的任务 和 数据集概览。
Link to this section上传流程#
- 在侧边栏中导航至
Datasets - 点击
New Dataset或将文件拖入上传区域 - 选择任务类型(请参阅 支持的任务)
- 添加名称和可选描述
- 设置可见性(公开或私有)和可选许可证(请参阅 可用许可证)
- 点击
Create & Upload(如果是创建空数据集,则点击Create Dataset)

上传后,平台会通过多阶段流水线处理你的数据:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff- 验证:格式和尺寸检查
- 归一化:调整大图像尺寸(最大 4096px,最小维度 28px)
- 缩略图:生成 256px WebP 预览图
- 标签解析:提取 YOLO 和 COCO 格式标签
- 统计信息:计算类分布和图像维度

上传前验证
你可以在上传前在本地验证你的数据集:
from ultralytics.data.utils import check_det_dataset
check_det_dataset("path/to/data.yaml")图像的最短边必须至少为 28px。小于此尺寸的图像在处理过程中会被拒绝。最长边大于 4096px 的图像会在保持长宽比的情况下自动调整尺寸。
Link to this section浏览图像#
以多种布局查看你的数据集图像。
从图库工具栏打开 聚类 面板,将你的数据集作为交互式 2D 散点图进行探索。
| 查看 | 描述 |
|---|---|
| 网格 | 带有标注叠加的缩略图网格(默认) |
| 紧凑 | 用于快速扫描的较小缩略图 |
| 表格 | 带有缩略图、文件名、维度、大小、拆分、类和标签计数的列表 |

Link to this section排序和过滤#
图像可以进行排序和过滤,以便高效浏览:
| 排序 | 描述 |
|---|---|
| 最新 / 最旧 | 上传/创建顺序 |
| 名称 A-Z / Z-A | 文件名按字母顺序 |
| 高度 ↑/↓ | 图像高度(以像素为单位) |
| 宽度 ↑/↓ | 图像宽度(以像素为单位) |
| 大小 ↑/↓ | 磁盘文件大小 |
| 标注 ↑/↓ | 每张图像的标注数量 |
对于超过 100,000 张图像的数据集,名称 / 大小 / 宽度 / 高度排序将被禁用,以保持图库的响应速度。最新、最旧和标注数量排序功能仍然可用。
使用 Annotations 筛选器并设置为 Unannotated,可以快速找到仍需标注的图像。这对于需要跟踪标注进度的大型数据集特别有用。
Link to this section全屏查看器#
点击任意图像以打开全屏查看器,并提供以下功能:
- 导航:使用方向键或缩略图预览进行浏览
- 元数据:文件名、尺寸、拆分标签、标注计数
- 标注:切换标注覆盖层的可见性
- 类别细分:带颜色指示的每类标签计数
- 编辑:进入标注模式以添加或修改标签
- 下载:下载原始图像文件
- 删除:从数据集中删除图像
- 缩放:使用
Cmd/Ctrl+Scroll、Cmd/Ctrl++或Cmd/Ctrl+=放大,使用Cmd/Ctrl+-缩小 - 重置视图:使用
Cmd/Ctrl + 0或重置按钮将图像调整至查看器大小 - 平移:在缩放时按住
Space并拖动以平移画布 - 像素视图:切换像素化渲染以进行仔细检查

Link to this section按拆分筛选#
按数据集拆分筛选图像:
| 拆分 | 用途 |
|---|---|
| 训练 | 用于模型训练 |
| Val | 用于训练期间的验证 |
| Test | 用于最终评估 |
Link to this section聚类#
Clustering 面板会将你的数据集投射到一个交互式 2D 散点图中,其中视觉相似的图像会靠在一起。利用它来发现聚类、定位重复项和异常值,并检查拆分或类别在数据中的分布情况——无需离开图库。在任何数据集页面上的图库工具栏中,点击散点图图标即可打开。

Link to this section运行分析#
开始分析:
- 打开数据集并点击图库工具栏中的散点图图标
- 点击
Analyze Dataset - 等待进度条完成——结果将出现在同一个面板中
分析会在后台运行,根据数据集的大小可能需要几分钟。你可以关闭面板或离开页面,稍后再回来查看。
Link to this section可视化#
分析完成后,面板会显示所有已分析图像的 2D 散点图。图库筛选器(拆分、类别、已标注/未标注)会使非筛选范围内的点变暗,以便你专注于所关心的子集。

Link to this section着色依据#
使用面板工具栏中的 Color by 下拉菜单更改数据点的着色方式。你可以随时切换视图模式——图表会立即重新着色,让你查看拆分、类别或图像属性在聚类中的分布情况:
| 选项 | 着色 |
|---|---|
| Splits | 训练 / 验证 / 测试 |
| Classes | 每张图像上的第一个标注类别 |
| Width | 图像宽度 |
| Height | 图像高度 |
| Size | 文件大小 |
| 标注 | 每张图像的标注数量 |

Link to this section套索选择#
在区域周围绘制自由形状选择框以突出显示图表上的点。图库会筛选出匹配的图像,以便你使用常规 image operations 对其进行检查、重标记、移动或删除。
图表上方的芯片显示了选中的点数——点击 × 可清除套索并返回完整的图库视图。
Link to this section平移和缩放#
直接通过鼠标和键盘浏览大型散点图:
| 输入 | 操作 |
|---|---|
| 滚动 | 在 2D 中平移图表 |
| Cmd/Ctrl+滚动 | 以光标为中心放大或缩小 |
| 按住 Space | 切换至拖拽平移模式 |
Link to this section重新分析#
如果数据集在分析后发生更改,面板顶部会为所有者和编辑者显示一个 Re-analyze 按钮。
点击 Re-analyze 以重新计算嵌入向量和 2D 投影。
Link to this section数据集标签页#
根据数据集状态和你的权限,每个数据集页面最多可以显示六个标签页:
Link to this section图像标签页#
显示带标注覆盖层的图像图库的默认视图。支持网格、紧凑和表格视图模式。在此处拖放文件以添加更多图像。
Link to this section类别标签页#
当数据集包含图像时,会出现此标签页。
管理数据集的标注类别:
- 类别直方图:显示每个类别标注数量的柱状图,支持线性/对数刻度切换
- 类别表:可排序、可搜索的表格,包含类别名称、标签数量和图像数量
- 编辑类别名称:点击任意类别名称即可直接重命名
- 编辑类别颜色:点击颜色样本即可更改类别颜色
- 添加新类别:使用底部的输入框添加类别

如果你的数据集存在类别不平衡(例如:有 10,000 个 "person" 注释但只有 50 个 "bicycle"),请使用类别直方图上的 Log Scale 开关,以便清晰地可视化所有类别。
Link to this section图表标签页#
当数据集包含图像时,会出现此标签页。
从你的数据集中自动计算的统计数据:
| 图表 | 描述 |
|---|---|
| 数据集划分分布 | 训练集/验证集/测试集图像数量及标注百分比的圆环图 |
| 热门类别 | 10 个最常见注释类别的圆环图 |
| 图像尺寸 | 图像宽度和高度分布直方图(重叠显示),带有均值标注 |
| 每个实例的点数 | 每个注释(分割/姿态)的多边形顶点或关键点数量 |
| 注释位置 | 边界框中心位置的 2D 热力图 |
| 图像文件大小 | 图像文件大小分布直方图 |
| 图像格式 | 源图像格式分布(JPG、PNG 等) |
| 边界框尺寸 | 边界框宽度和高度直方图(重叠显示) |
| 每张图像的对象数 | 每张图像注释数量的直方图 |
| 2D 图像尺寸 | 带有长宽比参考线的宽度与高度 2D 热力图 |

统计数据会缓存 5 分钟。对注释的更改将在缓存过期后体现。
点击任意热力图上的展开按钮以全屏模式查看。这能提供更大、更详细的视图,有助于理解大型数据集中的空间模式。
Link to this section模型标签页#
在可搜索的表格中查看在此数据集上训练的所有模型:
| 列 | 描述 |
|---|---|
| 名称 | 带有链接的模型名称 |
| 项目 | 带有图标的父项目 |
| 状态 | 训练状态徽章 |
| 任务 | YOLO 任务类型 |
| Epochs | 最佳 epoch / 总 epoch 数 |
| mAP50-95 | 平均精度均值 |
| mAP50 | IoU 为 0.50 时的 mAP |
| 已创建 | 创建日期 |

Link to this section错误标签页#
此标签页仅在有一个或多个文件处理失败时出现。
处理失败的图像会在此处列出,并包含:
- 错误横幅:失败图像的总数和指导信息
- 错误表格:文件名、用户友好的错误描述、修复提示和预览缩略图
- 常见错误包括文件损坏、格式不支持、图像太小(最小 28px)以及不支持的颜色模式

常见处理错误
| 错误 | 原因 | 修复 |
|---|---|---|
| 无法读取图像文件 | 文件损坏或格式不受支持 | 从图像编辑器重新导出 |
| 不完整或已损坏 | 文件在传输过程中被截断 | 重新下载原始文件 |
| 图像太小 | 最小尺寸低于 28px | 使用更高分辨率的源图像 |
| 不支持的颜色模式 | CMYK 或索引颜色模式 | 转换为 RGB 模式 |
Link to this section版本标签页#
为你的数据集创建不可变的 NDJSON 快照,以实现可复现的训练。每个版本都会记录创建时的图像数量、类别数量、注释数量和文件大小。
| 列 | 描述 |
|---|---|
| 版本 | 版本号 (v1, v2, ...) |
| 描述 | 用户提供的描述(可编辑) |
| 图像 | 快照时的图像数量 |
| 类别 | 快照时的类别数量 |
| 注释 | 快照时的注释数量 |
| 大小 | NDJSON 导出文件大小 |
| 已创建 | 版本创建时间 |
创建版本:
- 打开 Versions 标签页
- 可选择输入描述(例如:“添加了 500 张训练图像”或“修复了错误标签的类别”)
- 点击 + New Version
- 新版本会出现在表格中
- 需要时从表格中单独下载该版本
每个版本按顺序编号 (v1, v2, v3...) 并永久存储。你可以随时从版本表中下载任何以前的版本。
数据集达到 ready 状态后即可创建版本。
在对数据集进行重大更改(添加图像、修复注释或重新平衡划分)前后创建一个版本。这使你能够对比不同数据集状态下的模型性能。
显示的大小为 NDJSON 导出文件的大小,其中包含图像 URL 和注释,而不包含图像本身。实际图像数据单独存储,并通过签名 URL 访问。
Link to this section导出数据集#
从数据集标题或版本标签页下载 NDJSON,即可导出数据集以供离线使用。
导出步骤:
- 点击数据集标题中的 Download 按钮(下载图标)
- 直接下载当前的 NDJSON 快照
- 当你需要一个可以稍后重新下载的不可变编号快照时,请使用 Versions(版本)选项卡

NDJSON 格式每行存储一个 JSON 对象。第一行包含数据集元数据,随后的每一行对应一张图像:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "bytes": 12345678, "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}导出的 NDJSON 中的图像 URL 已签名,有效期为 7 天。如果你需要新的 URL,请重新导出数据集或创建新版本。
有关完整规范,请参阅 Ultralytics NDJSON format documentation。
Link to this section图像操作#
Link to this section快速操作#
右键单击 Grid(网格)或 Compact(紧凑)视图中的任意图像以访问快捷操作:
| 操作 | 描述 |
|---|---|
| Move to Split(移动至拆分) | 将图像重新分配到 Train(训练)、Val(验证)或 Test(测试)拆分 |
| 下载 | 下载原始图像文件 |
| Delete(删除) | 从数据集中删除该图像 |

图像上下文菜单仅针对单个图像进行操作。如需对多个图像进行批量操作,请使用带有复选框选择的 Table(表格)视图。
Link to this section批量移动至拆分#
将选定的图像重新分配到同一数据集内的不同拆分中:
- 切换到 Table(表格)视图
- 使用复选框选择图像
- 右键单击以打开上下文菜单
- 选择
Move to split> Train(训练)、Validation(验证)或 Test(测试)
你也可以在网格视图中将图像拖放到拆分过滤器选项卡上。
将所有图像上传到一个数据集,然后使用批量移动至拆分功能将子集组织到训练、验证和测试拆分中。
Link to this section拆分重新分配#
使用自定义比例重新分配训练、验证和测试拆分中的所有图像:
- 单击数据集工具栏中的 split bar(拆分栏)以打开 Redistribute Splits(重新分配拆分)对话框
- 使用以下任意一种方法调整拆分百分比
- 查看实时图像计数预览以确认分配情况
- 单击 Apply(应用)以根据你的百分比随机重新分配所有图像

该对话框提供了三种设置目标拆分比例的方法:
| 方法 | 描述 |
|---|---|
| Drag(拖动) | 拖动彩色段之间的手柄以直观地调整拆分边界 |
| Type(输入) | 编辑任何拆分的百分比输入(其他两个拆分会自动按比例重新平衡) |
| Auto(自动) | 一键立即设置 80/20 的训练/验证拆分,并将测试拆分设置为 0% |
实时预览显示了在应用之前每种拆分将包含的确切图像数量。
单击 Auto(自动)按钮可立即设置建议的 80/20 训练/验证拆分。这是最常见的训练比例。
Link to this section批量删除#
一次删除多个图像:
- 在表格视图中选择图像
- 右键单击并选择
Delete(删除) - 确认删除
Link to this section数据集 URI#
使用 ul:// URI 格式引用 Platform 数据集(请参阅 Using Platform Datasets):
ul://username/datasets/dataset-slug
使用此 URI 在任何地方训练模型:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100ul:// URI 适用于任何环境:
- 本地机器:在你的硬件上进行训练,数据会自动下载
- Google Colab:在笔记本中访问你的 Platform 数据集
- 远程服务器:在云端虚拟机上进行训练,并可完全访问数据集
Link to this section可用许可#
该 Platform 支持以下数据集许可:
| 许可 | 类型 |
|---|---|
| 无 | 未选择许可 |
| CC0-1.0 | 公有领域 |
| CC-BY-2.5 | 许可型 |
| CC-BY-4.0 | 许可型 |
| CC-BY-SA-4.0 | Copyleft(著作权左) |
| CC-BY-NC-4.0 | 非商业性 |
| CC-BY-NC-SA-4.0 | Copyleft(著作权左) |
| CC-BY-ND-4.0 | 禁止衍生 |
| CC-BY-NC-ND-4.0 | 非商业性 |
| Apache-2.0 | 许可型 |
| MIT | 许可型 |
| AGPL-3.0 | Copyleft(著作权左) |
| GPL-3.0 | Copyleft(著作权左) |
| 仅限研究 | 受限 |
| 其他 | 自定义 |
当克隆具有 Copyleft 许可(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)的数据集时,克隆版本将继承该许可,且许可选择器会被锁定。
Link to this section可见性设置#
控制谁可以看到你的数据集:
| 设置 | 描述 |
|---|---|
| Private(私有) | 仅你能访问 |
| Public(公开) | 任何人都可以在 Explore(探索)页面查看 |
可见性是在 New Dataset(新建数据集)对话框中使用切换开关创建数据集时设置的。公开数据集可在 Explore 页面上查看。
Link to this section编辑数据集#
数据集元数据直接在数据集页面内进行在线编辑——无需对话框:
- Name(名称):单击数据集名称进行编辑。更改会在失去焦点或按下
Enter键时自动保存。 - Description(描述):单击描述(或“Add a description...”占位符)进行编辑。更改会自动保存。
- Task type(任务类型):单击任务徽章以选择不同的任务类型。
- License(许可):单击许可选择器以更改数据集许可。
每张图像都会一起存储所有任务类型的标注。更改数据集任务类型可控制在编辑器中可见、并包含在导出和训练中的标注。其他任务类型的标注会保留在数据库中,并在你切换回来时重新出现。
Link to this section克隆数据集#
查看你不拥有的公共数据集时,点击 Clone Dataset 即可在你的工作区中创建一个副本。该克隆版本包含所有的图像、标注和类别定义。如果原始数据集带有 copyleft 许可证,该克隆版本将继承此许可证,且许可证选择器会被锁定。
Link to this section收藏与分享#
- 收藏 (Star):点击星标按钮以收藏数据集。收藏数量对所有用户可见。
- 分享 (Share):对于公共数据集,点击分享按钮即可复制链接或分享到社交平台。
Link to this section删除数据集#
删除你不再需要的数据集:
- 打开数据集操作菜单
- 点击
Delete - 在对话框中确认:“这会将 [name] 移至回收站。你可以在 30 天内将其恢复。”
删除的数据集会被移至“回收站”——而不是永久删除。你可以在 30 天内通过 Settings > Trash 进行恢复。
Link to this section基于数据集进行训练#
直接从你的数据集开始训练:
- 在数据集页面点击
New Model - 选择一个项目或创建一个新项目
- 配置训练参数
- 开始训练
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff详见 云端训练。
Link to this section常见问题解答#
Link to this section上传后我的数据会怎样?#
你的数据会在你选择的区域(美国、欧盟或亚太地区)进行处理和存储。图像处理如下:
- 验证格式和大小
- 如果最小尺寸低于 28px,则会被拒绝
- 如果大于 4096px,则会进行标准化处理(保持宽高比;编码以优化存储)
- 使用带有 XXH3-128 哈希的“内容寻址存储 (CAS)”进行存储
- 生成 256px 的 WebP 缩略图以加快浏览速度
Link to this section存储是如何工作的?#
Ultralytics Platform 使用 内容寻址存储 (CAS) 来实现高效存储:
- 去重:不同用户上传的相同图像只存储一次
- 完整性:XXH3-128 哈希确保数据完整性
- 效率:降低存储成本并加快处理速度
- 区域性:数据保留在你选择的区域(美国、欧盟或亚太地区)
Link to this section我可以向现有数据集添加图像吗?#
可以,将文件拖放到数据集页面或使用上传按钮添加更多图像。新统计数据将自动计算。
Link to this section如何将图像在拆分集之间移动?#
使用批量“移动到拆分集”功能:
- 在表格视图中选择图像
- 右键点击并选择
Move to split - 选择目标拆分集(训练集、验证集或测试集)
Link to this section支持哪些标签格式?#
Ultralytics Platform 支持 YOLO 标签、COCO JSON、Ultralytics NDJSON 以及原始图像上传:
每张图像对应一个 .txt 文件,包含归一化坐标(0-1 范围):
| 任务 | 格式 | 示例 |
|---|---|---|
| 检测 | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| 分割 | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| 姿态 | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| 分类 | 目录结构 | train/cats/, train/dogs/ |
姿态可见性标志:0=未标注,1=已标注但被遮挡,2=已标注且可见。
Link to this section我可以为同一数据集标注多种任务类型吗?#
可以。每张图像都会一起存储所有 6 种任务类型(检测、分割、语义分割、姿态、OBB、分类)的标注。你可以随时切换数据集的活动任务类型,而不会丢失现有标注。只有与活动任务类型匹配的标注才会显示在编辑器中,并包含在导出和训练中——其他任务的标注会被保留,当你切回时它们会重新出现。