Meet YOLO26: next-gen vision AI.

Link to this section数据集#

Ultralytics Platform 数据集为管理你的训练数据提供了一个精简的解决方案。上传后,平台会自动处理图像、标签和统计数据。一旦处理完成,且数据集在 train 拆分中至少包含一张图像,在 valtest 拆分中至少包含一张图像,至少包含一张已标注的图像,且总数至少为两张图像,该数据集即可准备进行训练。

Link to this section上传数据集#

Ultralytics Platform 接受多种上传格式,以提供灵活性。

已经在其他地方有数据了吗?

如果你已经在 Ultralytics HUBRoboflow 中拥有数据集,请使用 Integrations 直接导入它们——无需手动导出或重新上传。

Link to this section支持的格式#

格式扩展名注意事项最大尺寸
JPEG.jpg, .jpeg最常见,推荐使用50 MB
PNG.png支持透明度50 MB
WebP.webp现代格式,压缩效果好50 MB
BMP.bmp未压缩50 MB
TIFF.tiff, .tif高质量50 MB
HEIC.heiciPhone 照片50 MB
AVIF.avif下一代格式50 MB
JP2.jp2JPEG 200050 MB
DNG.dng原始相机格式50 MB
MPO.mpo多图片对象50 MB

Link to this section准备你的数据集#

平台支持 Ultralytics YOLOCOCOUltralytics NDJSON 以及原始(未标注)上传:

使用带有 data.yaml 文件的标准 YOLO 目录结构:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

YAML 文件定义了你的数据集配置:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog
原始上传

原始:上传未标注的图像(无标签)。当你计划直接在平台上使用 标注编辑器 进行标注时,这非常有用。

扁平目录结构

你也可以在没有显式拆分文件夹的情况下上传图像。平台在上传期间会尊重活动的拆分目标,对于非分类数据集,当未提供拆分信息时,它可能会自动从训练集的一部分中创建一个验证拆分。你之后总是可以通过批量移动到拆分或拆分重分配来重新分配图像。

格式自动检测

The format is detected automatically: datasets with a data.yaml containing names, train, or val keys are treated as YOLO. Datasets with COCO JSON files (containing images, annotations, and categories arrays) are treated as COCO. .ndjson exports are imported as Ultralytics NDJSON. Datasets with only images and no annotations are treated as raw.

关于任务特定的格式详细信息,请参阅 支持的任务数据集概览

Link to this section上传流程#

  1. 在侧边栏中导航至 Datasets
  2. 点击 New Dataset 或将文件拖入上传区域
  3. 选择任务类型(请参阅 支持的任务
  4. 添加名称和可选描述
  5. 设置可见性(公开或私有)和可选许可证(请参阅 可用许可证
  6. 点击 Create & Upload(如果是创建空数据集,则点击 Create Dataset

Ultralytics Platform 数据集上传对话框任务选择器

上传后,平台会通过多阶段流水线处理你的数据:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. 验证:格式和尺寸检查
  2. 归一化:调整大图像尺寸(最大 4096px,最小维度 28px)
  3. 缩略图:生成 256px WebP 预览图
  4. 标签解析:提取 YOLO 和 COCO 格式标签
  5. 统计信息:计算类分布和图像维度

Ultralytics Platform 数据集上传进度条

上传前验证

你可以在上传前在本地验证你的数据集:

from ultralytics.data.utils import check_det_dataset

check_det_dataset("path/to/data.yaml")
图像尺寸要求

图像的最短边必须至少为 28px。小于此尺寸的图像在处理过程中会被拒绝。最长边大于 4096px 的图像会在保持长宽比的情况下自动调整尺寸。

Link to this section浏览图像#

以多种布局查看你的数据集图像。

从图库工具栏打开 聚类 面板,将你的数据集作为交互式 2D 散点图进行探索。

查看描述
网格带有标注叠加的缩略图网格(默认)
紧凑用于快速扫描的较小缩略图
表格带有缩略图、文件名、维度、大小、拆分、类和标签计数的列表

Ultralytics Platform 数据集图库网格视图带标注

Link to this section排序和过滤#

图像可以进行排序和过滤,以便高效浏览:

排序描述
最新 / 最旧上传/创建顺序
名称 A-Z / Z-A文件名按字母顺序
高度 ↑/↓图像高度(以像素为单位)
宽度 ↑/↓图像宽度(以像素为单位)
大小 ↑/↓磁盘文件大小
标注 ↑/↓每张图像的标注数量
大型数据集

对于超过 100,000 张图像的数据集,名称 / 大小 / 宽度 / 高度排序将被禁用,以保持图库的响应速度。最新、最旧和标注数量排序功能仍然可用。

查找未标记图像

使用 Annotations 筛选器并设置为 Unannotated,可以快速找到仍需标注的图像。这对于需要跟踪标注进度的大型数据集特别有用。

Link to this section全屏查看器#

点击任意图像以打开全屏查看器,并提供以下功能:

  • 导航:使用方向键或缩略图预览进行浏览
  • 元数据:文件名、尺寸、拆分标签、标注计数
  • 标注:切换标注覆盖层的可见性
  • 类别细分:带颜色指示的每类标签计数
  • 编辑:进入标注模式以添加或修改标签
  • 下载:下载原始图像文件
  • 删除:从数据集中删除图像
  • 缩放:使用 Cmd/Ctrl+ScrollCmd/Ctrl++Cmd/Ctrl+= 放大,使用 Cmd/Ctrl+- 缩小
  • 重置视图:使用 Cmd/Ctrl + 0 或重置按钮将图像调整至查看器大小
  • 平移:在缩放时按住 Space 并拖动以平移画布
  • 像素视图:切换像素化渲染以进行仔细检查

Ultralytics Platform Datasets Fullscreen Viewer With Metadata Panel

Link to this section按拆分筛选#

按数据集拆分筛选图像:

拆分用途
训练用于模型训练
Val用于训练期间的验证
Test用于最终评估

Link to this section聚类#

Clustering 面板会将你的数据集投射到一个交互式 2D 散点图中,其中视觉相似的图像会靠在一起。利用它来发现聚类、定位重复项和异常值,并检查拆分或类别在数据中的分布情况——无需离开图库。在任何数据集页面上的图库工具栏中,点击散点图图标即可打开。

Ultralytics Platform Datasets Clustering Empty State

Link to this section运行分析#

开始分析:

  1. 打开数据集并点击图库工具栏中的散点图图标
  2. 点击 Analyze Dataset
  3. 等待进度条完成——结果将出现在同一个面板中

分析会在后台运行,根据数据集的大小可能需要几分钟。你可以关闭面板或离开页面,稍后再回来查看。

Link to this section可视化#

分析完成后,面板会显示所有已分析图像的 2D 散点图。图库筛选器(拆分、类别、已标注/未标注)会使非筛选范围内的点变暗,以便你专注于所关心的子集。

Ultralytics Platform Datasets Clustering Scatter Plot

Link to this section着色依据#

使用面板工具栏中的 Color by 下拉菜单更改数据点的着色方式。你可以随时切换视图模式——图表会立即重新着色,让你查看拆分、类别或图像属性在聚类中的分布情况:

选项着色
Splits训练 / 验证 / 测试
Classes每张图像上的第一个标注类别
Width图像宽度
Height图像高度
Size文件大小
标注每张图像的标注数量

Ultralytics Platform Datasets Clustering Color Modes

Link to this section套索选择#

在区域周围绘制自由形状选择框以突出显示图表上的点。图库会筛选出匹配的图像,以便你使用常规 image operations 对其进行检查、重标记、移动或删除。

清除选择

图表上方的芯片显示了选中的点数——点击 × 可清除套索并返回完整的图库视图。

Link to this section平移和缩放#

直接通过鼠标和键盘浏览大型散点图:

输入操作
滚动在 2D 中平移图表
Cmd/Ctrl+滚动以光标为中心放大或缩小
按住 Space切换至拖拽平移模式

Link to this section重新分析#

如果数据集在分析后发生更改,面板顶部会为所有者和编辑者显示一个 Re-analyze 按钮。

点击 Re-analyze 以重新计算嵌入向量和 2D 投影。

Link to this section数据集标签页#

根据数据集状态和你的权限,每个数据集页面最多可以显示六个标签页:

Link to this section图像标签页#

显示带标注覆盖层的图像图库的默认视图。支持网格、紧凑和表格视图模式。在此处拖放文件以添加更多图像。

Link to this section类别标签页#

当数据集包含图像时,会出现此标签页。

管理数据集的标注类别:

  • 类别直方图:显示每个类别标注数量的柱状图,支持线性/对数刻度切换
  • 类别表:可排序、可搜索的表格,包含类别名称、标签数量和图像数量
  • 编辑类别名称:点击任意类别名称即可直接重命名
  • 编辑类别颜色:点击颜色样本即可更改类别颜色
  • 添加新类别:使用底部的输入框添加类别

Ultralytics 平台数据集类别标签直方图和表格

针对不平衡数据集的对数刻度

如果你的数据集存在类别不平衡(例如:有 10,000 个 "person" 注释但只有 50 个 "bicycle"),请使用类别直方图上的 Log Scale 开关,以便清晰地可视化所有类别。

Link to this section图表标签页#

当数据集包含图像时,会出现此标签页。

从你的数据集中自动计算的统计数据:

图表描述
数据集划分分布训练集/验证集/测试集图像数量及标注百分比的圆环图
热门类别10 个最常见注释类别的圆环图
图像尺寸图像宽度和高度分布直方图(重叠显示),带有均值标注
每个实例的点数每个注释(分割/姿态)的多边形顶点或关键点数量
注释位置边界框中心位置的 2D 热力图
图像文件大小图像文件大小分布直方图
图像格式源图像格式分布(JPG、PNG 等)
边界框尺寸边界框宽度和高度直方图(重叠显示)
每张图像的对象数每张图像注释数量的直方图
2D 图像尺寸带有长宽比参考线的宽度与高度 2D 热力图

Ultralytics 平台数据集图表标签页统计网格

统计数据缓存

统计数据会缓存 5 分钟。对注释的更改将在缓存过期后体现。

全屏热力图

点击任意热力图上的展开按钮以全屏模式查看。这能提供更大、更详细的视图,有助于理解大型数据集中的空间模式。

Link to this section模型标签页#

在可搜索的表格中查看在此数据集上训练的所有模型:

描述
名称带有链接的模型名称
项目带有图标的父项目
状态训练状态徽章
任务YOLO 任务类型
Epochs最佳 epoch / 总 epoch 数
mAP50-95平均精度均值
mAP50IoU 为 0.50 时的 mAP
已创建创建日期

Ultralytics 平台数据集模型标签页已训练模型表

Link to this section错误标签页#

此标签页仅在有一个或多个文件处理失败时出现。

处理失败的图像会在此处列出,并包含:

  • 错误横幅:失败图像的总数和指导信息
  • 错误表格:文件名、用户友好的错误描述、修复提示和预览缩略图
  • 常见错误包括文件损坏、格式不支持、图像太小(最小 28px)以及不支持的颜色模式

Ultralytics 平台数据集错误标签页处理失败

常见处理错误
错误原因修复
无法读取图像文件文件损坏或格式不受支持从图像编辑器重新导出
不完整或已损坏文件在传输过程中被截断重新下载原始文件
图像太小最小尺寸低于 28px使用更高分辨率的源图像
不支持的颜色模式CMYK 或索引颜色模式转换为 RGB 模式

Link to this section版本标签页#

为你的数据集创建不可变的 NDJSON 快照,以实现可复现的训练。每个版本都会记录创建时的图像数量、类别数量、注释数量和文件大小。

描述
版本版本号 (v1, v2, ...)
描述用户提供的描述(可编辑)
图像快照时的图像数量
类别快照时的类别数量
注释快照时的注释数量
大小NDJSON 导出文件大小
已创建版本创建时间

创建版本:

  1. 打开 Versions 标签页
  2. 可选择输入描述(例如:“添加了 500 张训练图像”或“修复了错误标签的类别”)
  3. 点击 + New Version
  4. 新版本会出现在表格中
  5. 需要时从表格中单独下载该版本

每个版本按顺序编号 (v1, v2, v3...) 并永久存储。你可以随时从版本表中下载任何以前的版本。

仅限就绪数据集

数据集达到 ready 状态后即可创建版本。

何时创建版本

在对数据集进行重大更改(添加图像、修复注释或重新平衡划分)前后创建一个版本。这使你能够对比不同数据集状态下的模型性能。

NDJSON 文件大小

显示的大小为 NDJSON 导出文件的大小,其中包含图像 URL 和注释,而不包含图像本身。实际图像数据单独存储,并通过签名 URL 访问。

Link to this section导出数据集#

从数据集标题或版本标签页下载 NDJSON,即可导出数据集以供离线使用。

导出步骤:

  1. 点击数据集标题中的 Download 按钮(下载图标)
  2. 直接下载当前的 NDJSON 快照
  3. 当你需要一个可以稍后重新下载的不可变编号快照时,请使用 Versions(版本)选项卡

Ultralytics Platform Datasets Export Ndjson Download

NDJSON 格式每行存储一个 JSON 对象。第一行包含数据集元数据,随后的每一行对应一张图像:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "bytes": 12345678, "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
签名 URL

导出的 NDJSON 中的图像 URL 已签名,有效期为 7 天。如果你需要新的 URL,请重新导出数据集或创建新版本。

有关完整规范,请参阅 Ultralytics NDJSON format documentation

Link to this section图像操作#

Link to this section快速操作#

右键单击 Grid(网格)或 Compact(紧凑)视图中的任意图像以访问快捷操作:

操作描述
Move to Split(移动至拆分)将图像重新分配到 Train(训练)、Val(验证)或 Test(测试)拆分
下载下载原始图像文件
Delete(删除)从数据集中删除该图像

Ultralytics Platform Datasets Image Card Context Menu

单项与批量

图像上下文菜单仅针对单个图像进行操作。如需对多个图像进行批量操作,请使用带有复选框选择的 Table(表格)视图。

Link to this section批量移动至拆分#

将选定的图像重新分配到同一数据集内的不同拆分中:

  1. 切换到 Table(表格)视图
  2. 使用复选框选择图像
  3. 右键单击以打开上下文菜单
  4. 选择 Move to split > Train(训练)、Validation(验证)或 Test(测试)

你也可以在网格视图中将图像拖放到拆分过滤器选项卡上。

组织 Train/Val 拆分

将所有图像上传到一个数据集,然后使用批量移动至拆分功能将子集组织到训练、验证和测试拆分中。

Link to this section拆分重新分配#

使用自定义比例重新分配训练、验证和测试拆分中的所有图像:

  1. 单击数据集工具栏中的 split bar(拆分栏)以打开 Redistribute Splits(重新分配拆分)对话框
  2. 使用以下任意一种方法调整拆分百分比
  3. 查看实时图像计数预览以确认分配情况
  4. 单击 Apply(应用)以根据你的百分比随机重新分配所有图像

Ultralytics Platform Datasets Split Redistribution Dialog

该对话框提供了三种设置目标拆分比例的方法:

方法描述
Drag(拖动)拖动彩色段之间的手柄以直观地调整拆分边界
Type(输入)编辑任何拆分的百分比输入(其他两个拆分会自动按比例重新平衡)
Auto(自动)一键立即设置 80/20 的训练/验证拆分,并将测试拆分设置为 0%

实时预览显示了在应用之前每种拆分将包含的确切图像数量。

快速 80/20 拆分

单击 Auto(自动)按钮可立即设置建议的 80/20 训练/验证拆分。这是最常见的训练比例。

Link to this section批量删除#

一次删除多个图像:

  1. 在表格视图中选择图像
  2. 右键单击并选择 Delete(删除)
  3. 确认删除

Link to this section数据集 URI#

使用 ul:// URI 格式引用 Platform 数据集(请参阅 Using Platform Datasets):

ul://username/datasets/dataset-slug

使用此 URI 在任何地方训练模型:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
使用 Platform 数据随时随地训练

ul:// URI 适用于任何环境:

  • 本地机器:在你的硬件上进行训练,数据会自动下载
  • Google Colab:在笔记本中访问你的 Platform 数据集
  • 远程服务器:在云端虚拟机上进行训练,并可完全访问数据集

Link to this section可用许可#

该 Platform 支持以下数据集许可:

许可类型
未选择许可
CC0-1.0公有领域
CC-BY-2.5许可型
CC-BY-4.0许可型
CC-BY-SA-4.0Copyleft(著作权左)
CC-BY-NC-4.0非商业性
CC-BY-NC-SA-4.0Copyleft(著作权左)
CC-BY-ND-4.0禁止衍生
CC-BY-NC-ND-4.0非商业性
Apache-2.0许可型
MIT许可型
AGPL-3.0Copyleft(著作权左)
GPL-3.0Copyleft(著作权左)
仅限研究受限
其他自定义
Copyleft 许可

当克隆具有 Copyleft 许可(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)的数据集时,克隆版本将继承该许可,且许可选择器会被锁定。

Link to this section可见性设置#

控制谁可以看到你的数据集:

设置描述
Private(私有)仅你能访问
Public(公开)任何人都可以在 Explore(探索)页面查看

可见性是在 New Dataset(新建数据集)对话框中使用切换开关创建数据集时设置的。公开数据集可在 Explore 页面上查看。

Link to this section编辑数据集#

数据集元数据直接在数据集页面内进行在线编辑——无需对话框:

  • Name(名称):单击数据集名称进行编辑。更改会在失去焦点或按下 Enter 键时自动保存。
  • Description(描述):单击描述(或“Add a description...”占位符)进行编辑。更改会自动保存。
  • Task type(任务类型):单击任务徽章以选择不同的任务类型。
  • License(许可):单击许可选择器以更改数据集许可。
更改任务类型

每张图像都会一起存储所有任务类型的标注。更改数据集任务类型可控制在编辑器中可见、并包含在导出和训练中的标注。其他任务类型的标注会保留在数据库中,并在你切换回来时重新出现。

Link to this section克隆数据集#

查看你不拥有的公共数据集时,点击 Clone Dataset 即可在你的工作区中创建一个副本。该克隆版本包含所有的图像、标注和类别定义。如果原始数据集带有 copyleft 许可证,该克隆版本将继承此许可证,且许可证选择器会被锁定。

Link to this section收藏与分享#

  • 收藏 (Star):点击星标按钮以收藏数据集。收藏数量对所有用户可见。
  • 分享 (Share):对于公共数据集,点击分享按钮即可复制链接或分享到社交平台。

Link to this section删除数据集#

删除你不再需要的数据集:

  1. 打开数据集操作菜单
  2. 点击 Delete
  3. 在对话框中确认:“这会将 [name] 移至回收站。你可以在 30 天内将其恢复。”
回收站与恢复

删除的数据集会被移至“回收站”——而不是永久删除。你可以在 30 天内通过 Settings > Trash 进行恢复。

Link to this section基于数据集进行训练#

直接从你的数据集开始训练:

  1. 在数据集页面点击 New Model
  2. 选择一个项目或创建一个新项目
  3. 配置训练参数
  4. 开始训练
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

详见 云端训练

Link to this section常见问题解答#

Link to this section上传后我的数据会怎样?#

你的数据会在你选择的区域(美国、欧盟或亚太地区)进行处理和存储。图像处理如下:

  1. 验证格式和大小
  2. 如果最小尺寸低于 28px,则会被拒绝
  3. 如果大于 4096px,则会进行标准化处理(保持宽高比;编码以优化存储)
  4. 使用带有 XXH3-128 哈希的“内容寻址存储 (CAS)”进行存储
  5. 生成 256px 的 WebP 缩略图以加快浏览速度

Link to this section存储是如何工作的?#

Ultralytics Platform 使用 内容寻址存储 (CAS) 来实现高效存储:

  • 去重:不同用户上传的相同图像只存储一次
  • 完整性:XXH3-128 哈希确保数据完整性
  • 效率:降低存储成本并加快处理速度
  • 区域性:数据保留在你选择的区域(美国、欧盟或亚太地区)

Link to this section我可以向现有数据集添加图像吗?#

可以,将文件拖放到数据集页面或使用上传按钮添加更多图像。新统计数据将自动计算。

Link to this section如何将图像在拆分集之间移动?#

使用批量“移动到拆分集”功能:

  1. 在表格视图中选择图像
  2. 右键点击并选择 Move to split
  3. 选择目标拆分集(训练集、验证集或测试集)

Link to this section支持哪些标签格式?#

Ultralytics Platform 支持 YOLO 标签、COCO JSON、Ultralytics NDJSON 以及原始图像上传:

每张图像对应一个 .txt 文件,包含归一化坐标(0-1 范围):

任务格式示例
检测class cx cy w h0 0.5 0.5 0.2 0.3
分割class x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
姿态class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
分类目录结构train/cats/, train/dogs/

姿态可见性标志:0=未标注,1=已标注但被遮挡,2=已标注且可见。

Link to this section我可以为同一数据集标注多种任务类型吗?#

可以。每张图像都会一起存储所有 6 种任务类型(检测、分割、语义分割、姿态、OBB、分类)的标注。你可以随时切换数据集的活动任务类型,而不会丢失现有标注。只有与活动任务类型匹配的标注才会显示在编辑器中,并包含在导出和训练中——其他任务的标注会被保留,当你切回时它们会重新出现。

评论