跳转至内容

数据集

Ultralytics Platform 数据集为管理您的训练数据提供了简化的解决方案。一旦上传,数据集即可立即用于模型训练,并自动进行处理和统计数据生成。

上传数据集

Ultralytics 支持多种上传格式,以实现灵活性。

支持的格式

格式扩展备注最大尺寸
JPEG.jpg, .jpeg最常见,推荐50 MB
PNG.png支持透明度50 MB
WebP.webp现代,压缩效果好50 MB
BMP.bmp未压缩50 MB
多伦多国际电影节.tiff, .tif高品质50 MB
HEIC.heiciPhone照片50 MB
AVIF.avif次世代格式50 MB
JP2.jp2JPEG 200050 MB
DNG.dng原始相机50 MB
MPO.mpo多图对象50 MB

视频在客户端以每秒1帧的速度自动提取为帧(每段视频最多100帧)。

格式扩展提取最大尺寸
MP4.mp4每秒帧数,最高100帧1 GB
WebM.webm每秒帧数,最高100帧1 GB
MOV.mov每秒帧数,最高100帧1 GB
AVI.avi每秒帧数,最高100帧1 GB
MKV.mkv每秒帧数,最高100帧1 GB
M4V.m4v每秒帧数,最高100帧1 GB

视频帧提取

视频帧在浏览器中以每秒1帧的速度提取后上传。60秒视频将生成60帧。每段视频最多提取100帧,因此超过约100秒的视频将进行采样处理。

归档文件将被自动提取并处理。

格式扩展备注最大尺寸
ZIP.zip最常见的10 GB
TAR.tar未压缩的归档文件10 GB
TAR.GZ.tar.gz, .tgz压缩存档10 GB
GZ.gzGzip压缩10 GB

准备数据集

该平台支持两种注释格式以及原始数据上传: Ultralytics YOLO, COCO以及原始(未标注图像):

YOLO ,并包含一个 data.yaml 文件:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yaml 文件定义了您的数据集配置:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

使用具有COCO 的JSON注释文件:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

该JSON文件包含 images, annotationscategories 数组:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO 在上传过程中会自动转换。检测(bbox), 分段 (segmentation 多边形),以及姿势估计keypoints) 任务均受支持。类别标识符在所有注释文件中被重新映射为一个0起始的密集序列。有关格式转换的操作,请参见 格式转换工具.

原始上传

原始:上传未标注的图像(无标签)。当您计划直接在平台上使用标注编辑器进行标注时,此功能非常实用。

扁平目录结构

您也可以上传不包含train/val文件夹结构的图像。未按分隔文件夹上传的图像将被分配至 train 默认情况下会拆分。您稍后可使用批量移动到拆分功能重新分配它们。

格式自动检测

格式将自动检测:带有 data.yaml 包含 names, trainval 键被视为YOLO。包含COCO 文件的数据集(包含 images, annotationscategories 数组)被视为COCO。仅包含图像而无标注的数据集被视为原始数据集。

有关特定任务的格式详情,请参阅支持的任务数据集概述

上传过程

  1. 导航至 Datasets 在侧边栏中
  2. 点击 New Dataset 或将文件拖拽至上传区域
  3. 选择任务类型(参见支持的任务
  4. 添加名称和可选描述
  5. 设置可见性(公开或私有)及可选许可(参见可用许可
  6. 点击 Create

Ultralytics 数据集上传对话框任务选择器

上传后,平台将通过多阶段处理流程处理您的数据:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. 验证:格式与尺寸检查
  2. 标准化:大尺寸图片调整大小(最大4096像素,最小边长28像素)
  3. 缩略图:生成256像素的WebP预览图
  4. 标签解析YOLO 及COCO 标签提取
  5. 统计数据:计算出的类分布与图像尺寸

Ultralytics 数据集上传进度条

上传前验证

您可以在上传前在本地验证您的数据集:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

图片尺寸要求

图片最短边尺寸必须至少为28像素。小于此尺寸的图片将在处理过程中被拒绝。最长边超过4096像素的图片将自动调整尺寸,同时保持宽高比不变。

浏览图像

以多种布局查看您的数据集图像:

查看描述
网格带注释叠加层的缩略图网格(默认)
紧凑更小的缩略图用于快速扫描
表格列表包含缩略图、文件名、尺寸、大小、分割、类目及标签数量

Ultralytics 数据集画廊网格视图(含注释)

排序与筛选

图片可进行排序和筛选,以实现高效浏览:

排序描述
最新最近新增
最古老的最早添加
姓名 A-Z按字母顺序排列
名称 Z-A反向字母排序
尺寸(最小)按文件大小从小到大排序
尺寸(最大)按文件大小排序,大文件优先
大多数标签大多数注释
最少标签最少注释
筛选选项
分体式过滤器训练、验证、测试或全部
标签过滤器所有图像,带注释或不带注释
搜索按文件名筛选图片

寻找无标签图像

使用标签过滤器设置为 Unannotated 快速查找仍需标注的图像。对于需要track 进度的大型数据集而言,此功能尤为实用。

全屏查看器

点击任意图像以打开全屏查看器,其中包含:

  • 导航:使用方向键或缩略图预览浏览
  • 元数据:文件名、尺寸、分割标记、注释数量
  • 注释:切换注释叠加层可见性
  • 课程分类:按课程标签计数并带颜色标识
  • 编辑:进入注释模式以添加或修改标签
  • 下载:下载原始图像文件
  • 删除:从数据集中删除该图像
  • Zoom: Cmd/Ctrl+Scroll 放大/缩小
  • 像素视图:切换像素化渲染以进行近距离检查

Ultralytics 全屏查看器(带元数据面板)

按拆分筛选

按数据集拆分筛选图像:

拆分目的
训练用于模型训练
验证用于训练期间的验证
测试用于最终评估

数据集标签页

每个数据集页面都包含五个标签页,可通过标签栏访问:

图片选项卡

默认视图显示带注释叠加层的图片库。支持网格、紧凑和表格三种视图模式。在此拖放文件可添加更多图片。

课程标签页

管理数据集的注释类:

  • 类直方图:条形图,显示各类别的注释数量,支持线性/对数刻度切换
  • 课程表格:可排序、可搜索的表格,包含课程名称、标签数量和图片数量
  • 编辑类名:点击任意类名即可直接重命名
  • 编辑类颜色:点击颜色样本可更改类颜色
  • 添加新类:使用底部的输入框添加类

Ultralytics 数据集分类标签直方图与表格

对称数组的对数尺度

如果您的数据集存在类不平衡(例如,10,000个"人"标签但仅有50个"自行车"标签),请使用 Log Scale 启用类直方图以清晰可视化所有类别。

图表选项卡

根据您的数据集自动计算的统计数据:

图表描述
分拆分销训练集/验证集/测试集图像数量及标签百分比的环形图
顶级课程10个最常见标注类别的环形图
图像宽度图像宽度分布直方图及其均值
图像高地图像高度分布直方图及其均值
每实例积分每个标注的边界点或关键点数量(姿势估计)
注释位置边界框中心位置的二维热力图
图像尺寸2D宽度与高度热力图(含纵横比参考线)

Ultralytics 数据集图表选项卡统计网格

统计缓存

统计数据缓存5分钟。标注的更改将在缓存过期后反映。

全屏热力图

点击任何热力图上的展开按钮,即可进入全屏模式查看。该模式提供更大、更精细的视图——有助于理解大型数据集中的空间分布规律。

模型选项卡

在可搜索表格中查看所有基于此数据集训练的模型:

描述
名称带链接的模型名称
项目带图标的父项目
状态训练状态徽章
任务YOLO 类型
训练轮次最佳 epoch / 总 epoch 数
mAP50-95平均精确率
mAP50IoU .50时
创建日期创建日期

Ultralytics 数据集模型选项卡训练模型表格

错误选项卡

处理失败的图像在此处列出,并附有:

  • 错误横幅:失败图片总数及指导信息
  • 错误表:文件名、用户友好型错误描述、修复提示及预览缩略图
  • 常见错误包括文件损坏、不支持的格式、图像过小(最小28像素)以及不支持的颜色模式。
常见处理错误
错误原因修复
无法读取图像文件格式损坏或不受支持从图像编辑器重新导出
不完整或损坏文件在传输过程中被截断重新下载原始文件
图片过小最小尺寸低于28像素使用更高分辨率的源图像
不支持的颜色模式CMYK或索引色彩模式转换为RGB模式

导出数据集

将数据集导出为NDJSON格式以供离线使用:

  1. 点击数据集标题中的下载图标
  2. NDJSON文件将自动下载

Ultralytics 数据集导出Ndjson下载

NDJSON格式每行存储一个JSON对象。首行包含数据集元数据,随后每张图像占一行:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

签名URL

导出的NDJSON中的图像URL经过签名验证,有效期为7天。若需获取最新URL,请重新导出数据集。

请参阅Ultralytics NDJSON 格式文档以获取完整规范。

批量操作

通过表格视图的上下文菜单批量管理图片:

迁往斯普利特

将选定图像重新分配至同一数据集内的不同分割:

  1. 切换到表格视图
  2. 使用复选框选择图片
  3. 右键单击以打开上下文菜单
  4. 选择 Move to split > 训练, 验证测试

您还可以在网格视图中将图像拖拽到分割滤镜标签上。

组织列车/谷分流

将所有图像上传至一个数据集,然后使用批量移动到分割功能将子集组织为训练集、验证集和测试集。

批量删除

一次性删除多张图片:

  1. 在表格视图中选择图片
  2. 右键点击并选择 Delete
  3. 确认删除

数据集 URI

通过以下方式引用平台数据集 ul:// URI格式(参见 使用平台数据集):

ul://username/datasets/dataset-slug

使用此 URI 可在任何地方训练模型:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

使用平台数据随时随地训练

字段 ul:// URI 可在任何环境中运行:

  • 本地机器:在您的硬件上训练,数据自动下载
  • Google Colab:在笔记本中访问您的平台数据集
  • 远程服务器:在云虚拟机上训练,并拥有完整数据集访问权限

可用许可证

该平台支持以下数据集许可协议:

许可证类型
未选择许可证
CC0-1.0公有领域
CC-BY-2.5宽容的
CC-BY-4.0宽容的
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0非商业性
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0无衍生品
CC-BY-NC-ND-4.0非商业性
Apache-2.0宽容的
麻省理工学院宽容的
AGPL-3.0Copyleft
GPL-3.0Copyleft
仅限研究限制
其他自定义

Copyleft 许可协议

当克隆采用左转授权许可(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)的数据集时,克隆数据将继承该许可,且许可选择器将被锁定。

可见性设置

控制谁可以查看您的数据集:

设置描述
私有仅您可访问
公开任何人均可在探索页面查看

可见性是在创建数据集时设置的。 New Dataset 通过拨动开关切换对话框。公共数据集在 探索 页面。

编辑数据集

数据集元数据可在数据集页面直接在线编辑——无需弹出对话框:

  • 名称点击数据集名称进行编辑。更改内容在鼠标移开时自动保存。 Enter.
  • 描述:点击描述(或“添加描述...”占位符)进行编辑。更改内容会自动保存。
  • 任务类型:点击任务徽章以选择其他任务类型。
  • 许可证:点击许可证选择器可更改数据集许可证。

更改任务类型

更改任务类型可能会影响现有注释的可视化效果。不兼容的注释将不会显示。

克隆数据集

查看非您拥有的公共数据集时,请点击 Clone Dataset 在您的工作区中创建副本。该克隆包含所有图像、标注和类别定义。若原始数据集采用左转授权许可,克隆将继承该许可,且许可选择器将被锁定。

星标与分享

  • 星标:点击星标按钮可将数据集添加至收藏夹。星标数量对所有用户可见。
  • 分享:对于公共数据集,点击分享按钮即可复制链接或分享至社交平台。

删除数据集

删除不再需要的数据集:

  1. 打开数据集操作菜单
  2. 点击 Delete
  3. 在对话框中确认:"这将把[名称]移至回收站。您可在30天内恢复它。"

回收站与恢复

已删除的数据集会被移至回收站——并非永久删除。您可在30天内恢复它们。 Settings > Trash.

在数据集上训练

直接从您的数据集开始训练:

  1. 点击 New Model 在数据集页面上
  2. 选择一个项目或创建新项目
  3. 配置训练参数
  4. 开始训练
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

请参阅云训练了解详情。

常见问题

上传后我的数据会怎样?

您的数据将在您选择的区域(美国、欧盟或 AP)进行处理和存储。图像为:

  1. 已验证格式和大小
  2. 若最小尺寸低于28像素,则被拒绝
  3. 若大于4096像素则进行标准化处理(保持宽高比;编码以优化存储)
  4. 使用内容可寻址存储(CAS)存储,采用XXH3-128哈希算法
  5. 缩略图以256像素的WebP格式生成,实现快速浏览

存储如何工作?

Ultralytics 平台使用内容可寻址存储 (CAS)以实现高效存储:

  • 去重:不同用户上传的相同图像仅存储一次
  • 完整性:XXH3-128哈希确保数据完整性
  • 效率:降低存储成本并加快处理速度
  • 区域性:数据保留在您选择的区域(美国、欧盟或 AP)

我可以向现有数据集添加图像吗?

是的,将文件拖拽至数据集页面或使用上传按钮即可添加更多图像。新统计数据将自动计算生成。

如何在分屏之间移动图像?

使用批量移动到拆分功能:

  1. 在表格视图中选择图片
  2. 右键点击并选择 Move to split
  3. 选择目标分割(训练集、验证集或测试集)

支持哪些标签格式?

Ultralytics 支持两种注释格式上传:

.txt 每张图像对应一个文件,包含归一化坐标(范围0-1):

任务格式示例
检测class cx cy w h0 0.5 0.5 0.2 0.3
分割class x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
姿势估计class cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
分类目录结构train/cats/, train/dogs/

姿势估计 标志:0=未标注,1=已标注但被遮挡,2=已标注且可见。

JSON文件 images, annotationscategories 数组。支持检测(bbox), 分割(多边形)姿势估计keypoints任务。COCO 绝对像素坐标,这些坐标在上传过程中会自动转换为标准化格式。



📅 创建于 1 个月前 ✏️ 更新于 5 天前
glenn-jochersergiuwaxmannLaughing-q

评论