数据准备
数据准备是成功的计算机视觉模型的基础。Ultralytics Platform 提供了全方位的工具来管理你的训练数据,涵盖从上传、标注到分析的全过程。
Watch: Get Started with Ultralytics Platform - Data
概述
Ultralytics Platform 的“数据”板块可以助你:
- 上传图像、视频和数据集文件(ZIP、TAR,包括
.tar.gz/.tgz、NDJSON) - 标注:使用手动绘图工具和由 SAM 驱动的智能标注功能——你可以选择 SAM 2.1 或最新的 SAM 3
- 分析:通过统计数据和可视化图表分析你的数据
- 导出:以 NDJSON 格式导出以便进行本地训练

工作流程
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff| 阶段 | 描述 |
|---|---|
| 上传 | 导入图像、视频或压缩包,并进行自动处理 |
| 标注 | 使用手动工具标注所有 5 种任务类型的数据,或者对“检测”、“分割”和“OBB”任务使用 SAM 自动标注 |
| 分析 | 查看类别分布、空间热力图和维度统计信息 |
| 导出 | 以 NDJSON 格式下载以供离线使用 |
支持的任务
Ultralytics Platform 支持所有 5 种 YOLO 任务类型:
| 任务 | 描述 | 标注工具 |
|---|---|---|
| 检测 (Detect) | 带有边界框的目标检测 | 矩形工具 |
| 分割 (Segment) | 带有像素掩码的实例分割 | 多边形工具 |
| 姿态 (Pose) | 带有内置和自定义骨架模板的关键点估计 | 关键点工具 |
| OBB | 用于旋转目标的方向边界框 | 方向框工具 |
| 分类 (Classify) | 图像级分类 | 类别选择器 |
任务类型是在创建数据集时设置的,它决定了可用的标注工具。你可以稍后从数据集标题的任务选择器中更改它,但在切换后,不兼容的标注将不再显示。
主要特性
智能存储
Ultralytics Platform 使用内容寻址存储 (CAS) 来实现高效的数据管理:
- 去重:通过 XXH3-128 哈希值,相同的图像只会存储一次
- 完整性:基于哈希的寻址确保了数据的完整性
- 高效性:优化的存储和快速的处理
数据集 URI
使用 ul:// URI 格式引用数据集(请参阅 使用平台数据集):
yolo train data=ul://username/datasets/my-dataset这允许你在配置了 API 密钥 的任何机器上对平台上的数据集进行训练。
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)数据集版本控制
为你的数据集创建不可变的 NDJSON 快照,以便进行可复现的训练。每个版本在创建时都会记录图像数量、类别数量和标注数量。有关详细信息,请参阅 版本选项卡。
数据集选项卡
根据数据集的状态和你的权限,数据集页面最多可以显示六个选项卡:
| 选项卡 | 描述 |
|---|---|
| 图像 | 以网格、紧凑或表格视图浏览带有标注覆盖层的图像 |
| 类别 (Classes) | 查看和编辑类别名称、颜色以及各类别的标签计数 |
| 图表 | 自动统计:分割分布、类别计数、热力图 |
| 模型 | 使用此数据集训练的 模型,包括指标和状态 |
| 版本 (Versions) | 创建并下载不可变的 NDJSON 快照以进行可复现的训练 |
| 错误 (Errors) | 处理失败的图像及其错误详情和修复指南 |
当数据集包含图像时,会显示 Classes 和 Charts。仅当存在处理失败时,才会显示 Errors。对于所有者,或者当版本已经存在时(针对非所有者),会显示 Versions。
聚类
将你的数据集作为一个交互式 2D 散点图进行探索,视觉上相似的图像会靠在一起——这有助于发现聚类、重复项和异常值,并检查分割或类别在你的数据中的分布情况。使用套索工具圈选图表上的一个区域,即可将图库筛选为对应的图像。有关详细信息,请参阅 聚类。
统计和可视化
Charts 选项卡提供自动分析功能,包括:
- 分割分布:训练集/验证集/测试集图像计数的圆环图
- 热门类别:最频繁出现的标注类别的圆环图
- 图像宽度:图像宽度分布的直方图
- 图像高度:图像高度分布的直方图
- 每个实例的点数:多边形顶点或关键点数量分布(用于分割/姿态数据集)
- 标注位置:边界框中心位置的 2D 热力图
- 图像维度:带有长宽比引导线的宽度与高度 2D 热力图
快速链接
常见问题 (FAQ)
支持上传哪些文件格式?
Ultralytics Platform 支持:
图像: JPEG、PNG、WebP、BMP、TIFF、HEIC、AVIF、JP2、DNG、MPO(每个最大 50MB)
视频: MP4、WebM、MOV、AVI、MKV、M4V(最大 1GB,以 1 FPS 提取帧,最多 100 帧)
数据集文件: ZIP 或 TAR 压缩包,包括 .tar.gz 和 .tgz(Free 计划最大 10GB,Pro 计划 20GB,Enterprise 计划 50GB),其中包含图像以及可选的 YOLO 格式标签,外加 NDJSON 导出文件
最大数据集大小是多少?
存储限制取决于你的套餐:
| 套餐 | 存储限制 |
|---|---|
| 免费 | 100 GB |
| Pro | 500 GB |
| 企业版 | 无限 |
单文件限制:图像 50MB,视频 1GB;数据集大小:Free 计划 10GB / Pro 计划 20GB / Enterprise 计划 50GB
我可以使用我的平台数据集进行本地训练吗?
可以!使用数据集 URI 格式进行本地训练:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100或者以 NDJSON 格式导出你的数据集,进行完全离线的训练。