数据准备
数据准备是成功构建计算机视觉模型的基础。Ultralytics Platform 提供全面的工具来管理您的训练数据,涵盖从上传、标注到分析的整个过程。
概述
Ultralytics Platform 的数据部分可帮助您:
- 上传图像、视频和归档文件(ZIP、TAR、GZ)
- 使用手动绘图工具和SAM驱动的智能标注进行标注 — 可选择SAM 2.1或新的SAM 3
- 通过统计数据和可视化分析您的数据
- 导出为本地训练导出NDJSON格式

工作流程
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| 阶段 | 描述 |
|---|---|
| 上传 | 导入图像、视频或档案并进行自动处理 |
| 标注 | 使用手动工具标注所有 5 种任务类型的数据,或使用 SAM 注释进行 detect、segment 和 旋转框检测 |
| 分析 | 查看类别分布、空间热力图和维度统计 |
| 导出 | 以NDJSON 格式下载供离线使用 |
支持的任务
Ultralytics平台支持所有5种YOLO任务类型:
| 任务 | 描述 | 标注工具 |
|---|---|---|
| 检测 | 使用边界框进行目标detect | 矩形工具 |
| 分割 | 使用像素掩码进行实例segment | 多边形工具 |
| 姿势估计 | 关键点估计(17点COCO格式) | 关键点工具 |
| OBB | 用于旋转对象的有向边界框 | 有向框工具 |
| 分类 | 图像级分类 | 类别选择器 |
任务类型选择
任务类型在创建数据集时设置,并决定可用的标注工具。您可以稍后在数据集设置中更改它,但切换后不兼容的标注将不会显示。
主要功能
智能存储
Ultralytics 平台使用内容寻址存储 (CAS) 以实现高效数据管理:
- 重复数据删除:通过XXH3-128哈希,相同的图像只存储一次
- 完整性: 基于哈希的寻址确保数据完整性
- 效率:优化存储和快速处理
数据集 URI
使用以下方式引用数据集 ul:// URI格式(参见 使用平台数据集):
yolo train data=ul://username/datasets/my-dataset
这允许从任何配置了您的 API 密钥 的机器上在平台的 datasets 上进行训练。
从Python使用平台数据
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
数据集版本控制
为您的数据集创建不可变的 NDJSON 快照,用于可复现的训练。每个版本都会在创建时捕获图像数量、类别数量和标注数量。有关详细信息,请参阅 版本选项卡。
数据集选项卡
每个数据集页面提供六个选项卡:
| 选项卡 | 描述 |
|---|---|
| 图像 | 以网格、紧凑或表格视图浏览带有标注叠加的图像 |
| 类别 | 查看和编辑类别名称、颜色以及每个类别的标签数量 |
| 图表 | 自动统计数据:拆分分布、类别计数、热力图 |
| 模型 | 在此数据集上训练的模型,带有指标和状态 |
| 版本 | 创建并下载不可变的 NDJSON 快照,用于可复现的训练 |
| 错误 | 处理失败的图像,附带错误详情和修复指导 |
统计与可视化
字段 Charts 选项卡提供自动分析,包括:
- 分割分布:训练/验证/测试图像数量的环形图
- 热门类别:最常见标注类别的甜甜圈图
- 图像宽度:图像宽度分布直方图
- 图像高度:图像高度分布直方图
- 每个实例的点数:多边形顶点或关键点计数分布(segment/姿势估计数据集)
- 标注位置:边界框中心位置的2D热力图
- 图像尺寸:宽度与高度的 2D 热图,带有宽高比参考线
快速链接
常见问题
支持哪些文件格式上传?
Ultralytics Platform 支持:
图像:JPEG、PNG、WebP、BMP、TIFF、HEIC、AVIF、JP2、DNG、MPO(每个最大 50MB)
视频: MP4、WebM、MOV、AVI、MKV、M4V(最大 1GB,以 1 FPS 提取帧,最多 100 帧)
归档文件:ZIP、TAR、TAR.GZ、TGZ、GZ(最大10GB),包含带有可选YOLO格式标签的图像
最大数据集大小是多少?
存储限制取决于您的套餐:
| 计划 | 存储限制 |
|---|---|
| 免费版 | 100 GB |
| Pro | 500 GB |
| 企业版 | 无限制 |
单个文件限制:图片 50MB,视频 1GB,归档文件 10GB
我可以使用我的平台数据集进行本地训练吗?
可以!使用数据集URI格式进行本地训练:
export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "your_key"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
或者以NDJSON格式导出您的数据集,以进行完全离线训练。
📅 创建于 2 个月前 ✏️ 更新于 0 天前