数据准备
数据准备是成功构建计算机视觉模型的基础。Ultralytics Platform 提供全面的工具来管理您的训练数据,涵盖从上传、标注到分析的整个过程。
概述
Ultralytics Platform 的数据部分可帮助您:
- 上传图片、视频和压缩文件(ZIP、TAR、GZ)
- 使用手动绘图工具进行标注,并SAM智能标注功能
- 通过统计数据和可视化分析您的数据
- 以NDJSON格式 导出用于本地训练

工作流程
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| 阶段 | 描述 |
|---|---|
| 上传 | 导入图像、视频或归档文件并自动处理 |
| 标注 | 使用边界框、多边形、关键点或分类来标注数据 |
| 分析 | 查看类别分布、空间热力图和维度统计 |
| 导出 | 下载NDJSON格式文件以供离线使用 |
支持的任务
Ultralytics平台支持所有5种YOLO任务类型:
| 任务 | 描述 | 标注工具 |
|---|---|---|
| 检测 | 使用边界框进行目标detect | 矩形工具 |
| 分割 | 使用像素掩码进行实例segment | 多边形工具 |
| 姿势估计 | 关键点估计(17点COCO格式) | 关键点工具 |
| OBB | 用于旋转对象的有向边界框 | 有向框工具 |
| 分类 | 图像级分类 | 类别选择器 |
任务类型选择
任务类型在创建数据集时设定,决定了可用的标注工具。您可后续通过数据集设置进行更改,但切换后不兼容的标注工具将不再显示。
主要功能
智能存储
Ultralytics 内容可寻址存储(CAS)实现高效数据管理:
- 去重:通过XXH3-128哈希算法实现相同图像仅存储一次
- 完整性:基于哈希的寻址机制确保数据完整性
- 效率:优化存储和快速处理
数据集 URI
使用以下方式引用数据集 ul:// URI格式(参见 使用平台数据集):
yolo train data=ul://username/datasets/my-dataset
这使得任何配置了您的API密钥的机器都能在平台的数据集上进行训练。
使用Python中的平台数据
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
数据集标签页
每个数据集页面提供五个标签页:
| 标签 | 描述 |
|---|---|
| 图像 | 以网格、紧凑或表格视图浏览图像,并支持注释叠加层 |
| 课程 | 查看并编辑类别名称、颜色及各类别的标签数量 |
| 图表 | 自动统计:分布分割、类计数、热力图 |
| 模型 | 基于此数据集训练的模型及其指标与状态 |
| 错误 | 处理失败的图像及其错误详情与修复指引 |
统计与可视化
字段 Charts tab 提供自动分析,包括:
- 拆分分布:训练集/验证集/测试集图像数量的环形图
- 顶级类别:最常见注释类别的环形图
- 图像宽度:图像宽度分布直方图
- 图像高度:图像高度分布直方图
- 每实例点数:多边形顶点或关键点数量分布(姿势估计 )
- 注释位置:边界框中心位置的二维热力图
- 图像尺寸:宽度与高度的二维热力图,带宽高比参考线
快速链接
常见问题
支持哪些文件格式上传?
Ultralytics Platform 支持:
图片格式:JPEG、PNG、WebP、BMP、TIFF、HEIC、AVIF、JP2、DNG、MPO(每张最大50MB)
视频格式:MP4、WebM、MOV、AVI、MKV、M4V(最大1GB,以每秒1帧的速度提取帧,最多100帧)
存档格式:ZIP、TAR、TAR.GZ、TGZ、GZ(最大10GB),内含图像数据,可选YOLO标签。
最大数据集大小是多少?
存储限制取决于您的套餐:
| 计划 | 存储限制 |
|---|---|
| 免费版 | 100 GB |
| Pro | 500 GB |
| 企业版 | 自定义 |
单个文件限制:图片50MB,视频1GB,压缩包10GB
我可以使用我的平台数据集进行本地训练吗?
可以!使用数据集URI格式进行本地训练:
export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "your_key"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
或将数据集导出为NDJSON格式,以实现完全离线训练。
📅 创建于 1 个月前 ✏️ 更新于 5 天前