跳转至内容

数据准备

数据准备是成功构建计算机视觉模型的基础。Ultralytics Platform 提供全面的工具来管理您的训练数据,涵盖从上传、标注到分析的整个过程。

概述

Ultralytics Platform 的数据部分可帮助您:

  • 上传图片、视频和压缩文件(ZIP、TAR、GZ)
  • 使用手动绘图工具进行标注,并SAM智能标注功能
  • 通过统计数据和可视化分析您的数据
  • 以NDJSON格式 导出用于本地训练

Ultralytics 概览侧边栏数据集

工作流程

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
阶段描述
上传导入图像、视频或归档文件并自动处理
标注使用边界框、多边形、关键点或分类来标注数据
分析查看类别分布、空间热力图和维度统计
导出下载NDJSON格式文件以供离线使用

支持的任务

Ultralytics平台支持所有5种YOLO任务类型:

任务描述标注工具
检测使用边界框进行目标detect矩形工具
分割使用像素掩码进行实例segment多边形工具
姿势估计关键点估计(17点COCO格式)关键点工具
OBB用于旋转对象的有向边界框有向框工具
分类图像级分类类别选择器

任务类型选择

任务类型在创建数据集时设定,决定了可用的标注工具。您可后续通过数据集设置进行更改,但切换后不兼容的标注工具将不再显示。

主要功能

智能存储

Ultralytics 内容可寻址存储(CAS)实现高效数据管理:

  • 去重:通过XXH3-128哈希算法实现相同图像仅存储一次
  • 完整性:基于哈希的寻址机制确保数据完整性
  • 效率:优化存储和快速处理

数据集 URI

使用以下方式引用数据集 ul:// URI格式(参见 使用平台数据集):

yolo train data=ul://username/datasets/my-dataset

这使得任何配置了您的API密钥的机器都能在平台的数据集上进行训练。

使用Python中的平台数据

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

数据集标签页

每个数据集页面提供五个标签页:

标签描述
图像以网格、紧凑或表格视图浏览图像,并支持注释叠加层
课程查看并编辑类别名称、颜色及各类别的标签数量
图表自动统计:分布分割、类计数、热力图
模型基于此数据集训练的模型及其指标与状态
错误处理失败的图像及其错误详情与修复指引

统计与可视化

字段 Charts tab 提供自动分析,包括:

  • 拆分分布:训练集/验证集/测试集图像数量的环形图
  • 顶级类别:最常见注释类别的环形图
  • 图像宽度:图像宽度分布直方图
  • 图像高度:图像高度分布直方图
  • 每实例点数:多边形顶点或关键点数量分布(姿势估计 )
  • 注释位置:边界框中心位置的二维热力图
  • 图像尺寸:宽度与高度的二维热力图,带宽高比参考线
  • 数据集: 上传和管理您的训练数据
  • 标注:使用手动和AI辅助工具进行标签数据标注

常见问题

支持哪些文件格式上传?

Ultralytics Platform 支持:

图片格式:JPEG、PNG、WebP、BMP、TIFF、HEIC、AVIF、JP2、DNG、MPO(每张最大50MB)

视频格式:MP4、WebM、MOV、AVI、MKV、M4V(最大1GB,以每秒1帧的速度提取帧,最多100帧)

存档格式:ZIP、TAR、TAR.GZ、TGZ、GZ(最大10GB),内含图像数据,可选YOLO标签

最大数据集大小是多少?

存储限制取决于您的套餐:

计划存储限制
免费版100 GB
Pro500 GB
企业版自定义

单个文件限制:图片50MB,视频1GB,压缩包10GB

我可以使用我的平台数据集进行本地训练吗?

可以!使用数据集URI格式进行本地训练:

export ULTRALYTICS_API_KEY="your_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os

os.environ["ULTRALYTICS_API_KEY"] = "your_key"

from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

或将数据集导出为NDJSON格式,以实现完全离线训练。



📅 创建于 1 个月前 ✏️ 更新于 5 天前
glenn-jochersergiuwaxmann

评论