Preparação de Dados

A preparação de dados é a base de modelos bem-sucedidos de visão computacional. A Ultralytics Platform fornece ferramentas abrangentes para gerenciar seus dados de treinamento, desde o upload até a anotação e análise.



Watch: Get Started with Ultralytics Platform - Data

Visão geral

A seção de Dados da Ultralytics Platform ajuda você a:

  • Fazer upload de imagens, vídeos e arquivos de conjuntos de dados (ZIP, TAR incluindo .tar.gz/.tgz, NDJSON)
  • Anotar com ferramentas de desenho manual e rotulagem inteligente baseada em SAM — escolha entre SAM 2.1 ou o novo SAM 3
  • Analisar seus dados com estatísticas e visualizações
  • Exportar no formato NDJSON para treinamento local

Visão geral da barra lateral de dados da Ultralytics Platform

Fluxo de trabalho

graph LR
    A[Upload] --> B[Annotate]
    B --> C[Analyze]
    C --> D[Train]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#FF9800,color:#fff
    style D fill:#9C27B0,color:#fff
EstágioDescrição
UploadImporte imagens, vídeos ou arquivos compactados com processamento automático
AnnotateRotule dados com ferramentas manuais para todos os 5 tipos de tarefa, ou use a anotação SAM para detecção, segmentação e OBB
AnalisarVeja distribuições de classes, mapas de calor espaciais e estatísticas de dimensão
ExportBaixe no formato NDJSON para uso offline

Tarefas Suportadas

A Ultralytics Platform oferece suporte a todos os 5 tipos de tarefa YOLO:

TarefaDescriçãoFerramenta de anotação
DetectDetecção de objetos com caixas delimitadorasFerramenta de retângulo
SegmentSegmentação de instância com máscaras de pixelFerramenta de polígono
PoseEstimativa de pontos-chave com modelos de esqueleto integrados e personalizadosFerramenta de pontos-chave
OBBCaixas delimitadoras orientadas para objetos rotacionadosFerramenta de caixa orientada
ClassifyClassificação em nível de imagemSeletor de classe
Seleção do tipo de tarefa

O tipo de tarefa é definido ao criar um conjunto de dados e determina quais ferramentas de anotação estão disponíveis. Você pode alterá-lo posteriormente no seletor de tarefa do cabeçalho do conjunto de dados, mas anotações incompatíveis não serão exibidas após a alteração.

Principais recursos

Armazenamento inteligente

A Ultralytics Platform usa Content-Addressable Storage (CAS) para um gerenciamento de dados eficiente:

  • Deduplicação: Imagens idênticas armazenadas apenas uma vez via hash XXH3-128
  • Integridade: Endereçamento baseado em hash garante a integridade dos dados
  • Eficiência: Armazenamento otimizado e processamento rápido

URIs de conjunto de dados

Faça referência a conjuntos de dados usando o formato de URI ul:// (veja Como usar conjuntos de dados da plataforma):

yolo train data=ul://username/datasets/my-dataset

Isso permite o treinamento nos conjuntos de dados da plataforma a partir de qualquer máquina com sua chave de API configurada.

Use dados da plataforma via Python
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Versionamento de conjunto de dados

Crie snapshots NDJSON imutáveis do seu conjunto de dados para um treinamento reprodutível. Cada versão captura contagens de imagens, contagens de classes e contagens de anotações no momento da criação. Veja a aba de Versões para detalhes.

Abas do conjunto de dados

As páginas de conjuntos de dados podem exibir até seis abas, dependendo do estado do conjunto de dados e de suas permissões:

AbaDescrição
ImagensNavegue pelas imagens em visualização de grade, compacta ou de tabela com sobreposições de anotações
ClassesVisualize e edite nomes de classes, cores e contagens de rótulos por classe
GráficosEstatísticas automáticas: distribuição de divisões, contagens de classes, mapas de calor
ModelosModelos treinados neste conjunto de dados com métricas e status
VersõesCrie e baixe snapshots NDJSON imutáveis para treinamento reprodutível
ErrosImagens que falharam no processamento com detalhes do erro e orientações de correção

Classes and Charts appear when the dataset has images. Errors appears only when processing failures exist. Versions appears for owners, or for non-owners when versions already exist.

Clustering

Explore seu conjunto de dados como um gráfico de dispersão 2D interativo onde imagens visualmente semelhantes ficam próximas umas das outras — útil para identificar clusters, duplicatas e outliers, e para inspecionar como as divisões ou classes estão distribuídas em seus dados. Use o laço em uma região do gráfico para filtrar a galeria para essas imagens. Veja Clustering para detalhes.

Estatísticas e visualização

The Charts tab provides automatic analysis including:

  • Distribuição de divisões: Gráfico de rosca das contagens de imagens de treino/val/teste
  • Classes principais: Gráfico de rosca das classes de anotação mais frequentes
  • Larguras das imagens: Histograma da distribuição de largura das imagens
  • Alturas das imagens: Histograma da distribuição de altura das imagens
  • Pontos por instância: Distribuição de contagem de vértices de polígono ou pontos-chave (conjuntos de dados de segmento/pose)
  • Locais de anotação: Mapa de calor 2D das posições centrais das caixas delimitadoras
  • Dimensões das imagens: Mapa de calor 2D de largura vs altura com linhas guia de proporção de aspecto

FAQ

Quais formatos de arquivo são suportados para upload?

A Ultralytics Platform suporta:

Imagens: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (máx. 50 MB cada)

Vídeos: MP4, WebM, MOV, AVI, MKV, M4V (máx. 1 GB, quadros extraídos a 1 FPS, máx. 100 quadros)

Arquivos de conjunto de dados: Arquivos ZIP ou TAR incluindo .tar.gz e .tgz (máx. 10 GB no Free, 20 GB no Pro, 50 GB no Enterprise) contendo imagens com rótulos no formato YOLO opcionais, além de exportações NDJSON

Qual é o tamanho máximo do conjunto de dados?

Os limites de armazenamento dependem do seu plano:

PlanoLimite de armazenamento
Grátis100 GB
Pro500 GB
EnterpriseIlimitado

Limites de arquivo individual: Imagens 50 MB, Vídeos 1 GB, conjuntos de dados 10 GB no Free / 20 GB no Pro / 50 GB no Enterprise

Posso usar meus conjuntos de dados da plataforma para treinamento local?

Sim! Use o formato de URI do conjunto de dados para treinar localmente:

export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Ou exporte seu conjunto de dados no formato NDJSON para treinamento totalmente offline.

Comentários