Preparação de Dados
A preparação de dados é a base para modelos de visão computacional bem-sucedidos. A Ultralytics Platform oferece ferramentas abrangentes para gerir os seus dados de treino, desde o carregamento e anotação até à análise.
Assista: Introdução à Ultralytics - Dados
Visão geral
A secção de Dados da Ultralytics Platform ajuda-o a:
- Carregar imagens, vídeos e ficheiros de conjuntos de dados (ZIP, TAR, incluindo
.tar.gz/.tgz, NDJSON) - Anote com ferramentas de desenho manual e rotulagem inteligente alimentada por SAM — escolha entre SAM 2.1 ou o novo SAM 3
- Analisar os seus dados com estatísticas e visualizações
- Exportar no formato NDJSON para treinamento local

Fluxo de Trabalho
graph LR
A[Upload] --> B[Annotate]
B --> C[Analyze]
C --> D[Train]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#FF9800,color:#fff
style D fill:#9C27B0,color:#fff
| Etapa | Descrição |
|---|---|
| Carregar | Importe imagens, vídeos ou arquivos com processamento automático |
| Anotar | Rotule dados com ferramentas manuais para todos os 5 tipos de tarefa, ou use a anotação SAM para detect, segment e OBB |
| Analisar | Visualize distribuições de classes, mapas de calor espaciais e estatísticas de dimensão |
| Exportar | Baixar em formato NDJSON para uso offline |
Tarefas Suportadas
A Plataforma Ultralytics suporta todos os 5 tipos de tarefas YOLO:
| Tarefa | Descrição | Ferramenta de Anotação |
|---|---|---|
| Detectar | Detecção de objetos com caixas delimitadoras | Ferramenta de Retângulo |
| Segmentar | Segmentação de instâncias com máscaras de pixel | Ferramenta de Polígono |
| Pose | Estimativa de pontos-chave com modelos de esqueleto integrados e personalizados | Ferramenta de Pontos-chave |
| OBB | Caixas delimitadoras orientadas para objetos rotacionados | Ferramenta de Caixa Orientada |
| Classificar | Classificação ao nível da imagem | Seletor de Classe |
Seleção do Tipo de Tarefa
O tipo de tarefa é definido ao criar um conjunto de dados e determina quais ferramentas de anotação estão disponíveis. Você pode alterá-lo posteriormente nas configurações do conjunto de dados, mas anotações incompatíveis não serão exibidas após a mudança.
Principais Características
Armazenamento Inteligente
A Plataforma Ultralytics utiliza Armazenamento Endereçável por Conteúdo (CAS) para um gerenciamento eficiente de dados:
- Desduplicação: Imagens idênticas armazenadas apenas uma vez via hashing XXH3-128
- Integridade: O endereçamento baseado em hash garante a integridade dos dados
- Eficiência: Armazenamento otimizado e processamento rápido
URIs de Conjuntos de Dados
Conjuntos de dados de referência utilizando o ul:// Formato URI (ver Utilizar Conjuntos de Dados da Plataforma):
yolo train data=ul://username/datasets/my-dataset
Isso permite o treinamento nos datasets da plataforma a partir de qualquer máquina com sua chave de API configurada.
Utilize Dados da Plataforma com Python
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Controle de Versão do Conjunto de Dados
Crie snapshots NDJSON imutáveis do seu conjunto de dados para treinamento reproduzível. Cada versão captura contagens de imagens, contagens de classes e contagens de anotações no momento da criação. Consulte a Guia Versões para obter detalhes.
Abas do Conjunto de Dados
Cada página de conjunto de dados oferece seis abas:
| Guia | Descrição |
|---|---|
| Imagens | Navegue por imagens em visualização de grade, compacta ou tabela com sobreposições de anotação |
| Classes | Visualize e edite nomes de classes, cores e contagens de rótulos por classe |
| Gráficos | Estatísticas automáticas: distribuição de splits, contagens de classes, mapas de calor |
| Modelos | Modelos treinados neste conjunto de dados com métricas e status |
| Versões | Crie e baixe snapshots NDJSON imutáveis para treinamento reproduzível |
| Erros | Imagens que falharam o processamento com detalhes do erro e orientação para correção |
Estatísticas e Visualização
O Charts guia fornece análise automática, incluindo:
- Distribuição de Divisão: Gráfico de rosca da contagem de imagens de treino/validação/teste
- Classes Principais: Gráfico de donut das classes de anotação mais frequentes
- Larguras da Imagem: Histograma da distribuição da largura da imagem
- Alturas da Imagem: Histograma da distribuição da altura da imagem
- Pontos por Instância: Distribuição da contagem de vértices de polígonos ou keypoints (datasets de segment/pose)
- Localizações de Anotação: Mapa de calor 2D das posições centrais das caixas delimitadoras
- Dimensões da Imagem: Mapa de calor 2D de largura vs. altura com linhas-guia de proporção de aspecto
Links Rápidos
- Conjuntos de dados: Carregue, gerencie e exporte os seus dados de treino
- Anotação: Rotulagem de dados com ferramentas manuais e assistidas por IA
- Formação em nuvem: Treine modelos nos seus conjuntos de dados anotados
- URI do Conjunto de Dados: Use
ul://URIs para treinar em qualquer lugar
FAQ
Que formatos de ficheiro são suportados para carregamento?
A Ultralytics Platform suporta:
Imagens: JPEG, PNG, WebP, BMP, TIFF, HEIC, AVIF, JP2, DNG, MPO (máx. 50MB cada)
Vídeos: MP4, WebM, MOV, AVI, MKV, M4V (máx. 1GB, quadros extraídos a 1 FPS, máx. 100 quadros)
Ficheiros do conjunto de dados: Arquivos ZIP ou TAR que incluem .tar.gz e .tgz (máx. 10 GB na versão Gratuita, 20 GB na versão Pro, 50 GB na versão Enterprise) contendo imagens com a opção de Etiquetas YOLO, além das exportações NDJSON
Qual é o tamanho máximo do conjunto de dados?
Os limites de armazenamento dependem do seu plano:
| Plano | Limite de Armazenamento |
|---|---|
| Gratuito | 100 GB |
| Pro | 500 GB |
| Empresarial | Ilimitado |
Limites por ficheiro: Imagens 50 MB, Vídeos 1 GB, conjuntos de dados 10 GB na versão Gratuita / 20 GB na versão Pro / 50 GB na versão Enterprise
Posso usar meus conjuntos de dados da Plataforma para treinamento local?
Sim! Use o formato URI do conjunto de dados para treinar localmente:
export ULTRALYTICS_API_KEY="YOUR_API_KEY"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
import os
os.environ["ULTRALYTICS_API_KEY"] = "YOUR_API_KEY"
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Ou exporte seu conjunto de dados no formato NDJSON para treinamento totalmente offline.