Ir para o conteúdo

Conjuntos de dados

Os conjuntos de dados da Ultralytics Platform oferecem uma solução otimizada para gerenciar os seus dados de treino. Uma vez carregados, os conjuntos de dados podem ser imediatamente utilizados para o treino de modelos, com processamento automático e geração de estatísticas.

Fazer Upload do Conjunto de Dados

Ultralytics aceita vários formatos de upload para maior flexibilidade.

Formatos de imagem suportados

FormatoExtensõesNotas
JPEG.jpg, .jpegMais comum, recomendado
PNG.pngApoia a transparência
WebP.webpModerno, boa compressão
BMP.bmpNão comprimido
GIF.gifPrimeiro fotograma extraído
TIFF.tiff, .tifAlta qualidade
HEIC.heicFotos do iPhone
AVIF.avifFormato de última geração
JP2.jp2JPEG 2000
DNG.dngCâmara bruta

Formatos de vídeo suportados

Os vídeos são automaticamente extraídos para fotogramas:

FormatoExtensõesExtração
MP4.mp41 FPS, máximo de 100 fotogramas
WebM.webm1 FPS, máximo de 100 fotogramas
MOV.mov1 FPS, máximo de 100 fotogramas
AVI.avi1 FPS, máximo de 100 fotogramas
MKV.mkv1 FPS, máximo de 100 fotogramas
M4V.m4v1 FPS, máximo de 100 fotogramas

Limites de tamanho de ficheiro

TipoTamanho máximo
Imagens50 MB cada
Vídeos1 GB cada
Arquivos ZIP50 GB

Arquivos

Arquivos ZIP de até 50 GB são suportados com a estrutura de pastas preservada e extração e processamento automáticos.

Preparar o Seu Conjunto de Dados

Para conjuntos de dados rotulados, utilize o formato YOLO padrão:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

O arquivo yaml define a configuração do seu conjunto de dados:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Processo de Carregamento

  1. Navegue até Datasets na barra lateral
  2. Clique em Upload Dataset ou arraste os arquivos para a zona de upload
  3. Selecione o tipo de tarefa (detect, segment, pose, obb, classify)
  4. Adicione um nome e uma descrição opcional
  5. Clique em Upload

Após o upload, a Plataforma processa seus dados:

  1. Normalização: Imagens grandes redimensionadas (máx. 4096px)
  2. Miniaturas: Pré-visualizações de 256px geradas
  3. Análise de Rótulos: Rótulos no formato YOLO extraídos
  4. Estatísticas: Distribuições de classes calculadas
Validar Antes do Upload

Você pode validar seu conjunto de dados localmente antes de fazer o upload:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Explorar Imagens

Visualize as imagens do seu conjunto de dados em múltiplos layouts:

VisualizarDescrição
GradeGrade de miniaturas com sobreposições de anotações
CompactoMiniaturas menores para uma varredura rápida
TabelaLista com nome do arquivo, dimensões e contagens de rótulos

Visualizador em Ecrã Inteiro

Clique em qualquer imagem para abrir o visualizador em tela cheia com:

  • Navegação: Teclas de seta ou clique para navegar
  • Metadados: Nome do arquivo, dimensões, divisão, contagem de rótulos
  • Anotações: Alternar visibilidade das anotações
  • Distribuição por Classe: Contagens de rótulos por classe

Filtrar por Divisão

Filtre imagens pela divisão do seu conjunto de dados:

DivisãoPropósito
TreinarUtilizado para o treinamento do modelo
ValidarUtilizado para validação durante o treinamento
TestarUtilizado para avaliação final
DesconhecidoNenhuma divisão atribuída

Estatísticas do Conjunto de Dados

A aba Estatísticas oferece análise automática do seu conjunto de dados:

Distribuição de classes

Gráfico de barras mostrando o número de anotações por classe:

Mapa de Calor de Localização

Visualização de onde as anotações aparecem nas imagens:

Análise de Dimensões

Gráfico de dispersão das dimensões da imagem (largura vs altura):

Cache de Estatísticas

As estatísticas são armazenadas em cache por 5 minutos. As alterações nas anotações serão refletidas após a expiração do cache.

Exportar Conjunto de Dados

Exporte seu conjunto de dados no formato NDJSON para uso offline:

  1. Abra o menu de ações do conjunto de dados
  2. Clique em Exportar
  3. Baixe o arquivo NDJSON

O formato NDJSON armazena um objeto JSON por linha:

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

Consulte a documentação do formato NDJSON da Ultralytics para a especificação completa.

URI do Conjunto de Dados

Referencie conjuntos de dados da Plataforma usando o ul:// Formato URI:

ul://username/datasets/dataset-slug

Use este URI para treinar modelos de qualquer lugar:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Treine em Qualquer Lugar com Dados da Plataforma

O ul:// O URI funciona em qualquer ambiente:

  • Máquina local: Treine no seu hardware, com dados baixados automaticamente
  • Google Colab: Acesse seus conjuntos de dados da Plataforma em notebooks
  • Servidores remotos: Treine em VMs na nuvem com acesso total aos conjuntos de dados

Configurações de Visibilidade

Controle quem pode ver seu conjunto de dados:

ConfigurandoDescrição
PrivadoApenas você pode acessar
PúblicoQualquer pessoa pode visualizar na página Explorar

Para alterar a visibilidade:

  1. Abra o menu de ações do conjunto de dados
  2. Clique em Editar
  3. Alterne a configuração de visibilidade
  4. Clique em Salvar

Editar Conjunto de Dados

Atualize o nome, descrição ou visibilidade do conjunto de dados:

  1. Abra o menu de ações do conjunto de dados
  2. Clique em Editar
  3. Fazer alterações
  4. Clique em Salvar

Excluir Conjunto de Dados

Exclua um conjunto de dados que você não precisa mais:

  1. Abra o menu de ações do conjunto de dados
  2. Clique em Excluir
  3. Confirmar exclusão

Lixeira e Restaurar

Conjuntos de dados excluídos são movidos para a Lixeira por 30 dias. Você pode restaurá-los da página da Lixeira em Configurações.

Treinar no Conjunto de Dados

Inicie o treinamento diretamente do seu conjunto de dados:

  1. Clique em Treinar Modelo na página do conjunto de dados
  2. Selecione um projeto ou crie um novo
  3. Configure os parâmetros de treinamento
  4. Iniciar treinamento

Consulte Treinamento em Nuvem para mais detalhes.

FAQ

O que acontece com os meus dados depois de carregados?

Os seus dados são processados e armazenados na região selecionada (EUA, UE ou AP). As imagens são:

  1. Validado para formato e tamanho
  2. Normalizado se maior que 4096px (preservando a proporção)
  3. Armazenado usando Content-Addressable Storage (CAS) com hashing SHA-256
  4. Miniaturas geradas em 256px para navegação rápida

Como funciona o armazenamento?

A Plataforma Ultralytics utiliza Armazenamento Endereçável por Conteúdo (CAS) para um armazenamento eficiente:

  • Desduplicação: Imagens idênticas carregadas por diferentes utilizadores são armazenadas apenas uma vez
  • Integridade: O hashing SHA-256 garante a integridade dos dados
  • Eficiência: Reduz os custos de armazenamento e acelera o processamento
  • Regional: Os dados permanecem na sua região selecionada (EUA, UE ou AP)

Posso adicionar imagens a um conjunto de dados existente?

Sim, utilize o botão Adicionar Imagens na página do conjunto de dados para carregar imagens adicionais. Novas estatísticas serão calculadas automaticamente.

Como movo imagens entre conjuntos de dados?

Utilize a funcionalidade de seleção em massa:

  1. Selecione imagens na galeria
  2. Clique em Mover ou Copiar
  3. Selecione o conjunto de dados de destino

Quais formatos de rótulo são suportados?

A Plataforma Ultralytics suporta rótulos no formato YOLO:

TarefaFormatoExemplo
Detectarclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentarclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassificarEstrutura do diretóriotrain/cats/, train/dogs/

Todas as coordenadas são normalizadas (intervalo 0-1). Indicadores de visibilidade da pose: 0 = não rotulado, 1 = rotulado, mas oculto, 2 = rotulado e visível.



📅 Criado há 20 dias ✏️ Atualizado há 12 dias
glenn-jocherLaughing-q

Comentários