Ir para o conteúdo

Conjuntos de dados

Os conjuntos de dados da Ultralytics Platform oferecem uma solução otimizada para gerenciar os seus dados de treino. Uma vez carregados, os conjuntos de dados podem ser imediatamente utilizados para o treino de modelos, com processamento automático e geração de estatísticas.

Fazer Upload do Conjunto de Dados

Ultralytics aceita vários formatos de upload para maior flexibilidade.

Formatos Suportados

FormatoExtensõesNotasTamanho máximo
JPEG.jpg, .jpegMais comum, recomendado50 MB
PNG.pngApoia a transparência50 MB
WebP.webpModerno, boa compressão50 MB
BMP.bmpNão comprimido50 MB
TIFF.tiff, .tifAlta qualidade50 MB
HEIC.heicFotos do iPhone50 MB
AVIF.avifFormato de última geração50 MB
JP2.jp2JPEG 200050 MB
DNG.dngCâmara bruta50 MB
MPO.mpoObjeto com várias imagens50 MB

Os vídeos são automaticamente extraídos para fotogramas no lado do cliente a 1 FPS (máximo de 100 fotogramas por vídeo).

FormatoExtensõesExtraçãoTamanho máximo
MP4.mp41 FPS, máximo de 100 fotogramas1 GB
WebM.webm1 FPS, máximo de 100 fotogramas1 GB
MOV.mov1 FPS, máximo de 100 fotogramas1 GB
AVI.avi1 FPS, máximo de 100 fotogramas1 GB
MKV.mkv1 FPS, máximo de 100 fotogramas1 GB
M4V.m4v1 FPS, máximo de 100 fotogramas1 GB

Extração de Frames de Vídeo

Os fotogramas de vídeo são extraídos a uma velocidade de 1 fotograma por segundo no navegador antes do upload. Um vídeo de 60 segundos produz 60 fotogramas. O máximo é de 100 fotogramas por vídeo, pelo que os vídeos com mais de ~100 segundos serão amostrados.

Os arquivos são extraídos e processados automaticamente.

FormatoExtensõesNotasTamanho máximo
ZIP.zipMais comum10 GB
TAR.tarArquivo não comprimido10 GB
TAR.GZ.tar.gz, .tgzArquivo compactado10 GB
GZ.gzComprimido com Gzip10 GB

Preparar o Seu Conjunto de Dados

A plataforma suporta dois formatos de anotação, além de uploads brutos: Ultralytics YOLO, COCOe raw (imagens sem anotação):

Use a estrutura YOLO padrão YOLO com um data.yaml arquivo:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

O arquivo yaml define a configuração do seu conjunto de dados:

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

Use ficheiros de anotação JSON com a COCO padrão:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

O ficheiro JSON contém images, annotations, e categories matrizes:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO são convertidas automaticamente durante o upload. Detecção (bbox), segmentação (segmentation polígonos) e pose (keypoints) são suportadas. Os IDs de categoria são remapeados para uma sequência densa indexada em 0 em todos os ficheiros de anotação. Para converter entre formatos, consulte ferramentas de conversão de formatos.

Uploads brutos

Raw: Carregue imagens sem anotações (sem rótulos). Útil quando planeia fazer anotações diretamente na plataforma usando o editor de anotações.

Estrutura de diretório plana

Também é possível carregar imagens sem a estrutura de pastas train/val. As imagens carregadas sem pastas separadas são atribuídas à pasta train divididos por predefinição. Pode reatribuí-los posteriormente utilizando a funcionalidade de movimentação em massa para divisão.

Detecção automática de formato

O formato é detetado automaticamente: conjuntos de dados com um data.yaml contendo names, train, ou val as chaves são tratadas como YOLO. Conjuntos de dados com ficheiros COCO (contendo images, annotations, e categories matrizes) são tratados como COCO. Conjuntos de dados com apenas imagens e sem anotações são tratados como brutos.

Para obter detalhes sobre o formato específico da tarefa, consulte as tarefas suportadas e a Visão geral dos conjuntos de dados.

Processo de Carregamento

  1. Navegue até Datasets na barra lateral
  2. Clique New Dataset ou arraste os ficheiros para a zona de upload
  3. Selecione o tipo de tarefa (consulte as tarefas suportadas)
  4. Adicione um nome e uma descrição opcional
  5. Defina a visibilidade (pública ou privada) e a licença opcional (consulte as licenças disponíveis)
  6. Clique Create

Ultralytics Conjuntos de dados Caixa de diálogo de carregamento Seletor de tarefas

Após o upload, a plataforma processa os seus dados através de um pipeline de várias etapas:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. Validação: Verificações de formato e tamanho
  2. Normalização: imagens grandes redimensionadas (máximo 4096 px, dimensão mínima 28 px)
  3. Miniaturas: pré-visualizações WebP de 256 px geradas
  4. Análise de rótulos: YOLO e etiquetas COCO extraídas
  5. Estatísticas: Distribuições de classes e dimensões de imagem calculadas

Barra de progresso do upload de conjuntos de dados Ultralytics

Validar Antes do Upload

Você pode validar seu conjunto de dados localmente antes de fazer o upload:

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

Requisitos de tamanho da imagem

As imagens devem ter pelo menos 28 px no lado mais curto. Imagens menores que isso são rejeitadas durante o processamento. Imagens maiores que 4096 px no lado mais longo são redimensionadas automaticamente, mantendo a proporção.

Explorar Imagens

Visualize as imagens do seu conjunto de dados em múltiplos layouts:

VisualizarDescrição
GradeGrelha de miniaturas com sobreposições de anotações (padrão)
CompactoMiniaturas menores para uma varredura rápida
TabelaLista com miniatura, nome do ficheiro, dimensões, tamanho, divisão, classes e contagem de rótulos

Galeria de conjuntos de dados Ultralytics com visualização em grade e anotações

Classificação e filtragem

As imagens podem ser ordenadas e filtradas para uma navegação eficiente:

OrdenarDescrição
Mais recenteAdicionados mais recentemente
Mais antigoAdicionado mais recentemente
Nome A-ZAlfabético
Nome Z-AAlfabético inverso
Tamanho (menor)Arquivos menores primeiro
Tamanho (maior)Arquivos maiores primeiro
A maioria das etiquetasA maioria das anotações
Menos rótulosMenos anotações
FiltrarOpções
Filtro divididoTreinar, Val, Testar ou Tudo
Filtro de etiquetaTodas as imagens, anotadas ou não anotadas
PesquisarFiltrar imagens por nome de ficheiro

Encontrar imagens sem rótulo

Use o filtro de etiqueta definido para Unannotated para encontrar rapidamente imagens que ainda precisam de anotação. Isso é especialmente útil para grandes conjuntos de dados em que se deseja track o progresso track .

Visualizador em Ecrã Inteiro

Clique em qualquer imagem para abrir o visualizador em tela cheia com:

  • Navegação: Teclas de seta ou pré-visualizações em miniatura para navegar
  • Metadados: Nome do ficheiro, dimensões, divisão do emblema, contagem de anotações
  • Anotações: Alternar a visibilidade da sobreposição de anotações
  • Discriminação por classe: contagem de rótulos por classe com indicadores de cor
  • Editar: Entre no modo de anotação para adicionar ou modificar rótulos
  • Download: Descarregue o ficheiro de imagem original
  • Apagar: Apaga a imagem do conjunto de dados
  • Zoom: Cmd/Ctrl+Scroll para ampliar/reduzir
  • Visualização em pixels: alternar a renderização pixelizada para inspeção detalhada

Visualizador em ecrã inteiro dos conjuntos de dados Ultralytics com painel de metadados

Filtrar por Divisão

Filtre imagens pela divisão do seu conjunto de dados:

DivisãoPropósito
TreinarUtilizado para o treinamento do modelo
ValidarUtilizado para validação durante o treinamento
TestarUtilizado para avaliação final

Guias do conjunto de dados

Cada página de conjunto de dados tem cinco separadores acessíveis a partir da barra de separadores:

Guia Imagens

A visualização padrão mostra a galeria de imagens com sobreposições de anotações. Suporta os modos de visualização em grelha, compacto e tabela. Arraste e solte ficheiros aqui para adicionar mais imagens.

Guia Classes

Gerencie classes de anotação para o seu conjunto de dados:

  • Histograma de classes: Gráfico de barras que mostra a contagem de anotações por classe com alternância entre escala linear/logarítmica
  • Tabela de classes: Tabela classificável e pesquisável com nome da classe, contagem de rótulos e contagem de imagens
  • Editar nomes de classes: Clique em qualquer nome de classe para renomeá-lo inline
  • Editar cores da classe: Clique numa amostra de cor para alterar a cor da classe
  • Adicionar nova classe: Use o campo de entrada na parte inferior para adicionar classes

Ultralytics Conjuntos de dados Classificações Guia Histograma e tabela

Escala logarítmica para conjuntos de dados desequilibrados

Se o seu conjunto de dados tiver desequilíbrio de classes (por exemplo, 10.000 anotações de «pessoa», mas apenas 50 de «bicicleta»), use o Log Scale ative o histograma de classes para visualizar todas as classes claramente.

Guia Gráficos

Estatísticas automáticas calculadas a partir do seu conjunto de dados:

GráficoDescrição
Distribuição divididaGráfico circular com contagem de imagens de treino/validação/teste e percentagem rotulada
Aulas de excelênciaGráfico circular das 10 classes de anotação mais frequentes
Larguras das imagensHistograma da distribuição da largura da imagem com média
Alturas da imagemHistograma da distribuição da altura da imagem com média
Pontos por instânciaContagem de vértices ou pontos-chave do polígono por anotação (segment)
Localizações das anotaçõesMapa de calor 2D das posições centrais das caixas delimitadoras
Dimensões da imagemMapa de calor 2D de largura vs altura com linhas-guia de proporção

Ultralytics Conjuntos de dados Guia Gráficos Grade de estatísticas

Cache de Estatísticas

As estatísticas são armazenadas em cache por 5 minutos. As alterações nas anotações serão refletidas após a expiração do cache.

Mapas de calor em ecrã inteiro

Clique no botão expandir em qualquer mapa de calor para visualizá-lo em modo de ecrã inteiro. Isso proporciona uma visualização maior e mais detalhada, útil para compreender padrões espaciais em grandes conjuntos de dados.

Guia Modelos

Veja todos os modelos treinados neste conjunto de dados numa tabela pesquisável:

ColunaDescrição
NomeNome do modelo com link
ProjetoProjeto pai com ícone
StatusEmblema de status de formação
TarefaTipo YOLO
ÉpocasMelhor época / épocas totais
mAP50-95Precisão média
mAP50mAP IoU ,50
Criado emData de criação

Ultralytics Conjuntos de dados Separador Modelos Tabela de modelos treinados

Guia Erros

As imagens cujo processamento falhou são listadas aqui com:

  • Banner de erro: Contagem total de imagens com falha e orientações
  • Tabela de erros: nome do ficheiro, descrição do erro de fácil compreensão, sugestões de correção e miniatura de pré-visualização
  • Erros comuns incluem ficheiros corrompidos, formatos não suportados, imagens muito pequenas (mínimo 28 px) e modos de cor não suportados.
Erros comuns de processamento
ErroCausaCorrigir
Não é possível ler o ficheiro de imagemFormato corrompido ou não suportadoReexportar a partir do editor de imagens
Incompleto ou corrompidoO ficheiro foi truncado durante a transferênciaFaça o download novamente do ficheiro original
Imagem muito pequenaDimensão mínima abaixo de 28pxUse imagens de origem com resolução mais alta
Modo de cor não suportadoCMYK ou modo de cor indexadoConverter para o modo RGB

Exportar Conjunto de Dados

Exporte o seu conjunto de dados no formato NDJSON para utilização offline:

  1. Clique no ícone de download no cabeçalho do conjunto de dados.
  2. O ficheiro NDJSON é descarregado automaticamente

Conjuntos de dados Ultralytics Exportar Ndjson Download

O formato NDJSON armazena um objeto JSON por linha. A primeira linha contém os metadados do conjunto de dados, seguidos por uma linha por imagem:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

URLs assinados

As URLs das imagens no NDJSON exportado são assinadas e válidas por 7 dias. Se precisar de URLs novas, reexporte o conjunto de dados.

Consulte a documentação do formato NDJSON da Ultralytics para a especificação completa.

Operações em massa

Gerencie imagens em massa usando o menu de contexto da visualização da tabela:

Mudança para Split

Reatribuir imagens selecionadas a uma divisão diferente dentro do mesmo conjunto de dados:

  1. Mudar para a visualização em tabela
  2. Selecione imagens usando caixas de seleção
  3. Clique com o botão direito do rato para abrir o menu de contexto
  4. Escolha Move to split > Treinar, Validação, ou Testar

Você também pode arrastar e soltar imagens nas guias do filtro dividido na visualização em grade.

Organização de divisões de comboios/vales

Carregue todas as imagens para um conjunto de dados e, em seguida, use a função mover para dividir em massa para organizar subconjuntos em divisões de treino, validação e teste.

Eliminar em massa

Elimine várias imagens de uma só vez:

  1. Selecione imagens na visualização da tabela
  2. Clique com o botão direito do rato e selecione Delete
  3. Confirmar exclusão

URI do Conjunto de Dados

Referencie conjuntos de dados da Plataforma usando o ul:// Formato URI (ver Utilizar Conjuntos de Dados da Plataforma):

ul://username/datasets/dataset-slug

Use este URI para treinar modelos de qualquer lugar:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Treine em Qualquer Lugar com Dados da Plataforma

O ul:// O URI funciona em qualquer ambiente:

  • Máquina local: Treine no seu hardware, com dados baixados automaticamente
  • Google Colab: Acesse seus conjuntos de dados da Plataforma em notebooks
  • Servidores remotos: Treine em VMs na nuvem com acesso total aos conjuntos de dados

Licenças disponíveis

A Plataforma suporta as seguintes licenças para conjuntos de dados:

LicençaTipo
NenhumNenhuma licença selecionada
CC0-1.0Domínio público
CC-BY-2.5Permissivo
CC-BY-4.0Permissivo
CC-BY-SA-4.0Copyleft
CC-BY-NC-4.0Não comercial
CC-BY-NC-SA-4.0Copyleft
CC-BY-ND-4.0Sem derivados
CC-BY-NC-ND-4.0Não comercial
Apache-2.0Permissivo
MITPermissivo
AGPL-3.0Copyleft
GPL-3.0Copyleft
Apenas para pesquisaRestrito
OutrosPersonalizado

Licenças Copyleft

Ao clonar um conjunto de dados com uma licença copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), o clone herda a licença e o seletor de licença é bloqueado.

Configurações de Visibilidade

Controle quem pode ver seu conjunto de dados:

ConfigurandoDescrição
PrivadoApenas você pode acessar
PúblicoQualquer pessoa pode visualizar na página Explorar

A visibilidade é definida ao criar um conjunto de dados no New Dataset diálogo usando um botão seletor. Os conjuntos de dados públicos são visíveis no Explorar página.

Editar Conjunto de Dados

Os metadados do conjunto de dados são editados diretamente na página do conjunto de dados — sem necessidade de diálogo:

  • Nome: Clique no nome do conjunto de dados para editá-lo. As alterações são guardadas automaticamente ao sair do campo ou Enter.
  • Descrição: Clique na descrição (ou no espaço reservado «Adicionar uma descrição...») para editar. As alterações são guardadas automaticamente.
  • Tipo de tarefa: clique no emblema da tarefa para selecionar um tipo de tarefa diferente.
  • Licença: Clique no seletor de licença para alterar a licença do conjunto de dados.

Alterar o tipo de tarefa

Alterar o tipo de tarefa pode afetar a forma como as anotações existentes são visualizadas. Anotações incompatíveis não serão exibidas.

Clonar Conjunto de Dados

Ao visualizar um conjunto de dados público que não lhe pertence, clique em Clone Dataset para criar uma cópia na sua área de trabalho. A cópia inclui todas as imagens, anotações e definições de classe. Se o conjunto de dados original tiver uma licença copyleft, a cópia herda-a e o seletor de licença fica bloqueado.

Estrela e partilha

  • Estrela: Clique no botão estrela para marcar um conjunto de dados. A contagem de estrelas é visível para todos os utilizadores.
  • Partilhar: Para conjuntos de dados públicos, clique no botão «Partilhar» para copiar um link ou partilhar em plataformas sociais.

Excluir Conjunto de Dados

Exclua um conjunto de dados que você não precisa mais:

  1. Abra o menu de ações do conjunto de dados
  2. Clique Delete
  3. Confirme na caixa de diálogo: «Isto irá mover [nome] para a lixeira. Pode restaurá-lo dentro de 30 dias.»

Lixeira e Restaurar

Os conjuntos de dados eliminados são movidos para a Lixeira — não são eliminados permanentemente. Pode restaurá-los no prazo de 30 dias a partir de Settings > Trash.

Treinar no Conjunto de Dados

Inicie o treinamento diretamente do seu conjunto de dados:

  1. Clique New Model na página do conjunto de dados
  2. Selecione um projeto ou crie um novo
  3. Configure os parâmetros de treinamento
  4. Iniciar treinamento
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

Consulte Treinamento em Nuvem para mais detalhes.

FAQ

O que acontece com os meus dados depois de carregados?

Os seus dados são processados e armazenados na região selecionada (EUA, UE ou AP). As imagens são:

  1. Validado para formato e tamanho
  2. Rejeitado se a dimensão mínima for inferior a 28 px
  3. Normalizado se maior que 4096px (preservando a proporção; codificado para armazenamento otimizado)
  4. Armazenado usando armazenamento endereçável por conteúdo (CAS) com hash XXH3-128
  5. Miniaturas geradas em 256px WebP para uma navegação rápida

Como funciona o armazenamento?

A Plataforma Ultralytics utiliza Armazenamento Endereçável por Conteúdo (CAS) para um armazenamento eficiente:

  • Desduplicação: Imagens idênticas carregadas por diferentes utilizadores são armazenadas apenas uma vez
  • Integridade: o hash XXH3-128 garante a integridade dos dados
  • Eficiência: Reduz os custos de armazenamento e acelera o processamento
  • Regional: Os dados permanecem na sua região selecionada (EUA, UE ou AP)

Posso adicionar imagens a um conjunto de dados existente?

Sim, arraste e solte os ficheiros na página do conjunto de dados ou utilize o botão de carregamento para adicionar imagens adicionais. Novas estatísticas serão calculadas automaticamente.

Como posso mover imagens entre divisões?

Use o recurso de mover em massa para dividir:

  1. Selecione imagens na visualização da tabela
  2. Clique com o botão direito do rato e selecione Move to split
  3. Selecione a divisão de destino (Treino, Validação ou Teste)

Quais formatos de rótulo são suportados?

Ultralytics suporta dois formatos de anotação para upload:

Um .txt ficheiro por imagem com coordenadas normalizadas (intervalo 0-1):

TarefaFormatoExemplo
Detectarclass cx cy w h0 0.5 0.5 0.2 0.3
Segmentarclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
Poseclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
ClassificarEstrutura do diretóriotrain/cats/, train/dogs/

Sinalizadores de visibilidade da pose: 0 = não rotulado, 1 = rotulado, mas oculto, 2 = rotulado e visível.

Arquivos JSON com images, annotations, e categories matrizes. Suporta deteção (bbox), segmentação (polígono) e pose (keypoints). COCO coordenadas absolutas de pixels que são automaticamente convertidas para o formato normalizado durante o upload.



📅 Criado há 1 mês ✏️ Atualizado há 5 dias
glenn-jochersergiuwaxmannLaughing-q

Comentários