Conjuntos de dados
Os conjuntos de dados da Ultralytics Platform oferecem uma solução otimizada para gerenciar os seus dados de treino. Uma vez carregados, os conjuntos de dados podem ser imediatamente utilizados para o treino de modelos, com processamento automático e geração de estatísticas.
Fazer Upload do Conjunto de Dados
Ultralytics aceita vários formatos de upload para maior flexibilidade.
Formatos de imagem suportados
| Formato | Extensões | Notas |
|---|---|---|
| JPEG | .jpg, .jpeg | Mais comum, recomendado |
| PNG | .png | Apoia a transparência |
| WebP | .webp | Moderno, boa compressão |
| BMP | .bmp | Não comprimido |
| GIF | .gif | Primeiro fotograma extraído |
| TIFF | .tiff, .tif | Alta qualidade |
| HEIC | .heic | Fotos do iPhone |
| AVIF | .avif | Formato de última geração |
| JP2 | .jp2 | JPEG 2000 |
| DNG | .dng | Câmara bruta |
Formatos de vídeo suportados
Os vídeos são automaticamente extraídos para fotogramas:
| Formato | Extensões | Extração |
|---|---|---|
| MP4 | .mp4 | 1 FPS, máximo de 100 fotogramas |
| WebM | .webm | 1 FPS, máximo de 100 fotogramas |
| MOV | .mov | 1 FPS, máximo de 100 fotogramas |
| AVI | .avi | 1 FPS, máximo de 100 fotogramas |
| MKV | .mkv | 1 FPS, máximo de 100 fotogramas |
| M4V | .m4v | 1 FPS, máximo de 100 fotogramas |
Limites de tamanho de ficheiro
| Tipo | Tamanho máximo |
|---|---|
| Imagens | 50 MB cada |
| Vídeos | 1 GB cada |
| Arquivos ZIP | 50 GB |
Arquivos
Arquivos ZIP de até 50 GB são suportados com a estrutura de pastas preservada e extração e processamento automáticos.
Preparar o Seu Conjunto de Dados
Para conjuntos de dados rotulados, utilize o formato YOLO padrão:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
O arquivo yaml define a configuração do seu conjunto de dados:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Processo de Carregamento
- Navegue até Datasets na barra lateral
- Clique em Upload Dataset ou arraste os arquivos para a zona de upload
- Selecione o tipo de tarefa (detect, segment, pose, obb, classify)
- Adicione um nome e uma descrição opcional
- Clique em Upload
Após o upload, a Plataforma processa seus dados:
- Normalização: Imagens grandes redimensionadas (máx. 4096px)
- Miniaturas: Pré-visualizações de 256px geradas
- Análise de Rótulos: Rótulos no formato YOLO extraídos
- Estatísticas: Distribuições de classes calculadas
Validar Antes do Upload
Você pode validar seu conjunto de dados localmente antes de fazer o upload:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Explorar Imagens
Visualize as imagens do seu conjunto de dados em múltiplos layouts:
| Visualizar | Descrição |
|---|---|
| Grade | Grade de miniaturas com sobreposições de anotações |
| Compacto | Miniaturas menores para uma varredura rápida |
| Tabela | Lista com nome do arquivo, dimensões e contagens de rótulos |
Visualizador em Ecrã Inteiro
Clique em qualquer imagem para abrir o visualizador em tela cheia com:
- Navegação: Teclas de seta ou clique para navegar
- Metadados: Nome do arquivo, dimensões, divisão, contagem de rótulos
- Anotações: Alternar visibilidade das anotações
- Distribuição por Classe: Contagens de rótulos por classe
Filtrar por Divisão
Filtre imagens pela divisão do seu conjunto de dados:
| Divisão | Propósito |
|---|---|
| Treinar | Utilizado para o treinamento do modelo |
| Validar | Utilizado para validação durante o treinamento |
| Testar | Utilizado para avaliação final |
| Desconhecido | Nenhuma divisão atribuída |
Estatísticas do Conjunto de Dados
A aba Estatísticas oferece análise automática do seu conjunto de dados:
Distribuição de classes
Gráfico de barras mostrando o número de anotações por classe:
Mapa de Calor de Localização
Visualização de onde as anotações aparecem nas imagens:
Análise de Dimensões
Gráfico de dispersão das dimensões da imagem (largura vs altura):
Cache de Estatísticas
As estatísticas são armazenadas em cache por 5 minutos. As alterações nas anotações serão refletidas após a expiração do cache.
Exportar Conjunto de Dados
Exporte seu conjunto de dados no formato NDJSON para uso offline:
- Abra o menu de ações do conjunto de dados
- Clique em Exportar
- Baixe o arquivo NDJSON
O formato NDJSON armazena um objeto JSON por linha:
{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}
Consulte a documentação do formato NDJSON da Ultralytics para a especificação completa.
URI do Conjunto de Dados
Referencie conjuntos de dados da Plataforma usando o ul:// Formato URI:
ul://username/datasets/dataset-slug
Use este URI para treinar modelos de qualquer lugar:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
Treine em Qualquer Lugar com Dados da Plataforma
O ul:// O URI funciona em qualquer ambiente:
- Máquina local: Treine no seu hardware, com dados baixados automaticamente
- Google Colab: Acesse seus conjuntos de dados da Plataforma em notebooks
- Servidores remotos: Treine em VMs na nuvem com acesso total aos conjuntos de dados
Configurações de Visibilidade
Controle quem pode ver seu conjunto de dados:
| Configurando | Descrição |
|---|---|
| Privado | Apenas você pode acessar |
| Público | Qualquer pessoa pode visualizar na página Explorar |
Para alterar a visibilidade:
- Abra o menu de ações do conjunto de dados
- Clique em Editar
- Alterne a configuração de visibilidade
- Clique em Salvar
Editar Conjunto de Dados
Atualize o nome, descrição ou visibilidade do conjunto de dados:
- Abra o menu de ações do conjunto de dados
- Clique em Editar
- Fazer alterações
- Clique em Salvar
Excluir Conjunto de Dados
Exclua um conjunto de dados que você não precisa mais:
- Abra o menu de ações do conjunto de dados
- Clique em Excluir
- Confirmar exclusão
Lixeira e Restaurar
Conjuntos de dados excluídos são movidos para a Lixeira por 30 dias. Você pode restaurá-los da página da Lixeira em Configurações.
Treinar no Conjunto de Dados
Inicie o treinamento diretamente do seu conjunto de dados:
- Clique em Treinar Modelo na página do conjunto de dados
- Selecione um projeto ou crie um novo
- Configure os parâmetros de treinamento
- Iniciar treinamento
Consulte Treinamento em Nuvem para mais detalhes.
FAQ
O que acontece com os meus dados depois de carregados?
Os seus dados são processados e armazenados na região selecionada (EUA, UE ou AP). As imagens são:
- Validado para formato e tamanho
- Normalizado se maior que 4096px (preservando a proporção)
- Armazenado usando Content-Addressable Storage (CAS) com hashing SHA-256
- Miniaturas geradas em 256px para navegação rápida
Como funciona o armazenamento?
A Plataforma Ultralytics utiliza Armazenamento Endereçável por Conteúdo (CAS) para um armazenamento eficiente:
- Desduplicação: Imagens idênticas carregadas por diferentes utilizadores são armazenadas apenas uma vez
- Integridade: O hashing SHA-256 garante a integridade dos dados
- Eficiência: Reduz os custos de armazenamento e acelera o processamento
- Regional: Os dados permanecem na sua região selecionada (EUA, UE ou AP)
Posso adicionar imagens a um conjunto de dados existente?
Sim, utilize o botão Adicionar Imagens na página do conjunto de dados para carregar imagens adicionais. Novas estatísticas serão calculadas automaticamente.
Como movo imagens entre conjuntos de dados?
Utilize a funcionalidade de seleção em massa:
- Selecione imagens na galeria
- Clique em Mover ou Copiar
- Selecione o conjunto de dados de destino
Quais formatos de rótulo são suportados?
A Plataforma Ultralytics suporta rótulos no formato YOLO:
| Tarefa | Formato | Exemplo |
|---|---|---|
| Detectar | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentar | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classificar | Estrutura do diretório | train/cats/, train/dogs/ |
Todas as coordenadas são normalizadas (intervalo 0-1). Indicadores de visibilidade da pose: 0 = não rotulado, 1 = rotulado, mas oculto, 2 = rotulado e visível.