Conjuntos de dados
Os conjuntos de dados da Ultralytics Platform oferecem uma solução otimizada para gerenciar os seus dados de treino. Uma vez carregados, os conjuntos de dados podem ser imediatamente utilizados para o treino de modelos, com processamento automático e geração de estatísticas.
Fazer Upload do Conjunto de Dados
Ultralytics aceita vários formatos de upload para maior flexibilidade.
Formatos Suportados
| Formato | Extensões | Notas | Tamanho máximo |
|---|---|---|---|
| JPEG | .jpg, .jpeg | Mais comum, recomendado | 50 MB |
| PNG | .png | Apoia a transparência | 50 MB |
| WebP | .webp | Moderno, boa compressão | 50 MB |
| BMP | .bmp | Não comprimido | 50 MB |
| TIFF | .tiff, .tif | Alta qualidade | 50 MB |
| HEIC | .heic | Fotos do iPhone | 50 MB |
| AVIF | .avif | Formato de última geração | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | Câmara bruta | 50 MB |
| MPO | .mpo | Objeto com várias imagens | 50 MB |
Os vídeos são automaticamente extraídos para fotogramas no lado do cliente a 1 FPS (máximo de 100 fotogramas por vídeo).
| Formato | Extensões | Extração | Tamanho máximo |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS, máximo de 100 fotogramas | 1 GB |
| WebM | .webm | 1 FPS, máximo de 100 fotogramas | 1 GB |
| MOV | .mov | 1 FPS, máximo de 100 fotogramas | 1 GB |
| AVI | .avi | 1 FPS, máximo de 100 fotogramas | 1 GB |
| MKV | .mkv | 1 FPS, máximo de 100 fotogramas | 1 GB |
| M4V | .m4v | 1 FPS, máximo de 100 fotogramas | 1 GB |
Extração de Frames de Vídeo
Os fotogramas de vídeo são extraídos a uma velocidade de 1 fotograma por segundo no navegador antes do upload. Um vídeo de 60 segundos produz 60 fotogramas. O máximo é de 100 fotogramas por vídeo, pelo que os vídeos com mais de ~100 segundos serão amostrados.
Os arquivos são extraídos e processados automaticamente.
| Formato | Extensões | Notas | Tamanho máximo |
|---|---|---|---|
| ZIP | .zip | Mais comum | 10 GB |
| TAR | .tar | Arquivo não comprimido | 10 GB |
| TAR.GZ | .tar.gz, .tgz | Arquivo compactado | 10 GB |
| GZ | .gz | Comprimido com Gzip | 10 GB |
Preparar o Seu Conjunto de Dados
A plataforma suporta dois formatos de anotação, além de uploads brutos: Ultralytics YOLO, COCOe raw (imagens sem anotação):
Use a estrutura YOLO padrão YOLO com um data.yaml arquivo:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
O arquivo yaml define a configuração do seu conjunto de dados:
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
Use ficheiros de anotação JSON com a COCO padrão:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
O ficheiro JSON contém images, annotations, e categories matrizes:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO são convertidas automaticamente durante o upload. Detecção (bbox), segmentação (segmentation polígonos) e pose (keypoints) são suportadas. Os IDs de categoria são remapeados para uma sequência densa indexada em 0 em todos os ficheiros de anotação. Para converter entre formatos, consulte ferramentas de conversão de formatos.
Uploads brutos
Raw: Carregue imagens sem anotações (sem rótulos). Útil quando planeia fazer anotações diretamente na plataforma usando o editor de anotações.
Estrutura de diretório plana
Também é possível carregar imagens sem a estrutura de pastas train/val. As imagens carregadas sem pastas separadas são atribuídas à pasta train divididos por predefinição. Pode reatribuí-los posteriormente utilizando a funcionalidade de movimentação em massa para divisão.
Detecção automática de formato
O formato é detetado automaticamente: conjuntos de dados com um data.yaml contendo names, train, ou val as chaves são tratadas como YOLO. Conjuntos de dados com ficheiros COCO (contendo images, annotations, e categories matrizes) são tratados como COCO. Conjuntos de dados com apenas imagens e sem anotações são tratados como brutos.
Para obter detalhes sobre o formato específico da tarefa, consulte as tarefas suportadas e a Visão geral dos conjuntos de dados.
Processo de Carregamento
- Navegue até
Datasetsna barra lateral - Clique
New Datasetou arraste os ficheiros para a zona de upload - Selecione o tipo de tarefa (consulte as tarefas suportadas)
- Adicione um nome e uma descrição opcional
- Defina a visibilidade (pública ou privada) e a licença opcional (consulte as licenças disponíveis)
- Clique
Create

Após o upload, a plataforma processa os seus dados através de um pipeline de várias etapas:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- Validação: Verificações de formato e tamanho
- Normalização: imagens grandes redimensionadas (máximo 4096 px, dimensão mínima 28 px)
- Miniaturas: pré-visualizações WebP de 256 px geradas
- Análise de rótulos: YOLO e etiquetas COCO extraídas
- Estatísticas: Distribuições de classes e dimensões de imagem calculadas

Validar Antes do Upload
Você pode validar seu conjunto de dados localmente antes de fazer o upload:
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
Requisitos de tamanho da imagem
As imagens devem ter pelo menos 28 px no lado mais curto. Imagens menores que isso são rejeitadas durante o processamento. Imagens maiores que 4096 px no lado mais longo são redimensionadas automaticamente, mantendo a proporção.
Explorar Imagens
Visualize as imagens do seu conjunto de dados em múltiplos layouts:
| Visualizar | Descrição |
|---|---|
| Grade | Grelha de miniaturas com sobreposições de anotações (padrão) |
| Compacto | Miniaturas menores para uma varredura rápida |
| Tabela | Lista com miniatura, nome do ficheiro, dimensões, tamanho, divisão, classes e contagem de rótulos |

Classificação e filtragem
As imagens podem ser ordenadas e filtradas para uma navegação eficiente:
| Ordenar | Descrição |
|---|---|
| Mais recente | Adicionados mais recentemente |
| Mais antigo | Adicionado mais recentemente |
| Nome A-Z | Alfabético |
| Nome Z-A | Alfabético inverso |
| Tamanho (menor) | Arquivos menores primeiro |
| Tamanho (maior) | Arquivos maiores primeiro |
| A maioria das etiquetas | A maioria das anotações |
| Menos rótulos | Menos anotações |
| Filtrar | Opções |
|---|---|
| Filtro dividido | Treinar, Val, Testar ou Tudo |
| Filtro de etiqueta | Todas as imagens, anotadas ou não anotadas |
| Pesquisar | Filtrar imagens por nome de ficheiro |
Encontrar imagens sem rótulo
Use o filtro de etiqueta definido para Unannotated para encontrar rapidamente imagens que ainda precisam de anotação. Isso é especialmente útil para grandes conjuntos de dados em que se deseja track o progresso track .
Visualizador em Ecrã Inteiro
Clique em qualquer imagem para abrir o visualizador em tela cheia com:
- Navegação: Teclas de seta ou pré-visualizações em miniatura para navegar
- Metadados: Nome do ficheiro, dimensões, divisão do emblema, contagem de anotações
- Anotações: Alternar a visibilidade da sobreposição de anotações
- Discriminação por classe: contagem de rótulos por classe com indicadores de cor
- Editar: Entre no modo de anotação para adicionar ou modificar rótulos
- Download: Descarregue o ficheiro de imagem original
- Apagar: Apaga a imagem do conjunto de dados
- Zoom:
Cmd/Ctrl+Scrollpara ampliar/reduzir - Visualização em pixels: alternar a renderização pixelizada para inspeção detalhada

Filtrar por Divisão
Filtre imagens pela divisão do seu conjunto de dados:
| Divisão | Propósito |
|---|---|
| Treinar | Utilizado para o treinamento do modelo |
| Validar | Utilizado para validação durante o treinamento |
| Testar | Utilizado para avaliação final |
Guias do conjunto de dados
Cada página de conjunto de dados tem cinco separadores acessíveis a partir da barra de separadores:
Guia Imagens
A visualização padrão mostra a galeria de imagens com sobreposições de anotações. Suporta os modos de visualização em grelha, compacto e tabela. Arraste e solte ficheiros aqui para adicionar mais imagens.
Guia Classes
Gerencie classes de anotação para o seu conjunto de dados:
- Histograma de classes: Gráfico de barras que mostra a contagem de anotações por classe com alternância entre escala linear/logarítmica
- Tabela de classes: Tabela classificável e pesquisável com nome da classe, contagem de rótulos e contagem de imagens
- Editar nomes de classes: Clique em qualquer nome de classe para renomeá-lo inline
- Editar cores da classe: Clique numa amostra de cor para alterar a cor da classe
- Adicionar nova classe: Use o campo de entrada na parte inferior para adicionar classes

Escala logarítmica para conjuntos de dados desequilibrados
Se o seu conjunto de dados tiver desequilíbrio de classes (por exemplo, 10.000 anotações de «pessoa», mas apenas 50 de «bicicleta»), use o Log Scale ative o histograma de classes para visualizar todas as classes claramente.
Guia Gráficos
Estatísticas automáticas calculadas a partir do seu conjunto de dados:
| Gráfico | Descrição |
|---|---|
| Distribuição dividida | Gráfico circular com contagem de imagens de treino/validação/teste e percentagem rotulada |
| Aulas de excelência | Gráfico circular das 10 classes de anotação mais frequentes |
| Larguras das imagens | Histograma da distribuição da largura da imagem com média |
| Alturas da imagem | Histograma da distribuição da altura da imagem com média |
| Pontos por instância | Contagem de vértices ou pontos-chave do polígono por anotação (segment) |
| Localizações das anotações | Mapa de calor 2D das posições centrais das caixas delimitadoras |
| Dimensões da imagem | Mapa de calor 2D de largura vs altura com linhas-guia de proporção |

Cache de Estatísticas
As estatísticas são armazenadas em cache por 5 minutos. As alterações nas anotações serão refletidas após a expiração do cache.
Mapas de calor em ecrã inteiro
Clique no botão expandir em qualquer mapa de calor para visualizá-lo em modo de ecrã inteiro. Isso proporciona uma visualização maior e mais detalhada, útil para compreender padrões espaciais em grandes conjuntos de dados.
Guia Modelos
Veja todos os modelos treinados neste conjunto de dados numa tabela pesquisável:
| Coluna | Descrição |
|---|---|
| Nome | Nome do modelo com link |
| Projeto | Projeto pai com ícone |
| Status | Emblema de status de formação |
| Tarefa | Tipo YOLO |
| Épocas | Melhor época / épocas totais |
| mAP50-95 | Precisão média |
| mAP50 | mAP IoU ,50 |
| Criado em | Data de criação |

Guia Erros
As imagens cujo processamento falhou são listadas aqui com:
- Banner de erro: Contagem total de imagens com falha e orientações
- Tabela de erros: nome do ficheiro, descrição do erro de fácil compreensão, sugestões de correção e miniatura de pré-visualização
- Erros comuns incluem ficheiros corrompidos, formatos não suportados, imagens muito pequenas (mínimo 28 px) e modos de cor não suportados.
Erros comuns de processamento
| Erro | Causa | Corrigir |
|---|---|---|
| Não é possível ler o ficheiro de imagem | Formato corrompido ou não suportado | Reexportar a partir do editor de imagens |
| Incompleto ou corrompido | O ficheiro foi truncado durante a transferência | Faça o download novamente do ficheiro original |
| Imagem muito pequena | Dimensão mínima abaixo de 28px | Use imagens de origem com resolução mais alta |
| Modo de cor não suportado | CMYK ou modo de cor indexado | Converter para o modo RGB |
Exportar Conjunto de Dados
Exporte o seu conjunto de dados no formato NDJSON para utilização offline:
- Clique no ícone de download no cabeçalho do conjunto de dados.
- O ficheiro NDJSON é descarregado automaticamente

O formato NDJSON armazena um objeto JSON por linha. A primeira linha contém os metadados do conjunto de dados, seguidos por uma linha por imagem:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
URLs assinados
As URLs das imagens no NDJSON exportado são assinadas e válidas por 7 dias. Se precisar de URLs novas, reexporte o conjunto de dados.
Consulte a documentação do formato NDJSON da Ultralytics para a especificação completa.
Operações em massa
Gerencie imagens em massa usando o menu de contexto da visualização da tabela:
Mudança para Split
Reatribuir imagens selecionadas a uma divisão diferente dentro do mesmo conjunto de dados:
- Mudar para a visualização em tabela
- Selecione imagens usando caixas de seleção
- Clique com o botão direito do rato para abrir o menu de contexto
- Escolha
Move to split> Treinar, Validação, ou Testar
Você também pode arrastar e soltar imagens nas guias do filtro dividido na visualização em grade.
Organização de divisões de comboios/vales
Carregue todas as imagens para um conjunto de dados e, em seguida, use a função mover para dividir em massa para organizar subconjuntos em divisões de treino, validação e teste.
Eliminar em massa
Elimine várias imagens de uma só vez:
- Selecione imagens na visualização da tabela
- Clique com o botão direito do rato e selecione
Delete - Confirmar exclusão
URI do Conjunto de Dados
Referencie conjuntos de dados da Plataforma usando o ul:// Formato URI (ver Utilizar Conjuntos de Dados da Plataforma):
ul://username/datasets/dataset-slug
Use este URI para treinar modelos de qualquer lugar:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Treine em Qualquer Lugar com Dados da Plataforma
O ul:// O URI funciona em qualquer ambiente:
- Máquina local: Treine no seu hardware, com dados baixados automaticamente
- Google Colab: Acesse seus conjuntos de dados da Plataforma em notebooks
- Servidores remotos: Treine em VMs na nuvem com acesso total aos conjuntos de dados
Licenças disponíveis
A Plataforma suporta as seguintes licenças para conjuntos de dados:
| Licença | Tipo |
|---|---|
| Nenhum | Nenhuma licença selecionada |
| CC0-1.0 | Domínio público |
| CC-BY-2.5 | Permissivo |
| CC-BY-4.0 | Permissivo |
| CC-BY-SA-4.0 | Copyleft |
| CC-BY-NC-4.0 | Não comercial |
| CC-BY-NC-SA-4.0 | Copyleft |
| CC-BY-ND-4.0 | Sem derivados |
| CC-BY-NC-ND-4.0 | Não comercial |
| Apache-2.0 | Permissivo |
| MIT | Permissivo |
| AGPL-3.0 | Copyleft |
| GPL-3.0 | Copyleft |
| Apenas para pesquisa | Restrito |
| Outros | Personalizado |
Licenças Copyleft
Ao clonar um conjunto de dados com uma licença copyleft (AGPL-3.0, GPL-3.0, CC-BY-SA-4.0, CC-BY-NC-SA-4.0), o clone herda a licença e o seletor de licença é bloqueado.
Configurações de Visibilidade
Controle quem pode ver seu conjunto de dados:
| Configurando | Descrição |
|---|---|
| Privado | Apenas você pode acessar |
| Público | Qualquer pessoa pode visualizar na página Explorar |
A visibilidade é definida ao criar um conjunto de dados no New Dataset diálogo usando um botão seletor. Os conjuntos de dados públicos são visíveis no Explorar página.
Editar Conjunto de Dados
Os metadados do conjunto de dados são editados diretamente na página do conjunto de dados — sem necessidade de diálogo:
- Nome: Clique no nome do conjunto de dados para editá-lo. As alterações são guardadas automaticamente ao sair do campo ou
Enter. - Descrição: Clique na descrição (ou no espaço reservado «Adicionar uma descrição...») para editar. As alterações são guardadas automaticamente.
- Tipo de tarefa: clique no emblema da tarefa para selecionar um tipo de tarefa diferente.
- Licença: Clique no seletor de licença para alterar a licença do conjunto de dados.
Alterar o tipo de tarefa
Alterar o tipo de tarefa pode afetar a forma como as anotações existentes são visualizadas. Anotações incompatíveis não serão exibidas.
Clonar Conjunto de Dados
Ao visualizar um conjunto de dados público que não lhe pertence, clique em Clone Dataset para criar uma cópia na sua área de trabalho. A cópia inclui todas as imagens, anotações e definições de classe. Se o conjunto de dados original tiver uma licença copyleft, a cópia herda-a e o seletor de licença fica bloqueado.
Estrela e partilha
- Estrela: Clique no botão estrela para marcar um conjunto de dados. A contagem de estrelas é visível para todos os utilizadores.
- Partilhar: Para conjuntos de dados públicos, clique no botão «Partilhar» para copiar um link ou partilhar em plataformas sociais.
Excluir Conjunto de Dados
Exclua um conjunto de dados que você não precisa mais:
- Abra o menu de ações do conjunto de dados
- Clique
Delete - Confirme na caixa de diálogo: «Isto irá mover [nome] para a lixeira. Pode restaurá-lo dentro de 30 dias.»
Lixeira e Restaurar
Os conjuntos de dados eliminados são movidos para a Lixeira — não são eliminados permanentemente. Pode restaurá-los no prazo de 30 dias a partir de Settings > Trash.
Treinar no Conjunto de Dados
Inicie o treinamento diretamente do seu conjunto de dados:
- Clique
New Modelna página do conjunto de dados - Selecione um projeto ou crie um novo
- Configure os parâmetros de treinamento
- Iniciar treinamento
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
Consulte Treinamento em Nuvem para mais detalhes.
FAQ
O que acontece com os meus dados depois de carregados?
Os seus dados são processados e armazenados na região selecionada (EUA, UE ou AP). As imagens são:
- Validado para formato e tamanho
- Rejeitado se a dimensão mínima for inferior a 28 px
- Normalizado se maior que 4096px (preservando a proporção; codificado para armazenamento otimizado)
- Armazenado usando armazenamento endereçável por conteúdo (CAS) com hash XXH3-128
- Miniaturas geradas em 256px WebP para uma navegação rápida
Como funciona o armazenamento?
A Plataforma Ultralytics utiliza Armazenamento Endereçável por Conteúdo (CAS) para um armazenamento eficiente:
- Desduplicação: Imagens idênticas carregadas por diferentes utilizadores são armazenadas apenas uma vez
- Integridade: o hash XXH3-128 garante a integridade dos dados
- Eficiência: Reduz os custos de armazenamento e acelera o processamento
- Regional: Os dados permanecem na sua região selecionada (EUA, UE ou AP)
Posso adicionar imagens a um conjunto de dados existente?
Sim, arraste e solte os ficheiros na página do conjunto de dados ou utilize o botão de carregamento para adicionar imagens adicionais. Novas estatísticas serão calculadas automaticamente.
Como posso mover imagens entre divisões?
Use o recurso de mover em massa para dividir:
- Selecione imagens na visualização da tabela
- Clique com o botão direito do rato e selecione
Move to split - Selecione a divisão de destino (Treino, Validação ou Teste)
Quais formatos de rótulo são suportados?
Ultralytics suporta dois formatos de anotação para upload:
Um .txt ficheiro por imagem com coordenadas normalizadas (intervalo 0-1):
| Tarefa | Formato | Exemplo |
|---|---|---|
| Detectar | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| Segmentar | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| Pose | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| Classificar | Estrutura do diretório | train/cats/, train/dogs/ |
Sinalizadores de visibilidade da pose: 0 = não rotulado, 1 = rotulado, mas oculto, 2 = rotulado e visível.
Arquivos JSON com images, annotations, e categories matrizes. Suporta deteção (bbox), segmentação (polígono) e pose (keypoints). COCO coordenadas absolutas de pixels que são automaticamente convertidas para o formato normalizado durante o upload.