Visão geral dos conjuntos de dados
Ultralytics fornece suporte para vários conjuntos de dados para facilitar as tarefas de visão computacional, como deteção, segmentação de instância, estimativa de pose, classificação e rastreamento de vários objetos. Segue-se uma lista dos principais conjuntos de dados Ultralytics , seguida de um resumo de cada tarefa de visão computacional e dos respectivos conjuntos de dados.
Observa: Ultralytics Visão geral dos conjuntos de dados
NOVO 🚀 Ultralytics Explorer
Cria embeddings para o teu conjunto de dados, procura imagens semelhantes, executa consultas SQL, efectua pesquisas semânticas e até pesquisa utilizando linguagem natural! Podes começar com a nossa aplicação GUI ou criar a tua própria aplicação utilizando a API. Sabe mais aqui.
- Experimenta a demonstração da GUI
- Sabe mais sobre a API Explorer
Deteção de objectos
A deteção de objectos com caixa delimitadora é uma técnica de visão por computador que envolve a deteção e localização de objectos numa imagem, desenhando uma caixa delimitadora à volta de cada objeto.
- Argoverse: Um conjunto de dados que contém dados de localização 3D e de previsão de movimento de ambientes urbanos com anotações ricas.
- COCO: Common Objects in Context (COCO) é um conjunto de dados de deteção, segmentação e legendagem de objectos em grande escala com 80 categorias de objectos.
- LVIS: Um conjunto de dados de deteção, segmentação e legendagem de objectos em grande escala com 1203 categorias de objectos.
- COCO8: Um subconjunto mais pequeno das primeiras 4 imagens de COCO train e COCO val, adequado para testes rápidos.
- COCO128: A smaller subset of the first 128 images from COCO train and COCO val, suitable for tests.
- Global Wheat 2020: Um conjunto de dados com imagens de cabeças de trigo para o Global Wheat Challenge 2020.
- Objects365: Um conjunto de dados de alta qualidade e em grande escala para deteção de objectos com 365 categorias de objectos e mais de 600 mil imagens anotadas.
- OpenImagesV7: Um conjunto de dados abrangente da Google com 1,7 milhões de imagens de treino e 42 mil imagens de validação.
- SKU-110K: Um conjunto de dados com deteção de objectos densos em ambientes de retalho com mais de 11 mil imagens e 1,7 milhões de caixas delimitadoras.
- VisDrone: Um conjunto de dados que contém dados de deteção de objectos e de seguimento de múltiplos objectos a partir de imagens captadas por drones, com mais de 10 mil imagens e sequências de vídeo.
- VOC: O conjunto de dados Pascal Visual Object Classes (VOC) para deteção e segmentação de objectos com 20 classes de objectos e mais de 11 mil imagens.
- xView: Um conjunto de dados para deteção de objectos em imagens aéreas com 60 categorias de objectos e mais de 1 milhão de objectos anotados.
- Roboflow 100: Uma referência de deteção de objectos diversificada com 100 conjuntos de dados que abrangem sete domínios de imagens para uma avaliação abrangente do modelo.
- Tumor cerebral: Um conjunto de dados para detetar tumores cerebrais inclui imagens de ressonância magnética ou tomografia computadorizada com detalhes sobre a presença, localização e características do tumor.
- Vida selvagem africana: Um conjunto de dados com imagens da vida selvagem africana, incluindo búfalos, elefantes, rinocerontes e zebras.
- Assinatura: Um conjunto de dados que apresenta imagens de vários documentos com assinaturas anotadas, apoiando a verificação de documentos e a investigação sobre deteção de fraudes.
Segmentação de instâncias
A segmentação de instâncias é uma técnica de visão por computador que envolve a identificação e localização de objectos numa imagem ao nível do pixel.
- COCO: Um conjunto de dados em grande escala concebido para tarefas de deteção, segmentação e legendagem de objectos com mais de 200 mil imagens etiquetadas.
- COCO8-seg: Um conjunto de dados mais pequeno para tarefas de segmentação de exemplos, contendo um subconjunto de 8 imagens COCO com anotações de segmentação.
- COCO128-seg: A smaller dataset for instance segmentation tasks, containing a subset of 128 COCO images with segmentation annotations.
- Crack-seg: Conjunto de dados especificamente criado para a deteção de fissuras em estradas e paredes, aplicável tanto a tarefas de deteção de objectos como de segmentação.
- Package-seg: Conjunto de dados personalizado para identificar embalagens em armazéns ou ambientes industriais, adequado para aplicações de deteção e segmentação de objectos.
- Carparts-seg: Conjunto de dados criado com o objetivo de identificar peças de veículos, atendendo às necessidades de design, fabrico e investigação. Serve tanto para tarefas de deteção de objectos como de segmentação.
Estimativa de pose
A estimativa da pose é uma técnica utilizada para determinar a pose do objeto em relação à câmara ou ao sistema de coordenadas do mundo.
- COCO: Um conjunto de dados em grande escala com anotações de pose humana concebido para tarefas de estimativa de pose.
- COCO8-pose: Um conjunto de dados mais pequeno para tarefas de estimativa de pose, contendo um subconjunto de 8 imagens COCO com anotações de pose humana.
- Tiger-pose: Um conjunto de dados compacto que consiste em 263 imagens centradas em tigres, anotadas com 12 pontos-chave por tigre para tarefas de estimativa de pose.
Classificação
A classificação de imagens é uma tarefa de visão por computador que envolve a categorização de uma imagem numa ou mais classes ou categorias predefinidas com base no seu conteúdo visual.
- Caltech 101: Um conjunto de dados que contém imagens de 101 categorias de objectos para tarefas de classificação de imagens.
- Caltech 256: Uma versão alargada do Caltech 101 com 256 categorias de objectos e imagens mais desafiantes.
- CIFAR-10: Um conjunto de dados de 60K imagens a cores 32x32 em 10 classes, com 6K imagens por classe.
- CIFAR-100: Uma versão alargada do CIFAR-10 com 100 categorias de objectos e 600 imagens por classe.
- Moda-MNIST: Um conjunto de dados constituído por 70.000 imagens em escala de cinzentos de 10 categorias de moda para tarefas de classificação de imagens.
- ImageNet: Um conjunto de dados em grande escala para deteção de objectos e classificação de imagens com mais de 14 milhões de imagens e 20.000 categorias.
- ImageNet-10: Um subconjunto mais pequeno do ImageNet com 10 categorias para uma experimentação e testes mais rápidos.
- Imagenette: Um subconjunto mais pequeno do ImageNet que contém 10 classes facilmente distinguíveis para um treino e teste mais rápidos.
- Imagewoof: Um subconjunto mais exigente do ImageNet que contém 10 categorias de raças de cães para tarefas de classificação de imagens.
- MNIST: Um conjunto de dados de 70.000 imagens em tons de cinzento de dígitos manuscritos para tarefas de classificação de imagens.
Caixas delimitadoras orientadas (OBB)
Oriented Bounding Boxes (OBB) é um método de visão por computador para detetar objectos angulares em imagens utilizando caixas delimitadoras rodadas, frequentemente aplicado a imagens aéreas e de satélite.
- DOTA-v2: Um popular conjunto de dados de imagens aéreas OBB com 1,7 milhões de instâncias e 11.268 imagens.
- DOTA8: A smaller subset of the first 8 images from the DOTAv1 split set, 4 for training and 4 for validation, suitable for quick tests.
Seguimento de vários objectos
O seguimento de múltiplos objectos é uma técnica de visão por computador que envolve a deteção e o seguimento de múltiplos objectos ao longo do tempo numa sequência de vídeo.
- Argoverse: Um conjunto de dados que contém dados de rastreio 3D e previsão de movimento de ambientes urbanos com anotações ricas para tarefas de rastreio de vários objectos.
- VisDrone: Um conjunto de dados que contém dados de deteção de objectos e de seguimento de múltiplos objectos a partir de imagens captadas por drones, com mais de 10 mil imagens e sequências de vídeo.
Contribui com novos conjuntos de dados
A contribuição de um novo conjunto de dados envolve vários passos para garantir que se alinha bem com a infraestrutura existente. Apresentamos de seguida os passos necessários:
Passos para contribuir com um novo conjunto de dados
- Recolhe imagens: Reúne as imagens que pertencem ao conjunto de dados. Estas podem ser recolhidas de várias fontes, como bases de dados públicas ou a tua própria coleção.
- Anota imagens: Anota estas imagens com caixas delimitadoras, segmentos ou pontos-chave, dependendo da tarefa.
- Exportar Anotações: Converte estas anotações no YOLO
*.txt
formato de ficheiro que o Ultralytics suporta. -
Organiza o conjunto de dados: Organiza o teu conjunto de dados na estrutura de pastas correcta. Deves ter
train/
eval/
directórios de nível superior, e dentro de cada um, umimages/
elabels/
subdiretório. -
Cria um
data.yaml
Ficheiro: No diretório raiz do teu conjunto de dados, cria um ficheirodata.yaml
que descreve o conjunto de dados, as classes e outras informações necessárias. - Otimiza as imagens (opcional): Se quiseres reduzir o tamanho do conjunto de dados para um processamento mais eficiente, podes otimizar as imagens utilizando o código abaixo. Isso não é obrigatório, mas recomendado para tamanhos menores de conjuntos de dados e velocidades de download mais rápidas.
- Compacta o conjunto de dados: Comprime toda a pasta do conjunto de dados em um arquivo zip.
- Documenta e faz relações públicas: Cria uma página de documentação descrevendo o teu conjunto de dados e como ele se encaixa na estrutura existente. Depois disso, submete um Pull Request (PR). Consulta Ultralytics Contribution Guidelines para obteres mais detalhes sobre como submeter um PR.
Código de exemplo para otimizar e compactar um conjunto de dados
Optimiza e comprime um conjunto de dados
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
Seguindo estes passos, podes contribuir com um novo conjunto de dados que se integra bem na estrutura existente do Ultralytics.
FAQ
Que conjuntos de dados são suportados pelo Ultralytics para a deteção de objectos?
Ultralytics supports a wide variety of datasets for object detection, including:
- COCO: A large-scale object detection, segmentation, and captioning dataset with 80 object categories.
- LVIS: An extensive dataset with 1203 object categories, designed for more fine-grained object detection and segmentation.
- Argoverse: Um conjunto de dados que contém dados de localização 3D e de previsão de movimento de ambientes urbanos com anotações ricas.
- VisDrone: A dataset with object detection and multi-object tracking data from drone-captured imagery.
- SKU-110K: Featuring dense object detection in retail environments with over 11K images.
Estes conjuntos de dados facilitam o treino de modelos robustos para várias aplicações de deteção de objectos.
Como é que contribuo com um novo conjunto de dados para Ultralytics?
Contributing a new dataset involves several steps:
- Collect Images: Gather images from public databases or personal collections.
- Annotate Images: Apply bounding boxes, segments, or keypoints, depending on the task.
- Exportar Anotações: Converte as anotações no YOLO
*.txt
formato. - Organiza o conjunto de dados: Utiliza a estrutura de pastas com
train/
eval/
directórios, cada um contendoimages/
elabels/
subdirectories. - Cria um
data.yaml
Ficheiro: Include dataset descriptions, classes, and other relevant information. - Optimize Images (Optional): Reduce dataset size for efficiency.
- Zip Dataset: Compress the dataset into a zip file.
- Document and PR: Describe your dataset and submit a Pull Request following Ultralytics Contribution Guidelines.
Visita Contribuir com novos conjuntos de dados para obter um guia completo.
Por que razão devo utilizar o Ultralytics Explorer para o meu conjunto de dados?
Ultralytics Explorer offers powerful features for dataset analysis, including:
- Embeddings Generation: Create vector embeddings for images.
- Semantic Search: Search for similar images using embeddings or AI.
- SQL Queries: Run advanced SQL queries for detailed data analysis.
- Natural Language Search: Search using plain language queries for ease of use.
Explora o Ultralytics Explorer para obteres mais informações e experimentares a Demonstração GUI.
Quais são as características únicas dos modelos Ultralytics YOLO para visão computacional?
Ultralytics YOLO models provide several unique features:
- Real-time Performance: High-speed inference and training.
- Versatility: Suitable for detection, segmentation, classification, and pose estimation tasks.
- Pretrained Models: Access to high-performing, pretrained models for various applications.
- Extensive Community Support: Active community and comprehensive documentation for troubleshooting and development.
Descobre mais sobre YOLO na Ultralytics YOLO página.
Como posso otimizar e compactar um conjunto de dados utilizando as ferramentas Ultralytics ?
Para otimizar e compactar um conjunto de dados utilizando as ferramentas Ultralytics , segue este código de exemplo:
Optimiza e comprime um conjunto de dados
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
Saiba mais sobre como otimizar e compactar um conjunto de dados.