Salta para o conteúdo

Conjunto de dados ImageNet

A ImageNet é uma base de dados em grande escala de imagens anotadas, concebida para ser utilizada na investigação do reconhecimento visual de objectos. Contém mais de 14 milhões de imagens, com cada imagem anotada utilizando conjuntos de sinónimos WordNet, o que a torna um dos recursos mais extensos disponíveis para treinar modelos de aprendizagem profunda em tarefas de visão computacional.

Modelos pré-treinados do ImageNet

Modelo tamanho
(pixéis)
acc
top1
acc
top5
Velocidade
CPU ONNX
(ms)
Velocidade
A100 TensorRT
(ms)
params
(M)
FLOPs
(B) a 640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Características principais

  • O ImageNet contém mais de 14 milhões de imagens de alta resolução que abrangem milhares de categorias de objectos.
  • O conjunto de dados está organizado de acordo com a hierarquia da WordNet, sendo que cada synset representa uma categoria.
  • O ImageNet é amplamente utilizado para formação e avaliação comparativa no domínio da visão computacional, em especial para tarefas de classificação de imagens e deteção de objectos.
  • O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da investigação em visão computacional.

Estrutura do conjunto de dados

O conjunto de dados ImageNet está organizado utilizando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinónimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para modelos de treino para reconhecer vários objectos e as suas relações.

Desafio de Reconhecimento Visual em Grande Escala ImageNet (ILSVRC)

O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido um evento importante no domínio da visão computacional. Proporciona uma plataforma para investigadores e programadores avaliarem os seus algoritmos e modelos num conjunto de dados de grande escala com métricas de avaliação normalizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de aprendizagem profunda para classificação de imagens, deteção de objectos e outras tarefas de visão computacional.

Aplicações

O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de aprendizagem profunda em várias tarefas de visão computacional, como classificação de imagens, deteção de objetos e localização de objetos. Algumas arquiteturas populares de aprendizagem profunda, como AlexNet, VGG e ResNet, foram desenvolvidas e avaliadas usando o conjunto de dados ImageNet.

Utilização

Para treinar um modelo de aprendizagem profunda no conjunto de dados ImageNet para 100 épocas com um tamanho de imagem de 224x224, podes utilizar os seguintes snippets de código. Para obter uma lista abrangente de argumentos disponíveis, consulta a página Treinamento do modelo.

Exemplo de comboio

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-cls.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='imagenet', epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Exemplos de imagens e anotações

O conjunto de dados ImageNet contém imagens de alta resolução que abrangem milhares de categorias de objectos, fornecendo um conjunto de dados diversificado e extenso para formação e avaliação de modelos de visão computacional. Aqui estão alguns exemplos de imagens do conjunto de dados:

Imagens de amostra do conjunto de dados

O exemplo mostra a variedade e complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para treinar modelos robustos de visão computacional.

Citações e agradecimentos

Se utilizares o conjunto de dados ImageNet no teu trabalho de investigação ou desenvolvimento, cita o seguinte documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Gostaríamos de agradecer à equipa do ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de investigação em aprendizagem automática e visão computacional. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visita o site do ImageNet.



Criado em 2023-11-12, Atualizado em 2024-04-17
Autores: glenn-jocher (5), RizwanMunawar (1)

Comentários