Salta para o conteúdo

Conjunto de dados ImageNet

A ImageNet é uma base de dados em grande escala de imagens anotadas, concebida para ser utilizada na investigação do reconhecimento visual de objectos. Contém mais de 14 milhões de imagens, com cada imagem anotada utilizando conjuntos de sinónimos WordNet, o que a torna um dos recursos mais extensos disponíveis para treinar modelos de aprendizagem profunda em tarefas de visão computacional.

Modelos pré-treinados do ImageNet

Modelo tamanho
(pixéis)
acc
top1
acc
top5
Velocidade
CPU ONNX
(ms)
Velocidade
A100 TensorRT
(ms)
params
(M)
FLOPs
(B) a 640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Características principais

  • O ImageNet contém mais de 14 milhões de imagens de alta resolução que abrangem milhares de categorias de objectos.
  • O conjunto de dados está organizado de acordo com a hierarquia da WordNet, sendo que cada synset representa uma categoria.
  • O ImageNet é amplamente utilizado para formação e avaliação comparativa no domínio da visão computacional, em especial para tarefas de classificação de imagens e deteção de objectos.
  • O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da investigação em visão computacional.

Estrutura do conjunto de dados

O conjunto de dados ImageNet está organizado utilizando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinónimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para modelos de treino para reconhecer vários objectos e as suas relações.

Desafio de Reconhecimento Visual em Grande Escala ImageNet (ILSVRC)

O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido um evento importante no domínio da visão computacional. Proporciona uma plataforma para investigadores e programadores avaliarem os seus algoritmos e modelos num conjunto de dados de grande escala com métricas de avaliação normalizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de aprendizagem profunda para classificação de imagens, deteção de objectos e outras tarefas de visão computacional.

Aplicações

O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de aprendizagem profunda em várias tarefas de visão computacional, como classificação de imagens, deteção de objetos e localização de objetos. Algumas arquiteturas populares de aprendizagem profunda, como AlexNet, VGG e ResNet, foram desenvolvidas e avaliadas usando o conjunto de dados ImageNet.

Utilização

Para treinar um modelo de aprendizagem profunda no conjunto de dados ImageNet para 100 épocas com um tamanho de imagem de 224x224, podes utilizar os seguintes snippets de código. Para obter uma lista abrangente de argumentos disponíveis, consulta a página Treinamento do modelo.

Exemplo de comboio

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Exemplos de imagens e anotações

O conjunto de dados ImageNet contém imagens de alta resolução que abrangem milhares de categorias de objectos, fornecendo um conjunto de dados diversificado e extenso para formação e avaliação de modelos de visão computacional. Aqui estão alguns exemplos de imagens do conjunto de dados:

Imagens de amostra do conjunto de dados

O exemplo mostra a variedade e complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para treinar modelos robustos de visão computacional.

Citações e agradecimentos

Se utilizares o conjunto de dados ImageNet no teu trabalho de investigação ou desenvolvimento, cita o seguinte documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Gostaríamos de agradecer à equipa do ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de investigação em aprendizagem automática e visão computacional. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visita o site do ImageNet.

FAQ

O que é o conjunto de dados ImageNet e como é utilizado na visão computacional?

O conjunto de dados ImageNet é uma base de dados em grande escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas utilizando os conjuntos de sinónimos WordNet. É amplamente utilizado na investigação de reconhecimento de objectos visuais, incluindo a classificação de imagens e a deteção de objectos. As anotações e o grande volume do conjunto de dados constituem um recurso valioso para treinar modelos de aprendizagem profunda. Nomeadamente, modelos como o AlexNet, o VGG e o ResNet foram treinados e comparados com o ImageNet, demonstrando o seu papel no avanço da visão computacional.

Como posso utilizar um modelo YOLO pré-treinado para a classificação de imagens no conjunto de dados ImageNet?

Para utilizar um modelo Ultralytics YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet, segue estes passos:

Exemplo de comboio

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Para obteres instruções de formação mais aprofundadas, consulta a nossa página Formação.

Por que razão devo utilizar os modelos pré-treinados do Ultralytics YOLOv8 para os meus projectos do conjunto de dados ImageNet?

Ultralytics YOLOv8 Os modelos pré-treinados oferecem desempenho de ponta em termos de velocidade e precisão para várias tarefas de visão computacional. Por exemplo, o modelo YOLOv8n-cls, com uma precisão top-1 de 69,0% e uma precisão top-5 de 88,3%, é optimizado para aplicações em tempo real. Os modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento a partir do zero e aceleram os ciclos de desenvolvimento. Sabe mais sobre as métricas de desempenho dos modelos YOLOv8 na secção Modelos pré-treinados do ImageNet.

Como é que o conjunto de dados ImageNet está estruturado e porque é que é importante?

O conjunto de dados ImageNet está organizado utilizando a hierarquia WordNet, em que cada nó da hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinónimos). Esta estrutura permite anotações detalhadas, tornando-o ideal para treinar modelos para reconhecer uma grande variedade de objectos. A diversidade e a riqueza de anotações do ImageNet fazem dele um conjunto de dados valioso para o desenvolvimento de modelos de aprendizagem profunda robustos e generalizáveis. Para mais informações sobre esta organização, consulta a secção Estrutura do conjunto de dados.

Que papel desempenha o ImageNet Large Scale Visual Recognition Challenge (ILSVRC) na visão computacional?

O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para impulsionar os avanços na visão computacional, fornecendo uma plataforma competitiva para avaliar algoritmos num conjunto de dados padronizado e em grande escala. Oferece métricas de avaliação padronizadas, promovendo a inovação e o desenvolvimento em áreas como a classificação de imagens, a deteção de objectos e a segmentação de imagens. O desafio tem continuamente alargado os limites do que é possível com a aprendizagem profunda e as tecnologias de visão computacional.



Criado em 2023-11-12, Atualizado em 2024-07-04
Autores: glenn-jocher (8), RizwanMunawar (1)

Comentários