Saltar para o conteúdo

Conjunto de dados ImageNet

A ImageNet é uma base de dados em grande escala de imagens anotadas, concebida para ser utilizada na investigação do reconhecimento visual de objectos. Contém mais de 14 milhões de imagens, com cada imagem anotada utilizando conjuntos de sinónimos WordNet, o que a torna um dos recursos mais extensos disponíveis para a formação de modelos de aprendizagem profunda em tarefas de visão computacional.

Modelos pré-treinados do ImageNet

Modelo tamanho
(pixéis)
acc
top1
acc
top5
Velocidade
CPU ONNX
(ms)
Velocidade
T4TensorRT10
(ms)
params
(M)
FLOPs
(B) a 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

Caraterísticas principais

  • O ImageNet contém mais de 14 milhões de imagens de alta resolução que abrangem milhares de categorias de objectos.
  • O conjunto de dados está organizado de acordo com a hierarquia da WordNet, com cada synset a representar uma categoria.
  • O ImageNet é amplamente utilizado para formação e avaliação comparativa no domínio da visão computacional, em especial para tarefas de classificação de imagens e deteção de objectos.
  • O desafio anual de reconhecimento visual em grande escala ImageNet (ILSVRC) tem sido fundamental para o avanço da investigação em visão computacional.

Estrutura do conjunto de dados

O conjunto de dados ImageNet está organizado utilizando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinónimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para modelos de treino para reconhecer vários objectos e as suas relações.

Desafio de Reconhecimento Visual em Grande Escala ImageNet (ILSVRC)

O desafio anual de reconhecimento visual em grande escala ImageNet (ILSVRC) tem sido um evento importante no domínio da visão computacional. Proporcionou uma plataforma para investigadores e programadores avaliarem os seus algoritmos e modelos num conjunto de dados em grande escala com métricas de avaliação normalizadas. O ILSVRC conduziu a avanços significativos no desenvolvimento de modelos de aprendizagem profunda para classificação de imagens, deteção de objectos e outras tarefas de visão computacional.

Aplicações

O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de aprendizagem profunda em várias tarefas de visão computacional, como a classificação de imagens, a deteção de objectos e a localização de objectos. Algumas arquitecturas populares de aprendizagem profunda, como a AlexNet, a VGG e a ResNet, foram desenvolvidas e avaliadas utilizando o conjunto de dados ImageNet.

Utilização

Para treinar um modelo de aprendizado profundo no conjunto de dados ImageNet para 100 épocas com um tamanho de imagem de 224x224, você pode usar os seguintes trechos de código. Para obter uma lista abrangente de argumentos disponíveis, consulte a página Treinamento do modelo.

Exemplo de comboio

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Exemplos de imagens e anotações

O conjunto de dados ImageNet contém imagens de alta resolução que abrangem milhares de categorias de objectos, fornecendo um conjunto de dados diversificado e extenso para a formação e avaliação de modelos de visão computacional. Aqui estão alguns exemplos de imagens do conjunto de dados:

Imagens de amostra do conjunto de dados

O exemplo mostra a variedade e complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para treinar modelos robustos de visão computacional.

Citações e agradecimentos

Se utilizar o conjunto de dados ImageNet no seu trabalho de investigação ou desenvolvimento, cite o seguinte documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Gostaríamos de agradecer à equipa do ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de investigação em aprendizagem automática e visão computacional. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visite o site do ImageNet.

FAQ

O que é o conjunto de dados ImageNet e como é utilizado na visão computacional?

O conjunto de dados ImageNet é uma base de dados em grande escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas utilizando os sinónimos WordNet. É amplamente utilizado na investigação de reconhecimento de objectos visuais, incluindo a classificação de imagens e a deteção de objectos. As anotações e o grande volume do conjunto de dados constituem um recurso valioso para o treino de modelos de aprendizagem profunda. Nomeadamente, modelos como o AlexNet, o VGG e o ResNet foram treinados e aferidos utilizando o ImageNet, demonstrando o seu papel no avanço da visão computacional.

Como posso utilizar um modelo YOLO pré-treinado para a classificação de imagens no conjunto de dados ImageNet?

Para utilizar um modelo Ultralytics YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet, siga estes passos:

Exemplo de comboio

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Para obter instruções de formação mais pormenorizadas, consulte a nossa página Formação.

Por que razão devo utilizar os modelos pré-treinados Ultralytics YOLO11 para os meus projectos de conjuntos de dados ImageNet?

Ultralytics YOLO11 Os modelos pré-treinados oferecem desempenho de ponta em termos de velocidade e precisão para várias tarefas de visão computacional. Por exemplo, o modelo YOLO11n-cls, com uma precisão top-1 de 69,0% e uma precisão top-5 de 88,3%, está optimizado para aplicações em tempo real. Os modelos pré-treinados reduzem os recursos computacionais necessários para o treino de raiz e aceleram os ciclos de desenvolvimento. Saiba mais sobre as métricas de desempenho dos modelos YOLO11 na secção Modelos pré-treinados do ImageNet.

Como é que o conjunto de dados ImageNet está estruturado e porque é que é importante?

O conjunto de dados ImageNet está organizado utilizando a hierarquia WordNet, em que cada nó da hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinónimos). Esta estrutura permite anotações detalhadas, tornando-a ideal para treinar modelos para reconhecer uma grande variedade de objectos. A diversidade e a riqueza de anotações do ImageNet fazem dele um conjunto de dados valioso para o desenvolvimento de modelos de aprendizagem profunda robustos e generalizáveis. Para obter mais informações sobre esta organização, consulte a secção Estrutura do conjunto de dados.

Que papel desempenha o ImageNet Large Scale Visual Recognition Challenge (ILSVRC) na visão computacional?

O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para impulsionar os avanços na visão computacional, fornecendo uma plataforma competitiva para avaliar algoritmos num conjunto de dados padronizado e em grande escala. Oferece métricas de avaliação padronizadas, promovendo a inovação e o desenvolvimento em áreas como a classificação de imagens, a deteção de objectos e a segmentação de imagens. O desafio tem vindo a alargar continuamente os limites do que é possível com a aprendizagem profunda e as tecnologias de visão computacional.

📅C riado há 1 ano ✏️ Atualizado há 3 meses

Comentários