Conjunto de Dados ImageNet
ImageNet é um banco de dados em larga escala de imagens anotadas, projetado para uso em pesquisas de reconhecimento visual de objetos. Ele contém mais de 14 milhões de imagens, com cada imagem anotada usando synsets do WordNet, tornando-o um dos recursos mais extensos disponíveis para treinar modelos de aprendizado profundo em tarefas de visão computacional.
Modelos Pré-treinados do ImageNet
| Modelo | tamanho (pixels) | acc top1 | acc top5 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | parâmetros (M) | FLOPs (B) a 224 |
|---|---|---|---|---|---|---|---|
| YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Principais Características
- O ImageNet contém mais de 14 milhões de imagens de alta resolução abrangendo milhares de categorias de objetos.
- O conjunto de dados é organizado de acordo com a hierarquia WordNet, com cada synset representando uma categoria.
- O ImageNet é amplamente utilizado para treinamento e benchmarking no campo da visão computacional, particularmente para tarefas de classificação de imagens e detecção de objetos.
- O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da pesquisa em visão computacional.
Estrutura do Conjunto de Dados
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinônimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para treinar modelos para reconhecer vários objetos e seus relacionamentos.
Desafio de Reconhecimento Visual em Larga Escala do ImageNet (ILSVRC)
O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual tem sido um evento importante no campo da visão computacional. Ele forneceu uma plataforma para pesquisadores e desenvolvedores avaliarem seus algoritmos e modelos em um dataset de grande escala com métricas de avaliação padronizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de aprendizado profundo para classificação de imagens, detecção de objetos e outras tarefas de visão computacional.
Aplicações
O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de aprendizado profundo em várias tarefas de visão computacional, como classificação de imagens, detecção de objetos e localização de objetos. Algumas arquiteturas populares de aprendizado profundo, como AlexNet, VGG e ResNet, foram desenvolvidas e avaliadas usando o conjunto de dados ImageNet.
Utilização
Para treinar um modelo de aprendizado profundo no conjunto de dados ImageNet por 100 épocas com um tamanho de imagem de 224x224, você pode usar os seguintes trechos de código. Para obter uma lista abrangente dos argumentos disponíveis, consulte a página de Treinamento do modelo.
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Amostras de Imagens e Anotações
O conjunto de dados ImageNet contém imagens de alta resolução abrangendo milhares de categorias de objetos, fornecendo um conjunto de dados diversificado e extenso para treinar e avaliar modelos de visão computacional. Aqui estão alguns exemplos de imagens do conjunto de dados:

O exemplo mostra a variedade e complexidade das imagens no dataset ImageNet, destacando a importância de um dataset diversificado para treinar modelos robustos de visão computacional.
Citações e Agradecimentos
Se você usar o dataset ImageNet em seu trabalho de pesquisa ou desenvolvimento, cite o seguinte artigo:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Gostaríamos de agradecer à equipa do ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de investigação de aprendizagem automática e visão computacional. Para mais informações sobre o conjunto de dados ImageNet e os seus criadores, visite o site do ImageNet.
FAQ
O que é o conjunto de dados ImageNet e como ele é usado em visão computacional?
O dataset ImageNet é um banco de dados de grande escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas usando synsets do WordNet. É amplamente utilizado em pesquisas de reconhecimento visual de objetos, incluindo classificação de imagens e detecção de objetos. As anotações do dataset e o grande volume fornecem um recurso rico para treinar modelos de aprendizado profundo. Notavelmente, modelos como AlexNet, VGG e ResNet foram treinados e avaliados usando o ImageNet, mostrando seu papel no avanço da visão computacional.
Como posso usar um modelo YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet?
Para usar um modelo Ultralytics YOLO pré-treinado para classificação de imagens no conjunto de dados ImageNet, siga estas etapas:
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Para obter instruções de treinamento mais detalhadas, consulte nossa página de Treinamento.
Por que devo usar os modelos pré-treinados Ultralytics YOLO11 para meus projetos de conjunto de dados ImageNet?
Os modelos pré-treinados do Ultralytics YOLO11 oferecem desempenho de última geração em termos de velocidade e precisão para várias tarefas de visão computacional. Por exemplo, o modelo YOLO11n-cls, com uma precisão top-1 de 70,0% e uma precisão top-5 de 89,4%, é otimizado para aplicações em tempo real. Os modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento do zero e aceleram os ciclos de desenvolvimento. Saiba mais sobre as métricas de desempenho dos modelos YOLO11 na seção Modelos Pré-treinados ImageNet.
Como o dataset ImageNet é estruturado e por que ele é importante?
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet, onde cada nó na hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinônimos). Essa estrutura permite anotações detalhadas, tornando-o ideal para treinar modelos para reconhecer uma ampla variedade de objetos. A diversidade e a riqueza de anotações do ImageNet o tornam um conjunto de dados valioso para desenvolver modelos de aprendizado profundo robustos e generalizáveis. Mais sobre esta organização pode ser encontrado na seção Estrutura do Conjunto de Dados.
Qual o papel do Desafio de Reconhecimento Visual em Larga Escala ImageNet (ILSVRC) na visão computacional?
O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual tem sido fundamental para impulsionar os avanços na visão computacional, fornecendo uma plataforma competitiva para avaliar algoritmos em um dataset padronizado de grande escala. Ele oferece métricas de avaliação padronizadas, promovendo a inovação e o desenvolvimento em áreas como classificação de imagens, detecção de objetos e segmentação de imagens. O desafio tem continuamente ultrapassado os limites do que é possível com aprendizado profundo e tecnologias de visão computacional.