Conjunto de dados ImageNet
ImageNet é uma base de dados de grande escala de imagens anotadas, projetada para uso em pesquisa de reconhecimento visual de objetos. Contém mais de 14 milhões de imagens, com cada imagem anotada usando synsets do WordNet, tornando-o um dos recursos mais extensos disponíveis para o treinamento de modelos de deep learning em tarefas de computer vision.
Modelos pré-treinados ImageNet
| Modelo | tamanho (pixels) | acc top1 | acc top5 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | params (M) | FLOPs (B) em 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Principais recursos
- O ImageNet contém mais de 14 milhões de imagens de alta resolução que abrangem milhares de categorias de objetos.
- O conjunto de dados é organizado de acordo com a hierarquia WordNet, com cada synset representando uma categoria.
- O ImageNet é amplamente utilizado para treinamento e benchmarking no campo da computer vision, particularmente para tarefas de image classification e object detection.
- O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da pesquisa em computer vision.
Estrutura do Dataset
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinônimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para treinar modelos a reconhecer vários objetos e seus relacionamentos.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual tem sido um evento importante no campo da computer vision. Ele forneceu uma plataforma para pesquisadores e desenvolvedores avaliarem seus algoritmos e modelos em um conjunto de dados de grande escala com métricas de avaliação padronizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de deep learning para image classification, object detection e outras tarefas de computer vision.
Aplicações
O conjunto de dados ImageNet é amplamente usado para treinar e avaliar modelos de deep learning em várias tarefas de computer vision, como image classification, object detection e object localization. Algumas arquiteturas populares de deep learning, como AlexNet, VGG e ResNet, foram desenvolvidas e avaliadas usando o conjunto de dados ImageNet.
Utilização
Para treinar um modelo de deep learning no conjunto de dados ImageNet por 100 epochs com um tamanho de imagem de 224x224, podes usar os seguintes trechos de código. Para uma lista abrangente de argumentos disponíveis, consulta a página de Training do modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Amostra de Imagens e Anotações
O conjunto de dados ImageNet contém imagens de alta resolução que abrangem milhares de categorias de objetos, fornecendo um conjunto de dados diversificado e extenso para treinar e avaliar modelos de computer vision. Aqui estão alguns exemplos de imagens do conjunto de dados:

O exemplo demonstra a variedade e a complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para o treinamento de modelos robustos de computer vision.
Citações e Agradecimentos
Se usares o conjunto de dados ImageNet no teu trabalho de pesquisa ou desenvolvimento, por favor cita o seguinte artigo:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Gostaríamos de agradecer à equipe do ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de pesquisa de machine learning e computer vision. Para mais informações sobre o conjunto de dados ImageNet e seus criadores, visita o site do ImageNet.
FAQ
O que é o conjunto de dados ImageNet e como ele é usado em computer vision?
O ImageNet dataset é uma base de dados de grande escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas usando synsets do WordNet. Ele é amplamente utilizado em pesquisa de reconhecimento visual de objetos, incluindo image classification e object detection. As anotações e o enorme volume do conjunto de dados fornecem um recurso rico para treinar modelos de deep learning. Notavelmente, modelos como AlexNet, VGG e ResNet foram treinados e avaliados usando o ImageNet, demonstrando seu papel no avanço da computer vision.
Como posso usar um modelo YOLO pré-treinado para image classification no conjunto de dados ImageNet?
Para usar um modelo Ultralytics YOLO pré-treinado para image classification no conjunto de dados ImageNet, segue estes passos:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Para obter instruções de treinamento mais detalhadas, consulta a nossa página de Treinamento.
Por que devo usar os modelos pré-treinados Ultralytics YOLO26 para os meus projetos no conjunto de dados ImageNet?
Os modelos pré-treinados Ultralytics YOLO26 oferecem desempenho de última geração em termos de velocidade e accuracy para várias tarefas de computer vision. Por exemplo, o modelo YOLO26n-cls, com uma precisão top-1 de 70,0% e uma precisão top-5 de 89,4%, está otimizado para aplicações em tempo real. Modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento do zero e aceleram os ciclos de desenvolvimento. Aprende mais sobre as métricas de desempenho dos modelos YOLO26 na seção Modelos Pré-treinados ImageNet.
Como o conjunto de dados ImageNet é estruturado e por que ele é importante?
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet, onde cada nó na hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinônimos). Essa estrutura permite anotações detalhadas, tornando-o ideal para treinar modelos a reconhecer uma grande variedade de objetos. A diversidade e a riqueza de anotações do ImageNet tornam-no um conjunto de dados valioso para o desenvolvimento de modelos de deep learning robustos e generalizáveis. Podes encontrar mais informações sobre essa organização na seção Estrutura do Conjunto de Dados.
Qual o papel do ImageNet Large Scale Visual Recognition Challenge (ILSVRC) na computer vision?
O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual tem sido fundamental para impulsionar avanços na computer vision, fornecendo uma plataforma competitiva para avaliar algoritmos em um conjunto de dados padronizado e de grande escala. Ele oferece métricas de avaliação padronizadas, promovendo a inovação e o desenvolvimento em áreas como image classification, object detection e image segmentation. O desafio tem continuamente ultrapassado os limites do que é possível com tecnologias de deep learning e computer vision.