Link to this sectionConjunto de Dados ImageNet#
ImageNet é um banco de dados de grande escala de imagens anotadas, projetado para uso em pesquisa de reconhecimento visual de objetos. Ele contém mais de 14 milhões de imagens, sendo cada imagem anotada usando synsets do WordNet, o que o torna um dos recursos mais extensos disponíveis para treinar modelos de deep learning em tarefas de computer vision.
Link to this sectionModelos Pré-treinados ImageNet#
| Modelo | tamanho (pixels) | acc top1 | acc top5 | Velocidade CPU ONNX (ms) | Velocidade T4 TensorRT10 (ms) | params (M) | FLOPs (B) a 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Link to this sectionPrincipais recursos#
- O ImageNet contém mais de 14 milhões de imagens de alta resolução que abrangem milhares de categorias de objetos.
- O conjunto de dados é organizado de acordo com a hierarquia WordNet, com cada synset representando uma categoria.
- O ImageNet é amplamente utilizado para treinamento e benchmarking no campo de computer vision, particularmente para tarefas de image classification e object detection.
- O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da pesquisa em computer vision.
Link to this sectionEstrutura do Conjunto de Dados#
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet. Cada nó na hierarquia representa uma categoria, e cada categoria é descrita por um synset (uma coleção de termos sinônimos). As imagens no ImageNet são anotadas com um ou mais synsets, fornecendo um recurso rico para treinar modelos para reconhecer vários objetos e suas relações.
Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#
O anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido um evento importante no campo de computer vision. Ele forneceu uma plataforma para pesquisadores e desenvolvedores avaliarem seus algoritmos e modelos em um conjunto de dados de grande escala com métricas de avaliação padronizadas. O ILSVRC levou a avanços significativos no desenvolvimento de modelos de deep learning para image classification, object detection e outras tarefas de computer vision.
Link to this sectionAplicações#
O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de deep learning em várias tarefas de computer vision, como image classification, object detection e object localization. Algumas arquiteturas de deep learning populares, como AlexNet, VGG e ResNet, foram desenvolvidas e testadas usando o conjunto de dados ImageNet.
Link to this sectionUso#
Para treinar um modelo de deep learning no conjunto de dados ImageNet por 100 epochs com um tamanho de imagem de 224x224, você pode usar os seguintes trechos de código. Para uma lista abrangente de argumentos disponíveis, consulte a página de Training do modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Link to this sectionExemplos de Imagens e Anotações#
O conjunto de dados ImageNet contém imagens de alta resolução que abrangem milhares de categorias de objetos, fornecendo um conjunto de dados diverso e extenso para treinar e avaliar modelos de computer vision. Aqui estão alguns exemplos de imagens do conjunto de dados:

O exemplo mostra a variedade e a complexidade das imagens no conjunto de dados ImageNet, destacando a importância de um conjunto de dados diversificado para o treinamento de modelos de computer vision robustos.
Link to this sectionCitações e Agradecimentos#
Se você usar o conjunto de dados ImageNet em seu trabalho de pesquisa ou desenvolvimento, por favor, cite o seguinte artigo:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Gostaríamos de agradecer à equipe ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de pesquisa de machine learning e computer vision. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visite o site do ImageNet.
Link to this sectionFAQ#
Link to this sectionO que é o conjunto de dados ImageNet e como ele é usado em computer vision?#
O ImageNet dataset é um banco de dados de grande escala que consiste em mais de 14 milhões de imagens de alta resolução categorizadas usando synsets do WordNet. Ele é amplamente utilizado na pesquisa de reconhecimento visual de objetos, incluindo image classification e object detection. As anotações e o volume do conjunto de dados fornecem um recurso rico para o treinamento de modelos de deep learning. Notavelmente, modelos como AlexNet, VGG e ResNet foram treinados e testados usando o ImageNet, demonstrando seu papel no avanço de computer vision.
Link to this sectionComo posso usar um modelo YOLO pré-treinado para image classification no conjunto de dados ImageNet?#
Para usar um modelo Ultralytics YOLO pré-treinado para image classification no conjunto de dados ImageNet, siga estes passos:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Para obter instruções de treinamento mais detalhadas, consulte nossa página de Treinamento.
Link to this sectionPor que devo usar os modelos pré-treinados Ultralytics YOLO26 para meus projetos com o conjunto de dados ImageNet?#
Os modelos pré-treinados Ultralytics YOLO26 oferecem desempenho de ponta em termos de velocidade e accuracy para várias tarefas de computer vision. Por exemplo, o modelo YOLO26n-cls, com uma top-1 accuracy de 71,4% e uma top-5 accuracy de 90,1%, é otimizado para aplicações em tempo real. Modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento do zero e aceleram os ciclos de desenvolvimento. Saiba mais sobre as métricas de desempenho dos modelos YOLO26 na seção de Modelos Pré-treinados ImageNet.
Link to this sectionComo o conjunto de dados ImageNet é estruturado e por que ele é importante?#
O conjunto de dados ImageNet é organizado usando a hierarquia WordNet, onde cada nó na hierarquia representa uma categoria descrita por um synset (uma coleção de termos sinônimos). Esta estrutura permite anotações detalhadas, tornando-a ideal para treinar modelos para reconhecer uma grande variedade de objetos. A diversidade e a riqueza de anotações do ImageNet o tornam um conjunto de dados valioso para o desenvolvimento de modelos de deep learning robustos e generalizáveis. Mais informações sobre esta organização podem ser encontradas na seção Estrutura do Conjunto de Dados.
Link to this sectionQual é o papel do ImageNet Large Scale Visual Recognition Challenge (ILSVRC) em computer vision?#
O anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para impulsionar avanços em computer vision, fornecendo uma plataforma competitiva para avaliar algoritmos em um conjunto de dados padronizado de grande escala. Ele oferece métricas de avaliação padronizadas, fomentando a inovação e o desenvolvimento em áreas como image classification, object detection e image segmentation. O desafio tem continuamente superado os limites do que é possível com tecnologias de deep learning e computer vision.