Link to this sectionConjunto de Dados ImageNet#

Name: Conjunto de Dados de Classificação de Imagens ImageNet
Creator: ImageNet
License: https://www.image-net.org/download.php
Keywords: ImageNet, ILSVRC-2012, classificação de imagens, deep learning, computer vision, modelos pré-treinados, YOLO, conjunto de dados, WordNet

O conjunto de dados Ultralytics ImageNet (data="imagenet") é o subconjunto ImageNet-1k / ILSVRC-2012 usado para treinar e avaliar modelos de classificação de imagens. Ele contém 1.000 classes de objetos com 1.281.167 imagens de treino e 50.000 imagens de validação com um tamanho de 224x224 pixels, e o download possui cerca de 144 GB de dados. A base de dados ImageNet mais ampla é muito maior — mais de 14 milhões de imagens de alta resolução anotadas com synsets WordNet em mais de 20.000 categorias —, mas a Ultralytics treina no subconjunto ILSVRC de 1.000 classes padronizado que se tornou o benchmark de fato para deep learning em visão computacional.

Link to this sectionModelos Pré-treinados ImageNet#

Modelo	tamanho ^(pixels)	acc ^top1	acc ^top5	Velocidade ^{CPU ONNX (ms)}	Velocidade ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^{(B) a 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Link to this sectionPrincipais recursos#

O conjunto de dados imagenet da Ultralytics fornece 1.000 classes com 1.281.167 imagens de treino e 50.000 de validação (ILSVRC-2012), o benchmark padrão de pré-treino para classificação de imagens.
As classes são organizadas de acordo com a hierarquia WordNet, onde cada classe corresponde a um synset (um conjunto de termos sinônimos).
As imagens são treinadas a 224x224, e o conjunto de dados completo é um download grande de ~144 GB.
O desafio anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) tem sido fundamental para o avanço da pesquisa em computer vision.

Link to this sectionEstrutura do Dataset#

O conjunto de dados Ultralytics ImageNet usa a divisão ILSVRC-2012:

Divisão	Imagens	Classes
Treinar	1.281.167	1.000
Validação	50.000	1.000

As imagens são armazenadas em pastas por classe, nomeadas pelo ID do synset WordNet (por exemplo, n01440764), o layout esperado pelo treino de classificação da Ultralytics. Cada uma das 1.000 classes mapeia para um synset WordNet, e não existe uma divisão de teste separada, portanto, o conjunto de validação de 50.000 imagens é usado para medir a precisão.

Tamanho do download

O ImageNet-1k é um download de ~144 GB, então certifique-se de ter espaço em disco suficiente antes de treinar. Para experimentos rápidos, os subconjuntos menores ImageNette e ImageNet10 usam o mesmo formato de pasta e treinam em uma fração do tempo.

Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#

O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual permitiu aos pesquisadores comparar algoritmos em um conjunto de dados padronizado e em larga escala com métricas de avaliação consistentes. Ele impulsionou grandes avanços em deep learning para classificação de imagens, detecção de objetos e outras tarefas de visão — mais notavelmente a vitória da AlexNet em 2012, que ajudou a lançar a era moderna do deep learning.

Link to this sectionAplicações#

O conjunto de dados ImageNet é amplamente utilizado para treinar e avaliar modelos de deep learning para classificação de imagens, detecção de objetos e localização de objetos. Arquiteturas históricas como AlexNet, VGG e ResNet foram todas desenvolvidas e avaliadas no ImageNet, e os pesos pré-treinados no ImageNet permanecem um ponto de partida comum para transfer learning em várias tarefas de visão.

Link to this sectionUso#

Para treinar um modelo de classificação YOLO no ImageNet por 100 épocas em um tamanho de imagem de 224x224, use os trechos de código abaixo. Para uma lista abrangente de argumentos disponíveis, consulte a página de Treino do modelo.

Exemplo de Treinamento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Você também pode gerenciar conjuntos de dados de classificação e executar treinos na nuvem com a Ultralytics Platform.

Link to this sectionExemplos de Imagens e Anotações#

O conjunto de dados ImageNet abrange as 1.000 classes do ILSVRC-2012, fornecendo um recurso diversificado e extenso para treinar e avaliar modelos de visão computacional. Aqui estão algumas imagens de exemplo do conjunto de dados:

ImageNet classification dataset sample images

Link to this sectionCitações e Agradecimentos#

Se você usar o conjunto de dados ImageNet em seu trabalho de pesquisa ou desenvolvimento, por favor, cite o seguinte artigo:

Citação

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Gostaríamos de agradecer à equipe ImageNet, liderada por Olga Russakovsky, Jia Deng e Li Fei-Fei, por criar e manter o conjunto de dados ImageNet como um recurso valioso para a comunidade de pesquisa de machine learning e computer vision. Para obter mais informações sobre o conjunto de dados ImageNet e seus criadores, visite o site do ImageNet.

Link to this sectionFAQ#

Link to this sectionO que é o conjunto de dados ImageNet e como ele é usado em computer vision?#

O conjunto de dados ImageNet é uma base de dados de imagens em larga escala cuja coleção mais ampla contém mais de 14 milhões de imagens de alta resolução anotadas com synsets WordNet. Na Ultralytics, data="imagenet" treina no subconjunto ILSVRC-2012 de 1.000 classes padronizado, que é o benchmark de fato para pré-treino de classificação de imagens. Modelos históricos como AlexNet, VGG e ResNet foram treinados e avaliados no ImageNet, ressaltando seu papel no avanço da visão computacional.

Link to this sectionQuantas classes e imagens o conjunto de dados ImageNet possui?#

O conjunto de dados imagenet da Ultralytics usa o subconjunto ILSVRC-2012 com 1.000 classes, 1.281.167 imagens de treino e 50.000 imagens de validação com um tamanho de imagem de 224x224, para um download total de aproximadamente 144 GB. A base de dados ImageNet completa é muito maior (mais de 14 milhões de imagens em mais de 20.000 synsets WordNet), mas o subconjunto de 1.000 classes é o utilizado para treino e benchmark de classificação.

Link to this sectionComo posso treinar um modelo YOLO para classificação de imagens no conjunto de dados ImageNet?#

Para treinar um modelo YOLO da Ultralytics no ImageNet, carregue um modelo de classificação pré-treinado e aponte data para imagenet:

Exemplo de Treinamento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Para obter instruções de treinamento mais detalhadas, consulte nossa página de Treinamento.

Link to this sectionPor que devo usar os modelos pré-treinados Ultralytics YOLO26 para meus projetos com o conjunto de dados ImageNet?#

Os modelos pré-treinados Ultralytics YOLO26 oferecem desempenho de ponta em termos de velocidade e accuracy para várias tarefas de computer vision. Por exemplo, o modelo YOLO26n-cls, com uma top-1 accuracy de 71,4% e uma top-5 accuracy de 90,1%, é otimizado para aplicações em tempo real. Modelos pré-treinados reduzem os recursos computacionais necessários para o treinamento do zero e aceleram os ciclos de desenvolvimento. Saiba mais sobre as métricas de desempenho dos modelos YOLO26 na seção de Modelos Pré-treinados ImageNet.

Link to this sectionQual é o papel do ImageNet Large Scale Visual Recognition Challenge (ILSVRC) em computer vision?#

O ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual impulsionou avanços em visão computacional ao fornecer uma plataforma competitiva para avaliar algoritmos em um conjunto de dados padronizado e em larga escala. Suas métricas de avaliação consistentes promoveram a inovação em classificação de imagens, detecção de objetos e segmentação de imagens, continuamente ultrapassando os limites do deep learning e da visão computacional.

Contribuidores

GLglenn-jocher¹⁶ RIRizwanMunawar² RAraimbekovm¹ AMambitious-octopus¹ MAMatthewNoyce¹ JKjk4e¹

Criado 12 de nov. de 2023Atualizado há 3 dias