Set di dati ImageNet
ImageNet è un database su larga scala di immagini annotate progettato per essere utilizzato nella ricerca sul riconoscimento degli oggetti visivi. Contiene oltre 14 milioni di immagini, ognuna delle quali è annotata utilizzando i sinonimi di WordNet, il che la rende una delle risorse più ampie disponibili per l'addestramento di modelli di deep learning in compiti di computer vision.
Modelli precostituiti di ImageNet
Modello | dimensione (pixel) |
acc top1 |
acc top5 |
Velocità CPU ONNX (ms) |
Velocità A100 TensorRT (ms) |
params (M) |
FLOPs (B) a 640 |
---|---|---|---|---|---|---|---|
YOLOv8n-cls | 224 | 69.0 | 88.3 | 12.9 | 0.31 | 2.7 | 4.3 |
YOLOv8s-cls | 224 | 73.8 | 91.7 | 23.4 | 0.35 | 6.4 | 13.5 |
YOLOv8m-cls | 224 | 76.8 | 93.5 | 85.4 | 0.62 | 17.0 | 42.7 |
YOLOv8l-cls | 224 | 76.8 | 93.5 | 163.0 | 0.87 | 37.5 | 99.7 |
YOLOv8x-cls | 224 | 79.0 | 94.6 | 232.0 | 1.01 | 57.4 | 154.8 |
Caratteristiche principali
- ImageNet contiene oltre 14 milioni di immagini ad alta risoluzione che coprono migliaia di categorie di oggetti.
- Il dataset è organizzato secondo la gerarchia di WordNet, con ogni sinonimo che rappresenta una categoria.
- ImageNet è ampiamente utilizzato per la formazione e il benchmarking nel campo della computer vision, in particolare per la classificazione delle immagini e il rilevamento degli oggetti.
- L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è stata determinante per il progresso della ricerca sulla computer vision.
Struttura del set di dati
Il dataset ImageNet è organizzato utilizzando la gerarchia WordNet. Ogni nodo della gerarchia rappresenta una categoria e ogni categoria è descritta da un synset (una raccolta di termini sinonimi). Le immagini presenti in ImageNet sono annotate con uno o più sinonimi, fornendo una ricca risorsa per l'addestramento di modelli per il riconoscimento di vari oggetti e delle loro relazioni.
Sfida di riconoscimento visivo su larga scala ImageNet (ILSVRC)
L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è stato un evento importante nel campo della computer vision. Ha fornito una piattaforma a ricercatori e sviluppatori per valutare i loro algoritmi e modelli su un set di dati su larga scala con metriche di valutazione standardizzate. L'ILSVRC ha portato a progressi significativi nello sviluppo di modelli di deep learning per la classificazione delle immagini, il rilevamento degli oggetti e altri compiti di computer vision.
Applicazioni
Il dataset ImageNet è ampiamente utilizzato per l'addestramento e la valutazione di modelli di deep learning in diverse attività di computer vision, come la classificazione di immagini, il rilevamento di oggetti e la localizzazione di oggetti. Alcune popolari architetture di deep learning, come AlexNet, VGG e ResNet, sono state sviluppate e sottoposte a benchmark utilizzando il dataset ImageNet.
Utilizzo
Per addestrare un modello di deep learning sul dataset ImageNet per 100 epoch con un'immagine di dimensioni 224x224, puoi utilizzare i seguenti frammenti di codice. Per un elenco completo degli argomenti disponibili, consulta la pagina di addestramento del modello.
Esempio di treno
Immagini di esempio e annotazioni
Il dataset ImageNet contiene immagini ad alta risoluzione che coprono migliaia di categorie di oggetti, fornendo un set di dati ampio e diversificato per l'addestramento e la valutazione dei modelli di computer vision. Ecco alcuni esempi di immagini tratte dal dataset:
L'esempio mostra la varietà e la complessità delle immagini presenti nel dataset ImageNet, evidenziando l'importanza di un dataset diversificato per l'addestramento di solidi modelli di computer vision.
Citazioni e ringraziamenti
Se utilizzi il dataset ImageNet nel tuo lavoro di ricerca o sviluppo, cita il seguente documento:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Desideriamo ringraziare il team di ImageNet, guidato da Olga Russakovsky, Jia Deng e Li Fei-Fei, per aver creato e mantenuto il dataset ImageNet come una preziosa risorsa per la comunità di ricerca sull'apprendimento automatico e la visione artificiale. Per maggiori informazioni sul dataset ImageNet e sui suoi creatori, visita il sito web di ImageNet.