Dataset ImageNet

Q: What is the ImageNet dataset and how is it used in computer vision?

Il dataset ImageNet è un database su larga scala composto da oltre 14 milioni di immagini ad alta risoluzione classificate utilizzando i synset di WordNet. È ampiamente utilizzato nella ricerca sul riconoscimento visivo degli oggetti, inclusa la classificazione delle immagini e il detect degli oggetti. Le annotazioni e l'enorme volume del dataset forniscono una ricca risorsa per il training di modelli di deep learning. In particolare, modelli come AlexNet, VGG e ResNet sono stati addestrati e valutati utilizzando ImageNet, dimostrando il suo ruolo nel far progredire la computer vision.

ImageNet è un database su larga scala di immagini annotate progettato per l'uso nella ricerca sul riconoscimento visivo degli oggetti. Contiene oltre 14 milioni di immagini, con ogni immagine annotata utilizzando i synset di WordNet, rendendolo una delle risorse più complete disponibili per l'addestramento di modelli di deep learning in attività di computer vision.

Modelli pre-addestrati ImageNet

Modello	dimensione ^(pixel)	acc ^top1	acc ^top5	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^{(B) a 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Caratteristiche principali

ImageNet contiene oltre 14 milioni di immagini ad alta risoluzione che coprono migliaia di categorie di oggetti.
Il dataset è organizzato secondo la gerarchia di WordNet, con ogni synset che rappresenta una categoria.
ImageNet è ampiamente utilizzato per l'addestramento e il benchmarking nel campo della computer vision, in particolare per attività di classificazione delle immagini e object detection.
L'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuale è stata determinante nel far progredire la ricerca sulla computer vision.

Struttura del set di dati

Il dataset ImageNet è organizzato utilizzando la gerarchia WordNet. Ogni nodo nella gerarchia rappresenta una categoria, e ogni categoria è descritta da un synset (una collezione di termini sinonimi). Le immagini in ImageNet sono annotate con uno o più synset, fornendo una risorsa completa per l'addestramento di modelli per riconoscere vari oggetti e le loro relazioni.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

L'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuale è stato un evento importante nel campo della computer vision. Ha fornito una piattaforma per ricercatori e sviluppatori per valutare i propri algoritmi e modelli su un set di dati su larga scala con metriche di valutazione standardizzate. L'ILSVRC ha portato a progressi significativi nello sviluppo di modelli di deep learning per la classificazione delle immagini, l'object detection e altre attività di computer vision.

Applicazioni

Il dataset ImageNet è ampiamente utilizzato per l'addestramento e la valutazione di modelli di deep learning in vari compiti di computer vision, come la classificazione delle immagini, l'object detection e la localizzazione degli oggetti. Alcune architetture di deep learning popolari, come AlexNet, VGG e ResNet, sono state sviluppate e valutate utilizzando il dataset ImageNet.

Utilizzo

Per addestrare un modello di deep learning sul dataset ImageNet per 100 epoche con una dimensione dell'immagine di 224x224, puoi utilizzare i seguenti frammenti di codice. Per un elenco completo degli argomenti disponibili, consulta la pagina di Training del modello.

Esempio di addestramento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Immagini di esempio e annotazioni

Il dataset ImageNet contiene immagini ad alta risoluzione che abbracciano migliaia di categorie di oggetti, fornendo un dataset diversificato ed esteso per il training e la valutazione di modelli di computer vision. Ecco alcuni esempi di immagini dal dataset:

Esempi di immagini del set di dati ImageNet

L'esempio mostra la varietà e la complessità delle immagini nel dataset ImageNet, evidenziando l'importanza di un dataset diversificato per l'addestramento di modelli di computer vision robusti.

Citazioni e ringraziamenti

Se utilizzi il dataset ImageNet nel tuo lavoro di ricerca o sviluppo, cita il seguente articolo:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Desideriamo ringraziare il team ImageNet, guidato da Olga Russakovsky, Jia Deng e Li Fei-Fei, per aver creato e mantenuto il dataset ImageNet come una preziosa risorsa per la community di ricerca sull'apprendimento automatico e sulla computer vision. Per ulteriori informazioni sul dataset ImageNet e sui suoi creatori, visitare il sito web di ImageNet.

FAQ

Cos'è il dataset ImageNet e come viene utilizzato nella computer vision?

Il dataset ImageNet è un database su larga scala che comprende oltre 14 milioni di immagini ad alta risoluzione, classificate utilizzando i synset di WordNet. È ampiamente utilizzato nella ricerca sul riconoscimento visivo degli oggetti, inclusi la classificazione delle immagini e il rilevamento degli oggetti. Le annotazioni e l'enorme volume del dataset forniscono una ricca risorsa per l'addestramento di modelli di deep learning. In particolare, modelli come AlexNet, VGG e ResNet sono stati addestrati e valutati utilizzando ImageNet, dimostrando il suo ruolo nel progresso della visione artificiale.

Come posso utilizzare un modello YOLO pre-addestrato per la classificazione di immagini sul dataset ImageNet?

Per utilizzare un modello Ultralytics YOLO pre-addestrato per la classificazione delle immagini sul dataset ImageNet, segui questi passaggi:

Esempio di addestramento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Per istruzioni di training più approfondite, consulta la nostra pagina di training.

Perché dovrei usare i modelli preaddestrati Ultralytics YOLO26 per i miei progetti con dataset ImageNet?

I modelli preaddestrati Ultralytics YOLO26 offrono prestazioni all'avanguardia in termini di velocità e accuratezza per vari compiti di computer vision. Ad esempio, il modello YOLO26n-cls, con una accuratezza top-1 del 70.0% e una accuratezza top-5 dell'89.4%, è ottimizzato per applicazioni in tempo reale. I modelli preaddestrati riducono le risorse computazionali richieste per l'addestramento da zero e accelerano i cicli di sviluppo. Scopri di più sulle metriche di performance dei modelli YOLO26 nella sezione Modelli Preaddestrati ImageNet.

Come è strutturato il dataset ImageNet e perché è importante?

Il dataset ImageNet è organizzato utilizzando la gerarchia di WordNet, dove ogni nodo nella gerarchia rappresenta una categoria descritta da un synset (una raccolta di termini sinonimi). Questa struttura consente annotazioni dettagliate, rendendolo ideale per l'addestramento di modelli per riconoscere un'ampia varietà di oggetti. La diversità e la ricchezza di annotazioni di ImageNet lo rendono un dataset prezioso per lo sviluppo di modelli di deep learning robusti e generalizzabili. Maggiori informazioni su questa organizzazione sono disponibili nella sezione Struttura del dataset.

Che ruolo svolge l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) nel campo della computer vision?

L'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) annuale è stata fondamentale per promuovere i progressi nella computer vision, fornendo una piattaforma competitiva per la valutazione degli algoritmi su un set di dati standardizzato su larga scala. Offre metriche di valutazione standardizzate, promuovendo l'innovazione e lo sviluppo in aree quali la classificazione delle immagini, l'object detection e la segmentazione delle immagini. La sfida ha continuamente spinto i confini di ciò che è possibile con il deep learning e le tecnologie di computer vision.

📅 Creato 2 anni fa ✏️ Aggiornato 3 mesi fa