Vai al contenuto

Set di dati ImageNet

ImageNet è un database su larga scala di immagini annotate, progettato per essere utilizzato nella ricerca sul riconoscimento degli oggetti visivi. Contiene oltre 14 milioni di immagini, ognuna delle quali è annotata utilizzando i sinonimi di WordNet, il che la rende una delle risorse più ampie disponibili per l'addestramento di modelli di deep learning in compiti di computer vision.

Modelli pre-registrati ImageNet

Modello dimensione
(pixel)
acc
top1
acc
top5
Velocità
CPU ONNX
(ms)
Velocità
T4TensorRT10
(ms)
params
(M)
FLOPs
(B) a 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

Caratteristiche principali

  • ImageNet contiene oltre 14 milioni di immagini ad alta risoluzione che coprono migliaia di categorie di oggetti.
  • Il dataset è organizzato secondo la gerarchia di WordNet, con ogni sintagma che rappresenta una categoria.
  • ImageNet è ampiamente utilizzato per l'addestramento e il benchmarking nel campo della computer vision, in particolare per la classificazione delle immagini e il rilevamento degli oggetti.
  • L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è stata determinante per il progresso della ricerca sulla computer vision.

Struttura del set di dati

Il dataset ImageNet è organizzato utilizzando la gerarchia WordNet. Ogni nodo della gerarchia rappresenta una categoria e ogni categoria è descritta da un synset (un insieme di termini sinonimi). Le immagini presenti in ImageNet sono annotate con uno o più synset, fornendo una ricca risorsa per l'addestramento di modelli per il riconoscimento di vari oggetti e delle loro relazioni.

Sfida di riconoscimento visivo su larga scala ImageNet (ILSVRC)

L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è stato un evento importante nel campo della computer vision. Ha fornito una piattaforma a ricercatori e sviluppatori per valutare i loro algoritmi e modelli su un set di dati su larga scala con metriche di valutazione standardizzate. L'ILSVRC ha portato a progressi significativi nello sviluppo di modelli di deep learning per la classificazione delle immagini, il rilevamento degli oggetti e altri compiti di computer vision.

Applicazioni

Il dataset ImageNet è ampiamente utilizzato per l'addestramento e la valutazione di modelli di deep learning in varie attività di computer vision, come la classificazione di immagini, il rilevamento di oggetti e la localizzazione di oggetti. Alcune popolari architetture di deep learning, come AlexNet, VGG e ResNet, sono state sviluppate e sottoposte a benchmark utilizzando il dataset ImageNet.

Utilizzo

Per addestrare un modello di deep learning sul dataset ImageNet per 100 epoche con un'immagine di dimensioni 224x224, si possono usare i seguenti frammenti di codice. Per un elenco completo degli argomenti disponibili, consultare la pagina di addestramento del modello.

Esempio di treno

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Immagini di esempio e annotazioni

Il dataset ImageNet contiene immagini ad alta risoluzione che coprono migliaia di categorie di oggetti, fornendo un set di dati ampio e diversificato per l'addestramento e la valutazione dei modelli di computer vision. Ecco alcuni esempi di immagini tratte dal dataset:

Immagini campione del set di dati

L'esempio mostra la varietà e la complessità delle immagini presenti nel dataset ImageNet, evidenziando l'importanza di un dataset diversificato per l'addestramento di modelli di computer vision robusti.

Citazioni e ringraziamenti

Se utilizzate il dataset ImageNet nel vostro lavoro di ricerca o di sviluppo, citate il seguente documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Desideriamo ringraziare il team di ImageNet, guidato da Olga Russakovsky, Jia Deng e Li Fei-Fei, per aver creato e mantenuto il dataset ImageNet come una risorsa preziosa per la comunità di ricerca sull'apprendimento automatico e la visione artificiale. Per ulteriori informazioni sul dataset ImageNet e sui suoi creatori, visitare il sito web di ImageNet.

FAQ

Che cos'è il dataset ImageNet e come viene utilizzato nella computer vision?

Il dataset ImageNet è un database su larga scala composto da oltre 14 milioni di immagini ad alta risoluzione categorizzate utilizzando i sinonimi di WordNet. È ampiamente utilizzato nella ricerca sul riconoscimento degli oggetti visivi, tra cui la classificazione delle immagini e il rilevamento degli oggetti. Le annotazioni e il volume del dataset costituiscono una ricca risorsa per l'addestramento di modelli di deep learning. In particolare, modelli come AlexNet, VGG e ResNet sono stati addestrati e sottoposti a benchmark utilizzando ImageNet, dimostrando il suo ruolo nel progresso della computer vision.

Come si può utilizzare un modello preaddestrato di YOLO per la classificazione delle immagini sul dataset ImageNet?

Per utilizzare un modello preaddestrato di Ultralytics YOLO per la classificazione delle immagini sul dataset ImageNet, procedere come segue:

Esempio di treno

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Per istruzioni più approfondite sulla formazione, consultare la pagina Formazione.

Perché dovrei utilizzare i modelli preaddestrati di Ultralytics YOLO11 per i miei progetti di dataset ImageNet?

Ultralytics YOLO11 I modelli preaddestrati offrono prestazioni all'avanguardia in termini di velocità e precisione per diversi compiti di computer vision. Ad esempio, il modello YOLO11n-cls, con un'accuratezza top-1 del 69,0% e un'accuratezza top-5 dell'88,3%, è ottimizzato per le applicazioni in tempo reale. I modelli pre-addestrati riducono le risorse computazionali necessarie per l'addestramento da zero e accelerano i cicli di sviluppo. Per saperne di più sulle metriche delle prestazioni dei modelli YOLO11 , consultare la sezione ImageNet Pretrained Models.

Come è strutturato il dataset ImageNet e perché è importante?

Il dataset ImageNet è organizzato utilizzando la gerarchia WordNet, dove ogni nodo della gerarchia rappresenta una categoria descritta da un synset (un insieme di termini sinonimi). Questa struttura consente annotazioni dettagliate, rendendolo ideale per l'addestramento di modelli per il riconoscimento di un'ampia varietà di oggetti. La diversità e la ricchezza di annotazioni di ImageNet lo rendono un dataset prezioso per lo sviluppo di modelli di deep learning robusti e generalizzabili. Per ulteriori informazioni su questa organizzazione, consultare la sezione Struttura del dataset.

Che ruolo ha l'ImageNet Large Scale Visual Recognition Challenge (ILSVRC) nella computer vision?

L'annuale ImageNet Large Scale Visual Recognition Challenge (ILSVRC) è stata fondamentale per promuovere i progressi nella computer vision, fornendo una piattaforma competitiva per la valutazione degli algoritmi su un set di dati standardizzato e su larga scala. Offre metriche di valutazione standardizzate, promuovendo l'innovazione e lo sviluppo in aree quali la classificazione delle immagini, il rilevamento degli oggetti e la segmentazione delle immagini. La sfida ha continuamente spinto i confini di ciò che è possibile fare con le tecnologie di deep learning e di computer vision.

📅C reato 1 anno fa ✏️ Aggiornato 1 mese fa

Commenti