Overslaan naar inhoud

ImageNet10-dataset

De ImageNet10 dataset is een kleinschalige subset van de ImageNet database, ontwikkeld door Ultralytics en is ontworpen voor CI-tests, sanity checks en het snel testen van trainingslijnen. Deze dataset bestaat uit de eerste afbeelding in de trainingsset en de eerste afbeelding uit de validatieset van de eerste 10 klassen in ImageNet. Hoewel hij aanzienlijk kleiner is, behoudt hij de structuur en diversiteit van de originele ImageNet dataset.

Belangrijkste kenmerken

  • ImageNet10 is een compacte versie van ImageNet, met 20 afbeeldingen die de eerste 10 klassen van de oorspronkelijke dataset vertegenwoordigen.
  • De dataset is georganiseerd volgens de WordNet hiĆ«rarchie, die de structuur van de volledige ImageNet dataset weerspiegelt.
  • Het is bij uitstek geschikt voor CI-tests, saniteitscontroles en het snel testen van trainingspijplijnen in computervisietaken.
  • Hoewel het niet ontworpen is voor modelbenchmarking, kan het wel een snelle indicatie geven van de basisfunctionaliteit en correctheid van een model.

Structuur dataset

De ImageNet10 dataset is, net als het originele ImageNet, georganiseerd met behulp van de WordNet hiƫrarchie. Elk van de 10 klassen in ImageNet10 wordt beschreven door een synset (een verzameling synonieme termen). De afbeeldingen in ImageNet10 zijn geannoteerd met een of meer synsets, waardoor een compacte bron ontstaat voor het testen van modellen om verschillende objecten en hun relaties te herkennen.

Toepassingen

De ImageNet10 dataset is handig voor het snel testen en debuggen van computervisie modellen en pipelines. Het kleine formaat maakt snelle iteratie mogelijk, waardoor het ideaal is voor continue integratietests en sanity checks. De dataset kan ook worden gebruikt voor het snel vooraf testen van nieuwe modellen of wijzigingen aan bestaande modellen, voordat wordt overgegaan op het volledig testen met de complete ImageNet dataset.

Gebruik

Om een deep learning model te testen op de ImageNet10 dataset met een afbeeldingsgrootte van 224x224, kun je de volgende codefragmenten gebruiken. Raadpleeg de pagina Model Training voor een uitgebreide lijst met beschikbare argumenten.

Test Voorbeeld

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet10 model=yolov8n-cls.pt epochs=5 imgsz=224

Voorbeeldafbeeldingen en -annotaties

De ImageNet10 dataset bevat een subset van afbeeldingen uit de originele ImageNet dataset. Deze afbeeldingen zijn gekozen om de eerste 10 klassen in de dataset te vertegenwoordigen, waardoor een diverse maar compacte dataset ontstaat om snel te testen en te evalueren.

Voorbeeldafbeeldingen dataset Het voorbeeld laat de variƫteit en complexiteit van de afbeeldingen in de ImageNet10 dataset zien en benadrukt het nut ervan voor het controleren van de juistheid en het snel testen van computervisiemodellen.

Citaten en erkenningen

Als je de ImageNet10 dataset gebruikt in je onderzoek of ontwikkeling, citeer dan het originele ImageNet artikel:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We willen graag het ImageNet-team bedanken, onder leiding van Olga Russakovsky, Jia Deng en Li Fei-Fei, voor het maken en onderhouden van de ImageNet dataset. De ImageNet10 dataset is weliswaar een compacte subset, maar is een waardevolle bron voor snel testen en debuggen in de machine learning en computer vision onderzoeksgemeenschap. Ga voor meer informatie over de ImageNet dataset en zijn makers naar de ImageNet website.

FAQ

Wat is de ImageNet10 dataset en waarin verschilt deze van de volledige ImageNet dataset?

De ImageNet10 dataset is een compacte subset van de originele ImageNet database, gemaakt door Ultralytics voor snelle CI-tests, sanity checks en evaluaties van de trainingspijplijn. ImageNet10 bestaat uit slechts 20 afbeeldingen en vertegenwoordigt de eerste afbeelding in de trainings- en validatiesets van de eerste 10 klassen in ImageNet. Ondanks de kleine omvang behoudt het de structuur en diversiteit van de volledige dataset, waardoor het ideaal is om snel te testen, maar niet om modellen te benchmarken.

Hoe kan ik de ImageNet10 dataset gebruiken om mijn deep learning model te testen?

Om je deep learning model te testen op de ImageNet10 dataset met een afbeeldingsgrootte van 224x224, gebruik je de volgende codefragmenten.

Test Voorbeeld

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet10 model=yolov8n-cls.pt epochs=5 imgsz=224

Raadpleeg de pagina Training voor een uitgebreide lijst met beschikbare argumenten.

Waarom zou ik de ImageNet10 dataset gebruiken voor CI-tests en sanity checks?

De ImageNet10 dataset is speciaal ontworpen voor CI-tests, sanity checks en snelle evaluaties in deep learning pipelines. Het kleine formaat maakt snelle iteratie en testen mogelijk, waardoor het perfect is voor continue integratieprocessen waarbij snelheid cruciaal is. Door de structurele complexiteit en diversiteit van de originele ImageNet dataset te behouden, biedt ImageNet10 een betrouwbare indicatie van de basisfunctionaliteit en correctheid van een model zonder de overhead van het verwerken van een grote dataset.

Wat zijn de belangrijkste kenmerken van de ImageNet10 dataset?

De ImageNet10 dataset heeft verschillende belangrijke kenmerken:

  • Compact formaat: Met slechts 20 afbeeldingen kun je snel testen en debuggen.
  • Gestructureerde organisatie: Volgt de WordNet hiĆ«rarchie, vergelijkbaar met de volledige ImageNet dataset.
  • CI en veiligheidscontroles: Uitermate geschikt voor continue integratietests en sanity checks.
  • Niet voor benchmarking: Hoewel het nuttig is voor snelle modelevaluaties, is het niet ontworpen voor uitgebreide benchmarking.

Waar kan ik de ImageNet10 dataset downloaden?

Je kunt de ImageNet10 dataset downloaden van de Ultralytics GitHub releases pagina. Meer gedetailleerde informatie over de structuur en toepassingen vind je op de ImageNet10 Dataset pagina.



Created 2023-11-12, Updated 2024-07-10
Authors: glenn-jocher (8)

Reacties