Overslaan naar inhoud

ImageNet-dataset

ImageNet is een grootschalige database van geannoteerde afbeeldingen, ontworpen voor gebruik in visueel objectherkenningsonderzoek. Het bevat meer dan 14 miljoen afbeeldingen, waarbij elke afbeelding is geannoteerd met WordNet synsets, waardoor het een van de meest uitgebreide bronnen is voor het trainen van deep learning modellen in computer vision taken.

ImageNet vooraf getrainde modellen

Model grootte
(pixels)
acc
top1
acc
top5
Snelheid
CPU ONNX
(ms)
Snelheid
A100 TensorRT
(ms)
params
(M)
FLOP's
(B) bij 640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Belangrijkste kenmerken

  • ImageNet bevat meer dan 14 miljoen afbeeldingen met een hoge resolutie die duizenden objectcategorieĆ«n omvatten.
  • De dataset is georganiseerd volgens de WordNet hiĆ«rarchie, waarbij elke synset een categorie vertegenwoordigt.
  • ImageNet wordt veel gebruikt voor training en benchmarking op het gebied van computervisie, met name voor beeldclassificatie en objectdetectietaken.
  • De jaarlijkse ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is van groot belang geweest voor het bevorderen van computer vision onderzoek.

Structuur dataset

De ImageNet dataset is georganiseerd met behulp van de WordNet hiƫrarchie. Elke knoop in de hiƫrarchie vertegenwoordigt een categorie en elke categorie wordt beschreven door een synset (een verzameling synonieme termen). De afbeeldingen in ImageNet zijn geannoteerd met een of meer synsets, wat een rijke bron is voor het trainen van modellen om verschillende objecten en hun relaties te herkennen.

ImageNet grootschalige visuele herkenningswedstrijd (ILSVRC)

De jaarlijkse ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is een belangrijk evenement op het gebied van computervisie. Het heeft onderzoekers en ontwikkelaars een platform geboden om hun algoritmen en modellen te evalueren op een grootschalige dataset met gestandaardiseerde evaluatiemetrieken. De ILSVRC heeft geleid tot aanzienlijke vooruitgang in de ontwikkeling van deep learning modellen voor beeldclassificatie, objectdetectie en andere computervisietaken.

Toepassingen

De ImageNet dataset wordt veel gebruikt voor het trainen en evalueren van deep learning modellen in verschillende computer vision taken, zoals beeldclassificatie, objectdetectie en objectlokalisatie. Enkele populaire deep learning architecturen, zoals AlexNet, VGG en ResNet, zijn ontwikkeld en gebenchmarkt met de ImageNet dataset.

Gebruik

Om een deep learning model te trainen op de ImageNet dataset voor 100 epochs met een afbeeldingsgrootte van 224x224, kun je de volgende codefragmenten gebruiken. Raadpleeg de pagina Model Training voor een uitgebreide lijst met beschikbare argumenten.

Voorbeeld trein

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Voorbeeldafbeeldingen en -annotaties

De ImageNet dataset bevat afbeeldingen met een hoge resolutie die duizenden objectcategorieƫn omvatten, en biedt daarmee een diverse en uitgebreide dataset voor het trainen en evalueren van computervisiemodellen. Hier zijn enkele voorbeelden van afbeeldingen uit de dataset:

Voorbeeldafbeeldingen dataset

Het voorbeeld laat de verscheidenheid en complexiteit van de afbeeldingen in de ImageNet dataset zien en benadrukt het belang van een diverse dataset voor het trainen van robuuste computervisiemodellen.

Citaten en erkenningen

Als je de ImageNet dataset gebruikt in je onderzoek of ontwikkeling, citeer dan het volgende artikel:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We willen graag het ImageNet-team bedanken, onder leiding van Olga Russakovsky, Jia Deng en Li Fei-Fei, voor het maken en onderhouden van de ImageNet dataset als een waardevolle bron voor de machine learning en computer vision onderzoeksgemeenschap. Ga voor meer informatie over de ImageNet dataset en zijn makers naar de ImageNet website.

FAQ

Wat is de ImageNet dataset en hoe wordt deze gebruikt in computer vision?

De ImageNet dataset is een grootschalige database bestaande uit meer dan 14 miljoen afbeeldingen met een hoge resolutie die zijn gecategoriseerd met WordNet synsets. Het wordt veel gebruikt in onderzoek naar visuele objectherkenning, waaronder beeldclassificatie en objectdetectie. De annotaties en het enorme volume van de dataset vormen een rijke bron voor het trainen van deep learning modellen. Met name modellen als AlexNet, VGG en ResNet zijn getraind en gebenchmarkt met ImageNet, waarmee de rol van ImageNet in de vooruitgang van computer vision is aangetoond.

Hoe kan ik een voorgetraind YOLO model gebruiken voor beeldclassificatie op de ImageNet dataset?

Volg deze stappen om een voorgetraind Ultralytics YOLO model te gebruiken voor beeldclassificatie op de ImageNet dataset:

Voorbeeld trein

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Ga voor meer gedetailleerde trainingsinstructies naar onze pagina Training.

Waarom zou ik de Ultralytics YOLOv8 voorgetrainde modellen gebruiken voor mijn ImageNet dataset projecten?

Ultralytics YOLOv8 Voorgetrainde modellen bieden state-of-the-art prestaties in termen van snelheid en nauwkeurigheid voor verschillende computer vision taken. Het YOLOv8n-cls model bijvoorbeeld, met een top-1 nauwkeurigheid van 69,0% en een top-5 nauwkeurigheid van 88,3%, is geoptimaliseerd voor real-time toepassingen. Voorgetrainde modellen verminderen de rekenkracht die nodig is om vanaf nul te trainen en versnellen ontwikkelingscycli. Lees meer over de prestatiecijfers van YOLOv8 modellen in de sectie ImageNet voorgetrainde modellen.

Hoe is de ImageNet dataset opgebouwd en waarom is dat belangrijk?

De ImageNet dataset is georganiseerd met behulp van de WordNet hiƫrarchie, waarbij elk knooppunt in de hiƫrarchie een categorie voorstelt die wordt beschreven door een synset (een verzameling synonieme termen). Deze structuur maakt gedetailleerde annotaties mogelijk, waardoor het ideaal is voor het trainen van modellen om een grote verscheidenheid aan objecten te herkennen. De diversiteit en rijkdom aan annotaties van ImageNet maken het een waardevolle dataset voor het ontwikkelen van robuuste en generaliseerbare deep learning modellen. Meer over deze organisatie kun je vinden in de Dataset Structuur sectie.

Welke rol speelt de ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in computer vision?

De jaarlijkse ImageNet Large Scale Visual Recognition Challenge (ILSVRC) is cruciaal geweest voor het stimuleren van vooruitgang in computer vision door een competitief platform te bieden voor het evalueren van algoritmen op een grootschalige, gestandaardiseerde dataset. Het biedt gestandaardiseerde evaluatiemetrieken en stimuleert innovatie en ontwikkeling op gebieden zoals beeldclassificatie, objectdetectie en beeldsegmentatie. De uitdaging heeft voortdurend de grenzen verlegd van wat mogelijk is met deep learning en computervisietechnologieƫn.



Aangemaakt 2023-11-12, Bijgewerkt 2024-07-04
Auteurs: glenn-jocher (8), RizwanMunawar (1)

Reacties