ImageNet-Datensatz
ImageNet ist eine umfangreiche Datenbank mit annotierten Bildern, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, die jeweils mit WordNet-Synsets annotiert sind, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep Learning-Modellen für Aufgaben im Computer Vision-Bereich macht.
ImageNet vortrainierte Modelle
| Modell | Größe (Pixel) | acc top1 | acc top5 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Params (M) | FLOPs (B) bei 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Hauptmerkmale
- ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien abdecken.
- Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jedes Synset eine Kategorie repräsentiert.
- ImageNet wird häufig für das Training und Benchmarking im Bereich Computer Vision verwendet, insbesondere für Aufgaben der Bildklassifizierung und Objekterkennung.
- Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat maßgeblich zur Förderung der Computer-Vision-Forschung beigetragen.
Datensatzstruktur
Der ImageNet-Datensatz ist unter Verwendung der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie stellt eine Kategorie dar, und jede Kategorie wird durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und deren Beziehungen bietet.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war ein wichtiges Ereignis auf dem Gebiet der Computer Vision. Sie bot Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle an einem groß angelegten Datensatz mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für die Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.
Anwendungen
Der ImageNet-Datensatz wird häufig zum Training und zur Evaluierung von Deep-Learning-Modellen für verschiedene Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und Objektlokalisierung verwendet. Einige beliebte Deep-Learning-Architekturen, wie AlexNet, VGG und ResNet, wurden unter Verwendung des ImageNet-Datensatzes entwickelt und als Benchmark getestet.
Verwendung
Um ein Deep-Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, kannst du die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Trainingsseite des Modells.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Beispielbilder und Annotationen
Der ImageNet-Datensatz enthält hochauflösende Bilder, die Tausende von Objektkategorien umfassen und einen vielfältigen und umfangreichen Datensatz für das Training und die Evaluierung von Computer-Vision-Modellen bieten. Hier sind einige Beispiele für Bilder aus dem Datensatz:

Das Beispiel zeigt die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und unterstreicht die Bedeutung eines diversen Datensatzes für das Training robuster Computer-Vision-Modelle.
Zitate und Danksagungen
Wenn du den ImageNet-Datensatz in deiner Forschung oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Papier:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Wir möchten dem ImageNet-Team, geleitet von Olga Russakovsky, Jia Deng und Li Fei-Fei, dafür danken, dass sie den ImageNet-Datensatz als wertvolle Ressource für die Machine Learning- und Computer-Vision-Forschungsgemeinschaft geschaffen und gepflegt haben. Weitere Informationen über den ImageNet-Datensatz und seine Ersteller findest du auf der ImageNet-Website.
FAQ
Was ist der ImageNet-Datensatz und wie wird er in der Computer Vision eingesetzt?
Der ImageNet-Datensatz ist eine umfangreiche Datenbank, die aus über 14 Millionen hochauflösenden Bildern besteht, die mit WordNet-Synsets kategorisiert wurden. Er wird intensiv in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das enorme Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere wurden Modelle wie AlexNet, VGG und ResNet mit ImageNet trainiert und als Benchmark getestet, was seine Rolle bei der Förderung der Computer Vision unterstreicht.
Wie kann ich ein vortrainiertes YOLO-Modell für die Bildklassifizierung mit dem ImageNet-Datensatz verwenden?
Um ein vortrainiertes Ultralytics YOLO-Modell für die Bildklassifizierung mit dem ImageNet-Datensatz zu verwenden, befolge diese Schritte:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Weitere Informationen zum Training findest du auf unserer Trainingsseite.
Warum sollte ich die vortrainierten Ultralytics YOLO26-Modelle für meine ImageNet-Datensatzprojekte verwenden?
Die vortrainierten Ultralytics YOLO26-Modelle bieten modernste Leistung in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das Modell YOLO26n-cls mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren den Rechenaufwand für das Training von Grund auf und beschleunigen Entwicklungszyklen. Erfahre mehr über die Leistungsmetriken der YOLO26-Modelle im Abschnitt ImageNet vortrainierte Modelle.
Wie ist der ImageNet-Datensatz strukturiert und warum ist er wichtig?
Der ImageNet-Datensatz ist unter Verwendung der WordNet-Hierarchie organisiert, bei der jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen und macht ihn ideal für das Training von Modellen, um eine Vielzahl von Objekten zu erkennen. Die Vielfalt und der Reichtum der Annotationen von ImageNet machen ihn zu einem wertvollen Datensatz für die Entwicklung robuster und verallgemeinerbarer Deep-Learning-Modelle. Mehr über diese Organisation findest du im Abschnitt Datensatzstruktur.
Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war entscheidend für die Förderung von Fortschritten in der Computer Vision, da sie eine wettbewerbsorientierte Plattform zur Evaluierung von Algorithmen auf einem groß angelegten, standardisierten Datensatz bietet. Sie stellt standardisierte Bewertungsmetriken bereit, die Innovationen und Entwicklungen in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung fördern. Die Challenge hat kontinuierlich die Grenzen dessen erweitert, was mit Deep Learning und Computer-Vision-Technologien möglich ist.