ImageNet Dataset
ImageNet ist eine groß angelegte Datenbank annotierter Bilder, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist, was sie zu einer der umfangreichsten verfügbaren Ressourcen für das Training von Deep Learning Modellen in Computer Vision-Aufgaben.
ImageNet Pretrained Models
| Modell | Größe (Pixel) | acc top1 | acc top5 | Speed CPU ONNX (ms) | Speed T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) bei 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Hauptmerkmale
- ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien abdecken.
- Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jedes Synset eine Kategorie repräsentiert.
- ImageNet wird weithin für das Training und Benchmarking im Bereich Computer Vision verwendet, insbesondere für Bildklassifizierung und Objekterkennungs-Aufgaben.
- Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war maßgeblich für den Fortschritt der Computer-Vision-Forschung.
Datensatzstruktur
Der ImageNet Datensatz ist mithilfe der WordNet-Hierarchie strukturiert. Jeder Knoten in der Hierarchie stellt eine Kategorie dar, und jede Kategorie wird durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und deren Beziehungen bietet.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war ein wichtiges Ereignis im Bereich Computer Vision. Sie bot Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle an einem groß angelegten Datensatz mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.
Anwendungen
Der ImageNet Datensatz wird häufig zum Training und zur Evaluierung von Deep-Learning-Modellen für verschiedene Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und Objektlokalisierung eingesetzt. Einige populäre Deep-Learning-Architekturen, wie AlexNet, VGG, und ResNet, wurden unter Verwendung des ImageNet Datensatzes entwickelt und gebenchmarkt.
Usage
Um ein Deep-Learning-Modell auf dem ImageNet Datensatz für 100 epochs mit einer Bildgröße von 224x224 zu trainieren, kannst du die folgenden Code-Schnipsel verwenden. Eine umfassende Liste der verfügbaren Argumente findest du in der Modell-Training Seite.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Beispielbilder und Annotationen
Der ImageNet Datensatz enthält hochauflösende Bilder, die Tausende von Objektkategorien umfassen und einen vielfältigen und umfangreichen Datensatz für das Training und die Evaluierung von Computer-Vision-Modellen bieten. Hier sind einige Beispiele von Bildern aus dem Datensatz:

Das Beispiel zeigt die Vielfalt und Komplexität der Bilder im ImageNet Datensatz und unterstreicht die Bedeutung eines diversen Datensatzes für das Training robuster Computer-Vision-Modelle.
Zitate und Danksagungen
Wenn du den ImageNet Datensatz in deiner Forschung oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Paper:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Wir möchten dem ImageNet-Team unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei dafür danken, dass sie den ImageNet Datensatz als wertvolle Ressource für die Machine Learning und Computer-Vision-Forschungsgemeinschaft erstellt und gepflegt haben. Für weitere Informationen über den ImageNet Datensatz und seine Ersteller, besuche die ImageNet website.
FAQ
Was ist der ImageNet Datensatz und wie wird er in der Computer Vision eingesetzt?
Die ImageNet dataset ist eine groß angelegte Datenbank, die aus über 14 Millionen hochauflösenden Bildern besteht, die mithilfe von WordNet-Synsets kategorisiert wurden. Sie wird umfassend in der Forschung zur visuellen Objekterkennung verwendet, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das schiere Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere Modelle wie AlexNet, VGG und ResNet wurden unter Verwendung von ImageNet trainiert und gebenchmarkt, was seine Rolle bei der Förderung der Computer Vision unterstreicht.
Wie kann ich ein vortrainiertes YOLO Modell für die Bildklassifizierung auf dem ImageNet Datensatz verwenden?
Um ein vortrainiertes Ultralytics YOLO Modell für die Bildklassifizierung auf dem ImageNet Datensatz zu verwenden, befolge diese Schritte:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Für tiefergehende Trainingsanweisungen, beziehe dich auf unser Training page.
Warum sollte ich die vortrainierten Ultralytics YOLO26 Modelle für meine ImageNet Datensatz-Projekte verwenden?
Die vortrainierten Ultralytics YOLO26 Modelle bieten modernste Leistung in Bezug auf Geschwindigkeit und accuracy für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das Modell YOLO26n-cls mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren die für das Training von Grund auf benötigten Rechenressourcen und beschleunigen Entwicklungszyklen. Erfahre mehr über die Leistungsmetriken der YOLO26 Modelle im ImageNet Pretrained Models section.
Wie ist der ImageNet Datensatz strukturiert und warum ist er wichtig?
Der ImageNet Datensatz ist mithilfe der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie repräsentiert, die durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen, was ihn ideal für das Training von Modellen macht, um eine Vielzahl von Objekten zu erkennen. Die Vielfalt und der Annotationsreichtum von ImageNet machen ihn zu einem wertvollen Datensatz für die Entwicklung robuster und verallgemeinerbarer Deep-Learning-Modelle. Mehr über diese Organisation findest du im Datensatzstruktur.
Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war entscheidend für den Fortschritt in der Computer Vision, indem sie eine Wettbewerbsplattform für die Evaluierung von Algorithmen an einem großen, standardisierten Datensatz bereitstellte. Sie bietet standardisierte Bewertungsmetriken und fördert Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierungs. Die Challenge hat kontinuierlich die Grenzen dessen erweitert, was mit Deep-Learning- und Computer-Vision-Technologien möglich ist.