Link to this sectionImageNet-Datensatz#
ImageNet ist eine groß angelegte Datenbank mit annotierten Bildern, die für die Forschung zur visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist. Damit ist sie eine der umfangreichsten Ressourcen für das Training von Deep-Learning-Modellen für Computer Vision-Aufgaben.
Link to this sectionImageNet vortrainierte Modelle#
| Modell | Größe (Pixel) | acc top1 | acc top5 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) bei 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79,9 | 95,0 | 41,4 ± 0,9 | 3,8 ± 0,0 | 29,6 | 13,6 |
Link to this sectionHauptfunktionen#
- ImageNet enthält über 14 Millionen hochauflösende Bilder, die tausende Objektkategorien abdecken.
- Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jedes Synset eine Kategorie repräsentiert.
- ImageNet wird häufig für das Training und das Benchmarking im Bereich Computer Vision verwendet, insbesondere für Bildklassifizierungs- und Objekterkennungs-Aufgaben.
- Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat maßgeblich zur Förderung der Computer-Vision-Forschung beigetragen.
Link to this sectionDatensatzstruktur#
Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie stellt eine Kategorie dar, und jede Kategorie wird durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine wertvolle Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen bietet.
Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ist ein wichtiges Ereignis im Bereich der Computer Vision. Sie bietet Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle anhand eines groß angelegten Datensatzes mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.
Link to this sectionAnwendungen#
Der ImageNet-Datensatz wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen für verschiedene Computer-Vision-Aufgaben verwendet, wie z. B. Bildklassifizierung, Objekterkennung und Objektlokalisierung. Einige bekannte Deep-Learning-Architekturen wie AlexNet, VGG und ResNet wurden mit dem ImageNet-Datensatz entwickelt und gebencht.
Link to this sectionVerwendung#
Um ein Deep-Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, kannst du die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Seite Training für Modelle.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Link to this sectionBeispielbilder und Annotationen#
Der ImageNet-Datensatz enthält hochauflösende Bilder, die tausende von Objektkategorien abdecken, und bietet somit einen vielfältigen und umfangreichen Datensatz für das Training und die Evaluierung von Computer-Vision-Modellen. Hier sind einige Beispiele für Bilder aus dem Datensatz:

Dieses Beispiel zeigt die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und unterstreicht die Bedeutung eines diversen Datensatzes für das Training robuster Computer-Vision-Modelle.
Link to this sectionZitate und Danksagungen#
Wenn du den ImageNet-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Papier:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Wir möchten dem ImageNet-Team, geleitet von Olga Russakovsky, Jia Deng und Li Fei-Fei, dafür danken, dass sie den ImageNet-Datensatz als wertvolle Ressource für die Machine Learning- und Computer-Vision-Forschungsgemeinschaft erstellt und gepflegt haben. Weitere Informationen über den ImageNet-Datensatz und seine Ersteller findest du auf der ImageNet-Website.
Link to this sectionFAQ#
Link to this sectionWas ist der ImageNet-Datensatz und wie wird er in der Computer Vision eingesetzt?#
Der ImageNet-Datensatz ist eine groß angelegte Datenbank, die aus über 14 Millionen hochauflösenden Bildern besteht, die mit WordNet-Synsets kategorisiert sind. Er wird intensiv in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das enorme Volumen des Datensatzes bieten eine reiche Ressource für das Training von Deep-Learning-Modellen. Insbesondere Modelle wie AlexNet, VGG und ResNet wurden unter Verwendung von ImageNet trainiert und gebencht, was seine Rolle bei der Weiterentwicklung der Computer Vision verdeutlicht.
Link to this sectionWie kann ich ein vortrainiertes YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz verwenden?#
Um ein vortrainiertes Ultralytics YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz zu verwenden, befolge diese Schritte:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Für detailliertere Trainingsanweisungen lies unsere Training-Seite.
Link to this sectionWarum sollte ich die vortrainierten Ultralytics YOLO26-Modelle für meine ImageNet-Datensatzprojekte verwenden?#
Vortrainierte Ultralytics YOLO26-Modelle bieten modernste Leistung in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das YOLO26n-cls-Modell mit einer Top-1-Genauigkeit von 71,4% und einer Top-5-Genauigkeit von 90,1% für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren den Rechenaufwand für das Training von Grund auf und beschleunigen Entwicklungszyklen. Erfahre mehr über die Leistungsmetriken der YOLO26-Modelle im Abschnitt Vortrainierte ImageNet-Modelle.
Link to this sectionWie ist der ImageNet-Datensatz strukturiert und warum ist er wichtig?#
Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert, in der jeder Knoten eine Kategorie darstellt, die durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen, was sie ideal für das Training von Modellen zur Erkennung einer Vielzahl von Objekten macht. Die Vielfalt und der Annotationsreichtum von ImageNet machen ihn zu einem wertvollen Datensatz für die Entwicklung robuster und verallgemeinerbarer Deep-Learning-Modelle. Mehr zu dieser Organisation findest du im Abschnitt Datensatzstruktur.
Link to this sectionWelche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?#
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war entscheidend für die Förderung von Fortschritten in der Computer Vision, indem sie eine wettbewerbsorientierte Plattform zur Evaluierung von Algorithmen auf einem standardisierten Großdatensatz bietet. Sie stellt standardisierte Bewertungsmetriken bereit, die Innovationen und Entwicklungen in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung fördern. Der Wettbewerb hat kontinuierlich die Grenzen dessen verschoben, was mit Deep-Learning- und Computer-Vision-Technologien möglich ist.