ImageNet-Datensatz
ImageNet ist eine umfangreiche Datenbank mit annotierten Bildern, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep-Learning-Modellen in Computer-Vision-Aufgaben macht.
ImageNet-vortrainierte Modelle
| Modell | Größe (Pixel) | acc top1 | acc top5 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) bei 224 |
|---|---|---|---|---|---|---|---|
| YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO11m-cls | 224 | 77.3 | 93.9 | 17,2 ± 0,4 | 2,0 ± 0,0 | 11.6 | 4.9 |
| YOLO11l-cls | 224 | 78.3 | 94.3 | 23,2 ± 0,3 | 2,8 ± 0,0 | 14.1 | 6.2 |
| YOLO11x-cls | 224 | 79.5 | 94.9 | 41,4 ± 0,9 | 3,8 ± 0,0 | 29.6 | 13.6 |
Hauptmerkmale
- ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien umfassen.
- Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jede Synset eine Kategorie darstellt.
- ImageNet wird im Bereich der Computer Vision weit verbreitet für Training und Benchmarking eingesetzt, insbesondere für Bildklassifizierungs- und Objekterkennungsaufgaben.
- Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war maßgeblich für die Weiterentwicklung der Computer-Vision-Forschung.
Dataset-Struktur
Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie stellt eine Kategorie dar, und jede Kategorie wird durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen darstellt.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war ein wichtiges Ereignis im Bereich der Computer Vision. Sie bot Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle auf einem großen Datensatz mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu erheblichen Fortschritten bei der Entwicklung von Deep-Learning-Modellen für die Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.
Anwendungen
Der ImageNet-Datensatz wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen in verschiedenen Computer-Vision-Aufgaben eingesetzt, wie Bildklassifizierung, Objekterkennung und Objektlokalisierung. Einige populäre Deep-Learning-Architekturen, wie AlexNet, VGG und ResNet, wurden mithilfe des ImageNet-Datensatzes entwickelt und bewertet.
Nutzung
Um ein Deep-Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, können Sie die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente finden Sie auf der Trainingsseite des Modells.
Trainingsbeispiel
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
sample_images und Anmerkungen
Der ImageNet-Datensatz enthält hochauflösende Bilder, die Tausende von Objektkategorien umfassen, und bietet einen vielfältigen und umfangreichen Datensatz zum Trainieren und Evaluieren von Computer-Vision-Modellen. Hier sind einige Beispiele von Bildern aus dem Datensatz:

Das Beispiel veranschaulicht die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und unterstreicht die Bedeutung eines vielfältigen Datensatzes für das Training robuster Computer-Vision-Modelle.
Zitate und Danksagungen
Wenn Sie den ImageNet-Datensatz in Ihrer Forschungs- oder Entwicklungsarbeit verwenden, zitieren Sie bitte das folgende Paper:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Wir möchten dem ImageNet-Team, unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei, für die Erstellung und Pflege des ImageNet-Datensatzes als wertvolle Ressource für die Machine-Learning- und Computer-Vision-Forschungsgemeinschaft danken. Weitere Informationen zum ImageNet-Datensatz und seinen Erstellern finden Sie auf der ImageNet-Website.
FAQ
Was ist der ImageNet-Datensatz und wie wird er in der Computer Vision eingesetzt?
Der ImageNet-Datensatz ist eine großskalige Datenbank, die über 14 Millionen hochauflösende Bilder enthält, die mithilfe von WordNet-Synsets kategorisiert sind. Er wird umfassend in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das schiere Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere Modelle wie AlexNet, VGG und ResNet wurden mit ImageNet trainiert und gebenchmarkt, was seine Rolle bei der Weiterentwicklung der Computer Vision unterstreicht.
Wie kann ich ein vortrainiertes YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz verwenden?
Um ein vortrainiertes Ultralytics YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz zu verwenden, befolgen Sie diese Schritte:
Trainingsbeispiel
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Weitere ausführliche Anweisungen zum Training finden Sie auf unserer Trainingsseite.
Warum sollte ich die vortrainierten Ultralytics YOLO11 Modelle für meine ImageNet-Datensatzprojekte verwenden?
Ultralytics YOLO11 vortrainierte Modelle bieten eine hochmoderne Leistung hinsichtlich Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das YOLO11n-cls Modell mit einer Top-1-Genauigkeit von 70.0% und einer Top-5-Genauigkeit von 89.4% für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren die für das Training von Grund auf erforderlichen Rechenressourcen und beschleunigen die Entwicklungszyklen. Erfahren Sie mehr über die Leistungsmetriken von YOLO11-Modellen im Abschnitt ImageNet Pretrained Models.
Wie ist der ImageNet-Datensatz strukturiert und warum ist er wichtig?
Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen, was sie ideal macht, um Modelle zum Erkennen einer Vielzahl von Objekten zu trainieren. Die Vielfalt und der Reichtum an Annotationen von ImageNet machen es zu einem wertvollen Datensatz für die Entwicklung robuster und generalisierbarer Deep-Learning-Modelle. Mehr über diese Organisation finden Sie im Abschnitt Datenstruktur.
Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war maßgeblich an der Förderung von Fortschritten in der Computer Vision beteiligt, indem sie eine Wettbewerbsplattform zur Evaluierung von Algorithmen auf einem großen, standardisierten Datensatz bereitstellte. Sie bietet standardisierte Bewertungsmetriken, die Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung fördern. Die Challenge hat die Grenzen dessen, was mit Deep Learning und Computer-Vision-Technologien möglich ist, kontinuierlich erweitert.