ImageNet
ImageNet ist eine umfangreiche Datenbank mit annotierten Bildern, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep-Learning-Modellen in Computer-Vision-Aufgaben macht.
ImageNet vortrainierte Modelle
| Modell | Größe (Pixel) | acc top1 | acc top5 | Geschwindigkeit CPU ONNX (ms) | Geschwindigkeit T4 TensorRT10 (ms) | Parameter (M) | FLOPs (B) bei 224 |
|---|---|---|---|---|---|---|---|
| YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO11m-cls | 224 | 77.3 | 93.9 | 17,2 ± 0,4 | 2,0 ± 0,0 | 11.6 | 4.9 |
| YOLO11l-cls | 224 | 78.3 | 94.3 | 23,2 ± 0,3 | 2,8 ± 0,0 | 14.1 | 6.2 |
| YOLO11x-cls | 224 | 79.5 | 94.9 | 41,4 ± 0,9 | 3,8 ± 0,0 | 29.6 | 13.6 |
Hauptmerkmale
- ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien abdecken.
- Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jede Synset eine Kategorie darstellt.
- ImageNet wird in großem Umfang für das Training und Benchmarking im Bereich der Computer Vision verwendet, insbesondere für Bildklassifizierungs- und Objekterkennungsaufgaben.
- Die jährlich stattfindende ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat die Bildverarbeitungsforschung entscheidend vorangebracht.
Dataset-Struktur
Der ImageNet ist anhand der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie steht für eine Kategorie, und jede Kategorie wird durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets versehen und stellen eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen dar.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
Die jährlich stattfindende ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ist ein wichtiges Ereignis im Bereich der Computer Vision. Sie bietet Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle anhand eines großen Datensatzes mit standardisierten Bewertungsmaßstäben zu bewerten. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für die Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.
Anwendungen
Der ImageNet wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen für verschiedene Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und Objektlokalisierung verwendet. Einige beliebte Deep-Learning-Architekturen, wie AlexNet, VGG und ResNet, wurden entwickelt und mit dem ImageNet verglichen.
Nutzung
Um ein Deep Learning-Modell auf dem ImageNet für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, können Sie die folgenden Codeschnipsel verwenden. Eine umfassende Liste der verfügbaren Argumente finden Sie auf der Seite Modelltraining.
Trainingsbeispiel
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
sample_images und Anmerkungen
Der ImageNet enthält hochauflösende Bilder, die Tausende von Objektkategorien abdecken und somit einen vielfältigen und umfangreichen Datensatz für das Training und die Bewertung von Computer-Vision-Modellen darstellen. Hier sind einige Beispiele von Bildern aus dem Datensatz:

Das Beispiel zeigt die Vielfalt und Komplexität der Bilder im ImageNet und unterstreicht die Bedeutung eines vielfältigen Datensatzes für das Training robuster Computer-Vision-Modelle.
Zitate und Danksagungen
Wenn Sie den ImageNet in Ihrer Forschungs- oder Entwicklungsarbeit verwenden, zitieren Sie bitte das folgende Dokument:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
Wir möchten dem ImageNet unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei für die Erstellung und Pflege des ImageNet danken, der eine wertvolle Ressource für die Forschungsgemeinschaft im Bereich des maschinellen Lernens und der Computer Vision darstellt. Weitere Informationen über den ImageNet und seine Schöpfer finden Sie auf der ImageNet .
FAQ
Was ist der ImageNet und wie wird er in der Computer Vision verwendet?
Der ImageNet ist eine groß angelegte Datenbank mit über 14 Millionen hochauflösenden Bildern, die mit WordNet-Synsets kategorisiert sind. Er wird in der Forschung zur visuellen Objekterkennung, einschließlich Bildklassifizierung und Objekterkennung, ausgiebig genutzt. Die Annotationen und das schiere Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Modelle wie AlexNet, VGG und ResNet wurden auf der Grundlage von ImageNet trainiert und getestet, was die Bedeutung dieses Datensatzes für die Weiterentwicklung der Computer Vision verdeutlicht.
Wie kann ich ein vortrainiertes YOLO zur Bildklassifizierung im ImageNet verwenden?
Führen Sie die folgenden Schritte aus, um ein vortrainiertes Ultralytics YOLO für die Bildklassifizierung im ImageNet zu verwenden:
Trainingsbeispiel
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Weitere ausführliche Anweisungen zum Training finden Sie auf unserer Trainingsseite.
Warum sollte ich die vortrainierten Ultralytics YOLO11 für meine ImageNet verwenden?
Die vortrainiertenYOLO11 Ultralytics bieten modernste Leistung in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Das Modell YOLO11n-cls mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % ist beispielsweise für Echtzeitanwendungen optimiert. Vorgefertigte Modelle reduzieren die für das Training von Grund auf erforderlichen Rechenressourcen und beschleunigen die Entwicklungszyklen. Erfahren Sie mehr über die Leistungsmetriken der YOLO11 im AbschnittImageNet Pretrained Models.
Wie ist der ImageNet aufgebaut und warum ist er wichtig?
Der ImageNet ist anhand der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen und ist damit ideal für das Training von Modellen zur Erkennung einer Vielzahl von Objekten. Die Vielfalt und der Anmerkungsreichtum von ImageNet machen es zu einem wertvollen Datensatz für die Entwicklung robuster und verallgemeinerbarer Deep-Learning-Modelle. Weitere Informationen über diese Organisation finden Sie im Abschnitt Datensatzstruktur.
Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?
Die jährlich stattfindende ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat entscheidend zu Fortschritten in der Computer Vision beigetragen, indem sie eine wettbewerbsfähige Plattform für die Bewertung von Algorithmen anhand eines großen, standardisierten Datensatzes bietet. Sie bietet standardisierte Bewertungsmetriken und fördert Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung. Die Herausforderung hat die Grenzen dessen, was mit Deep Learning und Computer Vision Technologien möglich ist, kontinuierlich erweitert.