Zum Inhalt springen

ImageNet-Datensatz

ImageNet ist eine groß angelegte Datenbank mit kommentierten Bildern, die für die Forschung zur visuellen Objekterkennung entwickelt wurde. Sie enthält mehr als 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets kommentiert ist, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep-Learning-Modellen für Computer-Vision-Aufgaben macht.

ImageNet vortrainierte Modelle

Modell Größe
(Pixel)
acc
top1
acc
top5
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
A100 TensorRT
(ms)
params
(M)
FLOPs
(B) bei 640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

Hauptmerkmale

  • ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien abdecken.
  • Der Datensatz ist entsprechend der WordNet-Hierarchie organisiert, wobei jedes Synset eine Kategorie darstellt.
  • ImageNet wird häufig für das Training und Benchmarking im Bereich Computer Vision verwendet, insbesondere für Bildklassifizierungs- und Objekterkennungsaufgaben.
  • Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat die Bildverarbeitungsforschung entscheidend vorangebracht.

Struktur des Datensatzes

Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie steht für eine Kategorie, und jede Kategorie wird durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben. Die Bilder im ImageNet sind mit einem oder mehreren Synsets versehen und bieten so eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Die jährlich stattfindende ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ist ein wichtiges Ereignis auf dem Gebiet der Computer Vision. Sie bietet Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle an einem großen Datensatz mit standardisierten Bewertungsmaßstäben zu testen. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für die Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.

Anwendungen

Der ImageNet-Datensatz wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen für verschiedene Computer-Vision-Aufgaben wie Bildklassifizierung, Objekterkennung und Objektlokalisierung verwendet. Einige beliebte Deep-Learning-Architekturen wie AlexNet, VGG und ResNet wurden entwickelt und mit dem ImageNet-Datensatz verglichen.

Verwendung

Um ein Deep Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, kannst du die folgenden Codeschnipsel verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Seite Modelltraining.

Beispiel für einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Beispielbilder und Anmerkungen

Der ImageNet-Datensatz enthält hochaufgelöste Bilder aus Tausenden von Objektkategorien und ist ein vielfältiger und umfangreicher Datensatz zum Trainieren und Evaluieren von Computer-Vision-Modellen. Hier sind einige Beispiele für Bilder aus dem Datensatz:

Datensatz Beispielbilder

Das Beispiel zeigt die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und verdeutlicht, wie wichtig ein vielfältiger Datensatz für das Training robuster Computer Vision Modelle ist.

Zitate und Danksagungen

Wenn du den ImageNet-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Dokument:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Wir möchten dem ImageNet-Team unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei dafür danken, dass sie den ImageNet-Datensatz als wertvolle Ressource für die Forschungsgemeinschaft im Bereich des maschinellen Lernens und des Computersehens erstellt und gepflegt haben. Weitere Informationen über den ImageNet-Datensatz und seine Schöpfer findest du auf der ImageNet-Website.

FAQ

Was ist der ImageNet-Datensatz und wie wird er in der Computer Vision verwendet?

Der ImageNet-Datensatz ist eine große Datenbank mit über 14 Millionen hochauflösenden Bildern, die mit WordNet-Synsets kategorisiert sind. Sie wird in der Forschung zur visuellen Objekterkennung, einschließlich der Klassifizierung von Bildern und der Objekterkennung, ausgiebig genutzt. Die Annotationen und die schiere Menge des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Modelle wie AlexNet, VGG und ResNet wurden auf der Grundlage von ImageNet trainiert und getestet, was seine Bedeutung für die Weiterentwicklung der Computer Vision unterstreicht.

Wie kann ich ein vortrainiertes YOLO Modell zur Bildklassifizierung im ImageNet-Datensatz verwenden?

Um ein vortrainiertes Ultralytics YOLO Modell für die Bildklassifizierung im ImageNet-Datensatz zu verwenden, befolge diese Schritte:

Beispiel für einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

Ausführlichere Informationen findest du auf unserer Schulungsseite.

Warum sollte ich die vortrainierten Modelle von Ultralytics YOLOv8 für meine Projekte mit dem ImageNet-Datensatz verwenden?

Ultralytics YOLOv8 Die vortrainierten Modelle bieten Spitzenleistungen in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Computer Vision Aufgaben. Das Modell YOLOv8n-cls zum Beispiel ist mit einer Top-1-Genauigkeit von 69,0 % und einer Top-5-Genauigkeit von 88,3 % für Echtzeitanwendungen optimiert. Vorgefertigte Modelle reduzieren die Rechenressourcen, die für das Training von Grund auf benötigt werden, und beschleunigen die Entwicklungszyklen. Weitere Informationen zu den Leistungskennzahlen der Modelle von YOLOv8 findest du im Abschnitt ImageNet Pretrained Models.

Wie ist der ImageNet-Datensatz aufgebaut und warum ist er wichtig?

Der ImageNet-Datensatz ist nach der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung synonymer Begriffe) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen und ist damit ideal für das Training von Modellen zur Erkennung einer Vielzahl von Objekten. Die Vielfalt und der Reichtum an Annotationen im ImageNet machen es zu einem wertvollen Datensatz für die Entwicklung robuster und verallgemeinerbarer Deep Learning-Modelle. Mehr über diese Organisation erfährst du im Abschnitt Datensatzstruktur.

Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?

Die jährlich stattfindende ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat den Fortschritt in der Computer Vision entscheidend vorangetrieben, indem sie eine wettbewerbsfähige Plattform für die Bewertung von Algorithmen anhand eines großen, standardisierten Datensatzes bietet. Sie bietet standardisierte Bewertungsmetriken und fördert Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung. Der Wettbewerb hat die Grenzen dessen, was mit Deep Learning und Computer Vision Technologien möglich ist, kontinuierlich erweitert.



Erstellt am 2023-11-12, Aktualisiert am 2024-07-04
Autoren: glenn-jocher (8), RizwanMunawar (1)

Kommentare