Zum Inhalt springen

ImageNet-Datensatz

ImageNet ist eine umfangreiche Datenbank mit annotierten Bildern, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep Learning-Modellen in Computer Vision-Aufgaben macht.

ImageNet-Vorabtrainierte Modelle

Modell Größe
(Pixel)
acc
top1
acc
top5
Geschwindigkeit
CPU ONNX
(ms)
Geschwindigkeit
T4 TensorRT10
(ms)
Parameter
(M)
FLOPs
(B) bei 224
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 0.5
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 1.6
YOLO11m-cls 224 77.3 93.9 17,2 ± 0,4 2,0 ± 0,0 10.4 5.0
YOLO11l-cls 224 78.3 94.3 23,2 ± 0,3 2,8 ± 0,0 12.9 6.2
YOLO11x-cls 224 79.5 94.9 41,4 ± 0,9 3,8 ± 0,0 28.4 13.7

Hauptmerkmale

  • ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien umfassen.
  • Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jede Synset eine Kategorie darstellt.
  • ImageNet wird häufig für das Training und Benchmarking im Bereich Computer Vision verwendet, insbesondere für Bildklassifizierung und Objekterkennung.
  • Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) hat maßgeblich zur Weiterentwicklung der Computer-Vision-Forschung beigetragen.

Dataset-Struktur

Der ImageNet-Datensatz ist anhand der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie repräsentiert eine Kategorie, und jede Kategorie wird durch ein Synset (eine Sammlung von Synonymen) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine umfangreiche Ressource für das Trainieren von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen darstellt.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war ein wichtiges Ereignis im Bereich der Computer Vision. Sie hat Forschern und Entwicklern eine Plattform geboten, um ihre Algorithmen und Modelle anhand eines groß angelegten Datensatzes mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu bedeutenden Fortschritten bei der Entwicklung von Deep-Learning-Modellen für Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.

Anwendungen

Der ImageNet-Datensatz wird häufig für das Training und die Evaluierung von Deep-Learning-Modellen in verschiedenen Computer-Vision-Aufgaben verwendet, wie z. B. Bildklassifizierung, Objekterkennung und Objektlokalisierung. Einige populäre Deep-Learning-Architekturen, wie AlexNet, VGG und ResNet, wurden mit dem ImageNet-Datensatz entwickelt und bewertet.

Nutzung

Um ein Deep-Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, können Sie die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente finden Sie auf der Seite Training des Modells.

Trainingsbeispiel

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

sample_images und Anmerkungen

Der ImageNet-Datensatz enthält hochauflösende Bilder, die Tausende von Objektkategorien umfassen und einen vielfältigen und umfangreichen Datensatz für das Training und die Evaluierung von Computer-Vision-Modellen darstellen. Hier sind einige Beispiele für Bilder aus dem Datensatz:

Datensatz- sample_images

Das Beispiel veranschaulicht die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und unterstreicht die Bedeutung eines vielfältigen Datensatzes für das Training robuster Computer-Vision-Modelle.

Zitate und Danksagungen

Wenn Sie den ImageNet-Datensatz in Ihrer Forschungs- oder Entwicklungsarbeit verwenden, zitieren Sie bitte das folgende Paper:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Wir möchten dem ImageNet-Team unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei für die Erstellung und Pflege des ImageNet-Datensatzes als wertvolle Ressource für die Machine-Learning- und Computer-Vision-Forschungsgemeinschaft danken. Weitere Informationen über den ImageNet-Datensatz und seine Urheber finden Sie auf der ImageNet-Website.

FAQ

Was ist der ImageNet-Datensatz und wie wird er in der Computer Vision eingesetzt?

Der ImageNet-Datensatz ist eine umfangreiche Datenbank mit über 14 Millionen hochauflösenden Bildern, die mithilfe von WordNet-Synsets kategorisiert sind. Er wird häufig in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und der schiere Umfang des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere Modelle wie AlexNet, VGG und ResNet wurden mit ImageNet trainiert und bewertet, was seine Rolle bei der Weiterentwicklung des maschinellen Sehens unterstreicht.

Wie kann ich ein vortrainiertes YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz verwenden?

Um ein vortrainiertes Ultralytics YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz zu verwenden, führen Sie die folgenden Schritte aus:

Trainingsbeispiel

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Weitere ausführliche Anweisungen zum Training finden Sie auf unserer Trainingsseite.

Warum sollte ich die vortrainierten Ultralytics YOLO11-Modelle für meine ImageNet-Datensatzprojekte verwenden?

Die vortrainierten Ultralytics YOLO11 Modelle bieten eine hochmoderne Leistung in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Aufgaben der Computer Vision. Zum Beispiel ist das YOLO11n-cls Modell mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % für Echtzeit-Anwendungen optimiert. Vortrainierte Modelle reduzieren die für das Training von Grund auf benötigten Rechenressourcen und beschleunigen die Entwicklungszyklen. Erfahren Sie mehr über die Leistungsmetriken von YOLO11 Modellen im Abschnitt ImageNet Pretrained Models.

Wie ist der ImageNet-Datensatz strukturiert und warum ist er so wichtig?

Das ImageNet-Dataset ist anhand der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung von Synonymen) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen und ist somit ideal für das Trainieren von Modellen zur Erkennung einer Vielzahl von Objekten. Die Vielfalt und der Annotationsreichtum von ImageNet machen es zu einem wertvollen Dataset für die Entwicklung robuster und generalisierbarer Deep-Learning-Modelle. Weitere Informationen zu dieser Organisation finden Sie im Abschnitt Dataset Structure.

Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?

Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war entscheidend für die Förderung von Fortschritten im Bereich Computer Vision, indem sie eine wettbewerbsfähige Plattform zur Bewertung von Algorithmen auf einem großen, standardisierten Datensatz bot. Sie bietet standardisierte Bewertungsmetriken und fördert Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung. Die Challenge hat kontinuierlich die Grenzen dessen verschoben, was mit Deep Learning und Computer-Vision-Technologien möglich ist.



📅 Vor 1 Jahr erstellt ✏️ Vor 5 Monaten aktualisiert

Kommentare