ImageNet-Datensatz

Q: What is the ImageNet dataset and how is it used in computer vision?

Der ImageNet-Datensatz ist eine große Datenbank, die aus über 14 Millionen hochauflösenden Bildern besteht, die mithilfe von WordNet-Synsets kategorisiert sind. Er wird ausgiebig in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das schiere Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere wurden Modelle wie AlexNet, VGG und ResNet mit ImageNet trainiert und bewertet, was seine Rolle bei der Weiterentwicklung der Computer Vision unterstreicht.

Q: Why should I use the Ultralytics YOLO26 pretrained models for my ImageNet dataset projects?

Ultralytics YOLO26 vortrainierte Modelle bieten modernste Leistung in Bezug auf Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das YOLO26n-cls-Modell mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren die für das Training von Grund auf erforderlichen Rechenressourcen und beschleunigen Entwicklungszyklen. Erfahren Sie mehr über die Leistungsmetriken von YOLO26-Modellen im Abschnitt ImageNet Pretrained Models.

ImageNet ist eine umfangreiche Datenbank mit annotierten Bildern, die für die Forschung im Bereich der visuellen Objekterkennung entwickelt wurde. Sie enthält über 14 Millionen Bilder, wobei jedes Bild mit WordNet-Synsets annotiert ist, was sie zu einer der umfangreichsten Ressourcen für das Training von Deep-Learning-Modellen in Computer-Vision-Aufgaben macht.

ImageNet-vortrainierte Modelle

Modell	Größe ^(Pixel)	acc ^top1	acc ^top5	Geschwindigkeit ^{CPU ONNX (ms)}	Geschwindigkeit ^{T4 TensorRT10 (ms)}	Parameter ^(M)	FLOPs ^{(B) bei 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Hauptmerkmale

ImageNet enthält über 14 Millionen hochauflösende Bilder, die Tausende von Objektkategorien umfassen.
Der Datensatz ist gemäß der WordNet-Hierarchie organisiert, wobei jede Synset eine Kategorie darstellt.
ImageNet wird im Bereich der Computer Vision weit verbreitet für Training und Benchmarking eingesetzt, insbesondere für Bildklassifizierungs- und Objekterkennungsaufgaben.
Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war maßgeblich für die Weiterentwicklung der Computer-Vision-Forschung.

Dataset-Struktur

Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert. Jeder Knoten in der Hierarchie stellt eine Kategorie dar, und jede Kategorie wird durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben. Die Bilder in ImageNet sind mit einem oder mehreren Synsets annotiert, was eine reichhaltige Ressource für das Training von Modellen zur Erkennung verschiedener Objekte und ihrer Beziehungen darstellt.

ImageNet Large Scale Visual Recognition Challenge (ILSVRC)

Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war ein wichtiges Ereignis im Bereich der Computer Vision. Sie bot Forschern und Entwicklern eine Plattform, um ihre Algorithmen und Modelle auf einem großen Datensatz mit standardisierten Bewertungsmetriken zu evaluieren. Die ILSVRC hat zu erheblichen Fortschritten bei der Entwicklung von Deep-Learning-Modellen für die Bildklassifizierung, Objekterkennung und andere Computer-Vision-Aufgaben geführt.

Anwendungen

Der ImageNet-Datensatz wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen in verschiedenen Computer-Vision-Aufgaben eingesetzt, wie Bildklassifizierung, Objekterkennung und Objektlokalisierung. Einige populäre Deep-Learning-Architekturen, wie AlexNet, VGG und ResNet, wurden mithilfe des ImageNet-Datensatzes entwickelt und bewertet.

Nutzung

Um ein Deep-Learning-Modell auf dem ImageNet-Datensatz für 100 Epochen mit einer Bildgröße von 224x224 zu trainieren, können Sie die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente finden Sie auf der Trainingsseite des Modells.

Trainingsbeispiel

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

sample_images und Anmerkungen

Der ImageNet-Datensatz enthält hochauflösende Bilder, die Tausende von Objektkategorien umfassen, und bietet einen vielfältigen und umfangreichen Datensatz zum Trainieren und Evaluieren von Computer-Vision-Modellen. Hier sind einige Beispiele von Bildern aus dem Datensatz:

Beispielbilder aus dem ImageNet -Klassifizierungsdatensatz

Das Beispiel veranschaulicht die Vielfalt und Komplexität der Bilder im ImageNet-Datensatz und unterstreicht die Bedeutung eines vielfältigen Datensatzes für das Training robuster Computer-Vision-Modelle.

Zitate und Danksagungen

Wenn Sie den ImageNet-Datensatz in Ihrer Forschungs- oder Entwicklungsarbeit verwenden, zitieren Sie bitte das folgende Paper:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Wir möchten dem ImageNet-Team, unter der Leitung von Olga Russakovsky, Jia Deng und Li Fei-Fei, für die Erstellung und Pflege des ImageNet-Datensatzes als wertvolle Ressource für die Machine-Learning- und Computer-Vision-Forschungsgemeinschaft danken. Weitere Informationen zum ImageNet-Datensatz und seinen Erstellern finden Sie auf der ImageNet-Website.

FAQ

Was ist der ImageNet-Datensatz und wie wird er in der Computer Vision eingesetzt?

Der ImageNet-Datensatz ist eine großskalige Datenbank, die über 14 Millionen hochauflösende Bilder enthält, die mithilfe von WordNet-Synsets kategorisiert sind. Er wird umfassend in der Forschung zur visuellen Objekterkennung eingesetzt, einschließlich Bildklassifizierung und Objekterkennung. Die Annotationen und das schiere Volumen des Datensatzes bieten eine reichhaltige Ressource für das Training von Deep-Learning-Modellen. Insbesondere Modelle wie AlexNet, VGG und ResNet wurden mit ImageNet trainiert und gebenchmarkt, was seine Rolle bei der Weiterentwicklung der Computer Vision unterstreicht.

Wie kann ich ein vortrainiertes YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz verwenden?

Um ein vortrainiertes Ultralytics YOLO-Modell für die Bildklassifizierung auf dem ImageNet-Datensatz zu verwenden, befolgen Sie diese Schritte:

Trainingsbeispiel

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Weitere ausführliche Anweisungen zum Training finden Sie auf unserer Trainingsseite.

Warum sollte ich die vortrainierten Ultralytics YOLO26 Modelle für meine ImageNet-Datensatzprojekte verwenden?

Vortrainierte Ultralytics YOLO26 Modelle bieten modernste Leistung hinsichtlich Geschwindigkeit und Genauigkeit für verschiedene Computer-Vision-Aufgaben. Zum Beispiel ist das YOLO26n-cls-Modell mit einer Top-1-Genauigkeit von 70,0 % und einer Top-5-Genauigkeit von 89,4 % für Echtzeitanwendungen optimiert. Vortrainierte Modelle reduzieren die für das Training von Grund auf erforderlichen Rechenressourcen und beschleunigen Entwicklungszyklen. Erfahren Sie mehr über die Leistungsmetriken der YOLO26 Modelle im Abschnitt Vortrainierte ImageNet Modelle.

Wie ist der ImageNet-Datensatz strukturiert und warum ist er wichtig?

Der ImageNet-Datensatz ist mithilfe der WordNet-Hierarchie organisiert, wobei jeder Knoten in der Hierarchie eine Kategorie darstellt, die durch ein Synset (eine Sammlung von synonymen Begriffen) beschrieben wird. Diese Struktur ermöglicht detaillierte Annotationen, was sie ideal macht, um Modelle zum Erkennen einer Vielzahl von Objekten zu trainieren. Die Vielfalt und der Reichtum an Annotationen von ImageNet machen es zu einem wertvollen Datensatz für die Entwicklung robuster und generalisierbarer Deep-Learning-Modelle. Mehr über diese Organisation finden Sie im Abschnitt Datenstruktur.

Welche Rolle spielt die ImageNet Large Scale Visual Recognition Challenge (ILSVRC) in der Computer Vision?

Die jährliche ImageNet Large Scale Visual Recognition Challenge (ILSVRC) war maßgeblich an der Förderung von Fortschritten in der Computer Vision beteiligt, indem sie eine Wettbewerbsplattform zur Evaluierung von Algorithmen auf einem großen, standardisierten Datensatz bereitstellte. Sie bietet standardisierte Bewertungsmetriken, die Innovation und Entwicklung in Bereichen wie Bildklassifizierung, Objekterkennung und Bildsegmentierung fördern. Die Challenge hat die Grenzen dessen, was mit Deep Learning und Computer-Vision-Technologien möglich ist, kontinuierlich erweitert.

📅 Erstellt vor 2 Jahren ✏️ Aktualisiert vor 3 Monaten