Zum Inhalt springen

MNIST-Datensatz

Der MNIST-Datensatz (Modified National Institute of Standards and Technology) ist eine große Datenbank mit handgeschriebenen Ziffern, die hĂ€ufig zum Training verschiedener Bildverarbeitungssysteme und maschineller Lernmodelle verwendet wird. Er wurde durch "Neuvermischung" der Stichproben aus den ursprĂŒnglichen NIST-DatensĂ€tzen erstellt und hat sich zu einem Maßstab fĂŒr die Bewertung der Leistung von Bildklassifizierungsalgorithmen entwickelt.

Hauptmerkmale

  • MNIST enthĂ€lt 60.000 Trainingsbilder und 10.000 Testbilder von handgeschriebenen Ziffern.
  • Der Datensatz umfasst Graustufenbilder der GrĂ¶ĂŸe 28x28 Pixel.
  • Die Bilder werden so normalisiert, dass sie in ein 28x28 Pixel großes Begrenzungsfeld passen, und mit Graustufen versehen.
  • MNIST wird hĂ€ufig zum Trainieren und Testen im Bereich des maschinellen Lernens verwendet, insbesondere fĂŒr Bildklassifizierungsaufgaben.

Struktur des Datensatzes

Der MNIST-Datensatz wird in zwei Teilmengen aufgeteilt:

  1. Training Set: Dieser Teilsatz enthÀlt 60.000 Bilder von handgeschriebenen Ziffern, die zum Trainieren von maschinellen Lernmodellen verwendet werden.
  2. Testsatz: Diese Teilmenge besteht aus 10.000 Bildern, die zum Testen und Vergleichen der trainierten Modelle verwendet werden.

Erweiterte MNIST (EMNIST)

Extended MNIST (EMNIST) ist ein neuerer Datensatz, der vom NIST als Nachfolger von MNIST entwickelt und veröffentlicht wurde. WĂ€hrend MNIST nur Bilder von handgeschriebenen Ziffern enthielt, umfasst EMNIST alle Bilder der NIST Special Database 19, einer großen Datenbank mit handgeschriebenen Groß- und Kleinbuchstaben sowie Ziffern. Die Bilder in EMNIST wurden mit demselben Verfahren in das gleiche 28x28-Pixel-Format umgewandelt wie die MNIST-Bilder. Dementsprechend werden Tools, die mit dem Ă€lteren, kleineren MNIST-Datensatz arbeiten, wahrscheinlich unverĂ€ndert mit EMNIST funktionieren.

Anwendungen

Der MNIST-Datensatz wird hĂ€ufig zum Trainieren und Bewerten von Deep-Learning-Modellen fĂŒr Bildklassifizierungsaufgaben verwendet, z. B. von Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs) und verschiedenen anderen Algorithmen fĂŒr maschinelles Lernen. Das einfache und gut strukturierte Format des Datensatzes macht ihn zu einer unverzichtbaren Ressource fĂŒr Forscher/innen und Praktiker/innen in den Bereichen maschinelles Lernen und Computer Vision.

Verwendung

Um ein CNN-Modell auf dem MNIST-Datensatz fĂŒr 100 Epochen mit einer BildgrĂ¶ĂŸe von 32x32 zu trainieren, kannst du die folgenden Codeschnipsel verwenden. Eine umfassende Liste der verfĂŒgbaren Argumente findest du auf der Seite Modelltraining.

Beispiel fĂŒr einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Beispielbilder und Anmerkungen

Der MNIST-Datensatz enthĂ€lt Graustufenbilder von handgeschriebenen Ziffern und ist ein gut strukturierter Datensatz fĂŒr Bildklassifizierungsaufgaben. Hier sind einige Beispiele fĂŒr Bilder aus dem Datensatz:

Datensatz Beispielbild

Das Beispiel zeigt die Vielfalt und KomplexitĂ€t der handgeschriebenen Ziffern im MNIST-Datensatz und verdeutlicht, wie wichtig ein vielfĂ€ltiger Datensatz fĂŒr das Training robuster Bildklassifizierungsmodelle ist.

Zitate und Danksagungen

Wenn du den MNIST-Datensatz in deinem

Forschungs- oder Entwicklungsarbeit, zitiere bitte das folgende Papier:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Wir danken Yann LeCun, Corinna Cortes und Christopher J.C. Burges fĂŒr die Erstellung und Pflege des MNIST-Datensatzes, der eine wertvolle Ressource fĂŒr die Forschungsgemeinschaft im Bereich des maschinellen Lernens und der Computer Vision darstellt. Weitere Informationen ĂŒber den MNIST-Datensatz und seine Schöpfer findest du auf der Website des MNIST-Datensatzes.

FAQ

Was ist der MNIST-Datensatz und warum ist er fĂŒr das maschinelle Lernen wichtig?

Der MNIST-Datensatz (Modified National Institute of Standards and Technology Dataset) ist eine weit verbreitete Sammlung handgeschriebener Ziffern, die zum Trainieren und Testen von Bildklassifizierungssystemen verwendet wird. Er umfasst 60.000 Trainingsbilder und 10.000 Testbilder, alle in Graustufen und mit einer GrĂ¶ĂŸe von 28x28 Pixeln. Die Bedeutung des Datensatzes liegt in seiner Rolle als Standardmaßstab fĂŒr die Bewertung von Bildklassifizierungsalgorithmen, der Forschern und Ingenieuren hilft, Methoden zu vergleichen und Fortschritte in diesem Bereich zu verfolgen.

Wie kann ich Ultralytics YOLO verwenden, um ein Modell fĂŒr den MNIST-Datensatz zu trainieren?

Um ein Modell auf dem MNIST-Datensatz mit Ultralytics YOLO zu trainieren, kannst du die folgenden Schritte ausfĂŒhren:

Beispiel fĂŒr einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Eine detaillierte Liste der verfĂŒgbaren Trainingsargumente findest du auf der Seite Training.

Was ist der Unterschied zwischen den MNIST- und EMNIST-DatensÀtzen?

Der MNIST-Datensatz enthĂ€lt nur handgeschriebene Ziffern, wĂ€hrend der erweiterte MNIST-Datensatz (EMNIST) sowohl Ziffern als auch Groß- und Kleinbuchstaben enthĂ€lt. EMNIST wurde als Nachfolger von MNIST entwickelt und verwendet dasselbe 28x28-Pixel-Format fĂŒr die Bilder, wodurch es mit den Tools und Modellen kompatibel ist, die fĂŒr den ursprĂŒnglichen MNIST-Datensatz entwickelt wurden. Die grĂ¶ĂŸere Bandbreite an Zeichen in EMNIST macht sie fĂŒr eine Vielzahl von Anwendungen des maschinellen Lernens nĂŒtzlich.

Kann ich Ultralytics HUB nutzen, um Modelle auf benutzerdefinierten DatensÀtzen wie MNIST zu trainieren?

Ja, du kannst Ultralytics HUB nutzen, um Modelle auf benutzerdefinierten DatensĂ€tzen wie MNIST zu trainieren. Ultralytics HUB bietet eine benutzerfreundliche OberflĂ€che zum Hochladen von DatensĂ€tzen, zum Trainieren von Modellen und zum Verwalten von Projekten, ohne dass du ĂŒber umfangreiche Programmierkenntnisse verfĂŒgen musst. Weitere Informationen zu den ersten Schritten findest du auf der Seite Ultralytics HUB Quickstart.



Erstellt am 2023-11-12, Aktualisiert am 2024-07-04
Autoren: glenn-jocher (6)

Kommentare