MNIST-Datensatz
Der MNIST-Datensatz (Modified National Institute of Standards and Technology) ist eine große Datenbank mit handgeschriebenen Ziffern, die häufig zum Training verschiedener Bildverarbeitungssysteme und maschineller Lernmodelle verwendet wird. Er wurde durch "Neuvermischung" der Stichproben aus den ursprünglichen NIST-Datensätzen erstellt und hat sich zu einem Maßstab für die Bewertung der Leistung von Bildklassifizierungsalgorithmen entwickelt.
Hauptmerkmale
- MNIST enthält 60.000 Trainingsbilder und 10.000 Testbilder von handgeschriebenen Ziffern.
- Der Datensatz umfasst Graustufenbilder der Größe 28x28 Pixel.
- Die Bilder werden so normalisiert, dass sie in ein 28x28 Pixel großes Begrenzungsfeld passen, und mit Graustufen versehen.
- MNIST wird häufig zum Trainieren und Testen im Bereich des maschinellen Lernens verwendet, insbesondere für Bildklassifizierungsaufgaben.
Struktur des Datensatzes
Der MNIST-Datensatz wird in zwei Teilmengen aufgeteilt:
- Training Set: Dieser Teilsatz enthält 60.000 Bilder von handgeschriebenen Ziffern, die zum Trainieren von maschinellen Lernmodellen verwendet werden.
- Testsatz: Diese Teilmenge besteht aus 10.000 Bildern, die zum Testen und Vergleichen der trainierten Modelle verwendet werden.
Erweiterte MNIST (EMNIST)
Extended MNIST (EMNIST) ist ein neuerer Datensatz, der vom NIST als Nachfolger von MNIST entwickelt und veröffentlicht wurde. Während MNIST nur Bilder von handgeschriebenen Ziffern enthielt, umfasst EMNIST alle Bilder der NIST Special Database 19, einer großen Datenbank mit handgeschriebenen Groß- und Kleinbuchstaben sowie Ziffern. Die Bilder in EMNIST wurden mit demselben Verfahren in das gleiche 28x28-Pixel-Format umgewandelt wie die MNIST-Bilder. Dementsprechend werden Tools, die mit dem älteren, kleineren MNIST-Datensatz arbeiten, wahrscheinlich unverändert mit EMNIST funktionieren.
Anwendungen
Der MNIST-Datensatz wird häufig zum Trainieren und Bewerten von Deep-Learning-Modellen für Bildklassifizierungsaufgaben verwendet, z. B. von Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs) und verschiedenen anderen Algorithmen für maschinelles Lernen. Das einfache und gut strukturierte Format des Datensatzes macht ihn zu einer unverzichtbaren Ressource für Forscher/innen und Praktiker/innen in den Bereichen maschinelles Lernen und Computer Vision.
Verwendung
Um ein CNN-Modell auf dem MNIST-Datensatz für 100 Epochen mit einer Bildgröße von 32x32 zu trainieren, kannst du die folgenden Codeschnipsel verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Seite Modelltraining.
Beispiel für einen Zug
Beispielbilder und Anmerkungen
Der MNIST-Datensatz enthält Graustufenbilder von handgeschriebenen Ziffern und ist ein gut strukturierter Datensatz für Bildklassifizierungsaufgaben. Hier sind einige Beispiele für Bilder aus dem Datensatz:
Das Beispiel zeigt die Vielfalt und Komplexität der handgeschriebenen Ziffern im MNIST-Datensatz und verdeutlicht, wie wichtig ein vielfältiger Datensatz für das Training robuster Bildklassifizierungsmodelle ist.
Zitate und Danksagungen
Wenn du den MNIST-Datensatz in deinem
Forschungs- oder Entwicklungsarbeit, zitiere bitte das folgende Papier:
Wir danken Yann LeCun, Corinna Cortes und Christopher J.C. Burges für die Erstellung und Pflege des MNIST-Datensatzes, der eine wertvolle Ressource für die Forschungsgemeinschaft im Bereich des maschinellen Lernens und der Computer Vision darstellt. Weitere Informationen über den MNIST-Datensatz und seine Schöpfer findest du auf der Website des MNIST-Datensatzes.