Link to this sectionMNIST-Datensatz#
Der MNIST (Modified National Institute of Standards and Technology)-Datensatz ist eine große Datenbank handgeschriebener Ziffern, die häufig zum Training verschiedener Bildverarbeitungssysteme und Machine-Learning-Modelle verwendet wird. Er wurde durch das "Neu-Mischen" der Stichproben aus den ursprünglichen Datensätzen des NIST erstellt und ist zu einem Standard für die Bewertung der Leistung von Algorithmen zur Bildklassifizierung geworden.
Link to this sectionHauptfunktionen#
- MNIST enthält 60.000 Trainingsbilder und 10.000 Testbilder von handgeschriebenen Ziffern.
- Der Datensatz besteht aus Graustufenbildern in der Größe von 28×28 Pixeln.
- Die Bilder sind so normalisiert, dass sie in eine 28×28-Pixel-Begrenzungsbox passen, und sind kantengeglättet, wodurch Graustufen eingeführt werden.
- MNIST wird im Bereich des Machine Learning häufig für Training und Tests eingesetzt, insbesondere für Aufgaben der Bildklassifizierung.
Link to this sectionDatensatzstruktur#
Der MNIST-Datensatz ist in zwei Teilmengen unterteilt:
- Trainingsset: Diese Teilmenge enthält 60.000 Bilder handgeschriebener Ziffern, die zum Training von Machine-Learning-Modellen verwendet werden.
- Testset: Diese Teilmenge besteht aus 10.000 Bildern, die zum Testen und zum Benchmarking der trainierten Modelle verwendet werden.
Link to this sectionZugriff auf den Datensatz#
- Originaldateien: Lade die gzip-Archive aus dem ursprünglichen MNIST-Archiv herunter, wenn du direkte Kontrolle über die Vorverarbeitung haben möchtest.
- Ultralytics-Loader: Verwende
data="mnist"(oderdata="mnist160"für die untenstehende Teilmenge) in deinem Befehl; der Datensatz wird dann automatisch heruntergeladen, in PNG konvertiert und zwischengespeichert.
Jedes Bild im Datensatz ist mit der entsprechenden Ziffer (0-9) beschriftet, was es zu einem idealen Datensatz für überwachtes Lernen bei Klassifizierungsaufgaben macht.
Link to this sectionExtended MNIST (EMNIST)#
Extended MNIST (EMNIST) ist ein neuerer Datensatz, der vom NIST entwickelt und veröffentlicht wurde, um der Nachfolger von MNIST zu sein. Während MNIST nur Bilder von handgeschriebenen Ziffern enthielt, umfasst EMNIST alle Bilder aus der NIST Special Database 19, einer großen Datenbank mit handgeschriebenen Groß- und Kleinbuchstaben sowie Ziffern. Die Bilder in EMNIST wurden durch denselben Prozess in das gleiche 28×28-Pixel-Format konvertiert wie die MNIST-Bilder. Dementsprechend funktionieren Tools, die mit dem älteren, kleineren MNIST-Datensatz arbeiten, wahrscheinlich auch unverändert mit EMNIST.
Link to this sectionAnwendungen#
Der MNIST-Datensatz wird häufig zum Trainieren und Evaluieren von Deep-Learning-Modellen bei Bildklassifizierungsaufgaben verwendet, wie etwa Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs) und verschiedenen anderen Machine-Learning-Algorithmen. Das einfache und gut strukturierte Format des Datensatzes macht ihn zu einer wesentlichen Ressource für Forscher und Praktiker im Bereich Machine Learning und Computer Vision.
Einige häufige Anwendungen sind:
- Benchmarking neuer Klassifizierungsalgorithmen
- Bildungszwecke zur Vermittlung von Machine-Learning-Konzepten
- Prototyping von Bilderkennungssystemen
- Testen von Modelloptimierungstechniken
Link to this sectionVerwendung#
Um ein CNN-Modell auf dem MNIST-Datensatz für 100 Epochen mit einer Bildgröße von 28×28 zu trainieren, kannst du die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Training-Seite des Modells.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Link to this sectionBeispielbilder und Annotationen#
Der MNIST-Datensatz enthält Graustufenbilder von handgeschriebenen Ziffern und bietet einen gut strukturierten Datensatz für Bildklassifizierungsaufgaben. Hier sind einige Beispiele für Bilder aus dem Datensatz:

Das Beispiel verdeutlicht die Vielfalt und Komplexität der handgeschriebenen Ziffern im MNIST-Datensatz und unterstreicht, wie wichtig ein vielfältiger Datensatz für das Training robuster Bildklassifizierungsmodelle ist.
Link to this sectionZitate und Danksagungen#
Wenn du den MNIST-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Dokument:
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]},
volume={2},
year={2010}
}Wir möchten Yann LeCun, Corinna Cortes und Christopher J.C. Burges dafür danken, dass sie den MNIST-Datensatz als wertvolle Ressource für die Machine-Learning- und Computer-Vision-Forschungsgemeinschaft erstellt und gepflegt haben. Weitere Informationen zum MNIST-Datensatz und seinen Erstellern findest du auf der Website zum MNIST-Datensatz.
Link to this sectionMNIST160 Schnelle Tests#
Benötigst du einen blitzschnellen Regressionstest? Ultralytics bietet auch data="mnist160", einen Ausschnitt von 160 Bildern, der die ersten acht Bilder jeder Ziffer (0-9) sowohl aus den Trainings- als auch aus den Test-Splits enthält. Er spiegelt die MNIST-Verzeichnisstruktur wider, sodass du Datensätze austauschen kannst, ohne andere Argumente ändern zu müssen:
yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28Verwende diese Teilmenge für CI-Pipelines oder Plausibilitätsprüfungen, bevor du dich für den vollständigen Datensatz mit 70.000 Bildern entscheidest.
Link to this sectionFAQ#
Link to this sectionWas ist der MNIST-Datensatz und warum ist er für Machine Learning wichtig?#
Der MNIST-Datensatz, oder Modified National Institute of Standards and Technology-Datensatz, ist eine weit verbreitete Sammlung handgeschriebener Ziffern, die für das Training und Testen von Bildklassifizierungssystemen entwickelt wurde. Er umfasst 60.000 Trainingsbilder und 10.000 Testbilder, die alle Graustufenbilder in der Größe 28×28 Pixel sind. Die Bedeutung des Datensatzes liegt in seiner Rolle als Standard-Benchmark für die Bewertung von Bildklassifizierungsalgorithmen, was Forschern und Ingenieuren hilft, Methoden zu vergleichen und Fortschritte auf dem Gebiet nachzuverfolgen.
Link to this sectionWie kann ich Ultralytics YOLO verwenden, um ein Modell auf dem MNIST-Datensatz zu trainieren?#
Um ein Modell mit Ultralytics YOLO auf dem MNIST-Datensatz zu trainieren, kannst du diese Schritte befolgen:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Eine detaillierte Liste der verfügbaren Trainingsargumente findest du auf der Training-Seite.
Link to this sectionWas ist der Unterschied zwischen den Datensätzen MNIST und EMNIST?#
Der MNIST-Datensatz enthält nur handgeschriebene Ziffern, während der Extended MNIST (EMNIST)-Datensatz sowohl Ziffern als auch Groß- und Kleinbuchstaben enthält. EMNIST wurde als Nachfolger von MNIST entwickelt und verwendet dasselbe 28×28-Pixel-Format für die Bilder, wodurch es mit Tools und Modellen kompatibel ist, die für den ursprünglichen MNIST-Datensatz konzipiert wurden. Diese breitere Auswahl an Zeichen in EMNIST macht ihn für eine größere Vielfalt von Machine-Learning-Anwendungen nützlich.
Link to this sectionKann ich die Ultralytics Platform verwenden, um Modelle mit eigenen Datensätzen wie MNIST zu trainieren?#
Ja, du kannst die Ultralytics Platform verwenden, um Modelle mit eigenen Datensätzen wie MNIST zu trainieren. Die Ultralytics Platform bietet eine benutzerfreundliche Oberfläche zum Hochladen von Datensätzen, Trainieren von Modellen und Verwalten von Projekten, ohne dass umfassende Programmierkenntnisse erforderlich sind. Weitere Details zum Einstieg findest du auf der Seite Ultralytics Platform Quickstart.
Link to this sectionWie schneidet MNIST im Vergleich zu anderen Bildklassifizierungsdatensätzen ab?#
MNIST ist einfacher als viele moderne Datensätze wie CIFAR-10 oder ImageNet, was es ideal für Anfänger und schnelle Experimente macht. Während komplexere Datensätze mit Farbbildern und vielfältigen Objektkategorien größere Herausforderungen bieten, bleibt MNIST aufgrund seiner Einfachheit, geringen Dateigröße und historischen Bedeutung für die Entwicklung von Machine-Learning-Algorithmen wertvoll. Für fortgeschrittenere Klassifizierungsaufgaben solltest du Fashion-MNIST in Betracht ziehen, das die gleiche Struktur beibehält, aber Kleidungsstücke anstelle von Ziffern enthält.