Link to this sectionMNIST-Datensatz#
Der MNIST (Modified National Institute of Standards and Technology) Datensatz ist eine große Datenbank mit handgeschriebenen Ziffern, die üblicherweise zum Training verschiedener Bildverarbeitungssysteme und Machine-Learning-Modelle verwendet wird. Er wurde durch das „Neu-Mischen“ der Beispiele aus den ursprünglichen NIST-Datensätzen erstellt und hat sich zu einem Benchmark für die Bewertung der Leistung von Bildklassifizierungs-Algorithmen entwickelt.
Link to this sectionHauptfunktionen#
- MNIST enthält 60.000 Trainingsbilder und 10.000 Testbilder von handgeschriebenen Ziffern.
- Der Datensatz besteht aus Graustufenbildern in der Größe von 28×28 Pixeln.
- Die Bilder sind auf eine Bounding Box von 28×28 Pixeln normalisiert und geglättet (Anti-Aliasing), wodurch Graustufen eingeführt werden.
- MNIST wird häufig für Training und Tests im Bereich Machine Learning eingesetzt, insbesondere für Bildklassifizierungsaufgaben.
Link to this sectionDatensatzstruktur#
Der MNIST-Datensatz ist in zwei Teilmengen unterteilt:
- Trainingsset: Diese Teilmenge enthält 60.000 Bilder von handgeschriebenen Ziffern, die zum Trainieren von Machine-Learning-Modellen verwendet werden.
- Testset: Diese Teilmenge besteht aus 10.000 Bildern, die zum Testen und zum Benchmarking der trainierten Modelle verwendet werden.
Link to this sectionDatensatz-Zugriff#
- Originaldateien: Lade die gzip-Archive aus dem originalen MNIST-Archiv herunter, wenn du direkte Kontrolle über die Vorverarbeitung haben möchtest.
- Ultralytics Loader: Verwende
data="mnist"(oderdata="mnist160"für die unten genannte Teilmenge) in deinem Befehl, und der Datensatz wird automatisch heruntergeladen, in PNG konvertiert und zwischengespeichert.
Jedes Bild im Datensatz ist mit der entsprechenden Ziffer (0-9) beschriftet, was ihn zu einem idealen Datensatz für überwachtes Lernen bei Klassifizierungsaufgaben macht.
Link to this sectionExtended MNIST (EMNIST)#
Extended MNIST (EMNIST) ist ein neuerer Datensatz, der vom NIST entwickelt und veröffentlicht wurde, um der Nachfolger von MNIST zu sein. Während MNIST nur Bilder von handgeschriebenen Ziffern enthielt, beinhaltet EMNIST alle Bilder aus der NIST Special Database 19, einer großen Datenbank mit handgeschriebenen Groß- und Kleinbuchstaben sowie Ziffern. Die Bilder in EMNIST wurden durch denselben Prozess wie die MNIST-Bilder in dasselbe 28×28-Pixel-Format konvertiert. Dementsprechend funktionieren Tools, die mit dem älteren, kleineren MNIST-Datensatz arbeiten, wahrscheinlich auch ohne Änderungen mit EMNIST.
Link to this sectionAnwendungen#
Der MNIST-Datensatz wird häufig zum Training und zur Bewertung von Deep Learning-Modellen bei Bildklassifizierungsaufgaben eingesetzt, wie zum Beispiel Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs) und verschiedenen anderen Machine-Learning-Algorithmen. Das einfache und gut strukturierte Format des Datensatzes macht ihn zu einer unverzichtbaren Ressource für Forscher und Praktiker im Bereich Machine Learning und Computer Vision.
Einige häufige Anwendungen sind:
- Benchmarking neuer Klassifizierungsalgorithmen
- Bildungszwecke zur Vermittlung von Machine-Learning-Konzepten
- Prototyping von Bilderkennungssystemen
- Testen von Modelloptimierungstechniken
Link to this sectionVerwendung#
Um ein CNN-Modell auf dem MNIST-Datensatz für 100 Epochen mit einer Bildgröße von 28×28 zu trainieren, kannst du die folgenden Code-Snippets verwenden. Eine umfassende Liste der verfügbaren Argumente findest du auf der Training-Seite des Modells.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Link to this sectionBeispielbilder und Annotationen#
Der MNIST-Datensatz enthält Graustufenbilder von handgeschriebenen Ziffern und bietet einen gut strukturierten Datensatz für Bildklassifizierungsaufgaben. Hier sind einige Beispiele von Bildern aus dem Datensatz:

Das Beispiel zeigt die Vielfalt und Komplexität der handgeschriebenen Ziffern im MNIST-Datensatz und unterstreicht die Bedeutung eines vielfältigen Datensatzes für das Training robuster Bildklassifizierungsmodelle.
Link to this sectionZitate und Danksagungen#
Wenn du den MNIST-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Paper:
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]},
volume={2},
year={2010}
}Wir möchten Yann LeCun, Corinna Cortes und Christopher J.C. Burges dafür danken, dass sie den MNIST-Datensatz als wertvolle Ressource für die Machine-Learning- und Computer-Vision-Forschungsgemeinschaft erstellt und gepflegt haben. Weitere Informationen über den MNIST-Datensatz und seine Ersteller findest du auf der MNIST-Datensatz-Website.
Link to this sectionMNIST160 Kurze Tests#
Benötigst du einen blitzschnellen Regressionstest? Ultralytics stellt auch data="mnist160" bereit, ein Ausschnitt von 160 Bildern, der die ersten acht Bilder jeder Ziffer (0-9) sowohl aus dem Trainings- als auch aus dem Test-Split enthält. Es spiegelt die Verzeichnisstruktur von MNIST wider, sodass du Datensätze austauschen kannst, ohne andere Argumente zu ändern:
yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28Verwende diese Teilmenge für CI-Pipelines oder Plausibilitätsprüfungen, bevor du dich auf den vollständigen 70.000-Bilder-Datensatz festlegst.
Link to this sectionFAQ#
Link to this sectionWas ist der MNIST-Datensatz und warum ist er im Machine Learning wichtig?#
Der MNIST-Datensatz, oder Modified National Institute of Standards and Technology Datensatz, ist eine weit verbreitete Sammlung handgeschriebener Ziffern, die für das Training und Testen von Bildklassifizierungssystemen entwickelt wurde. Er umfasst 60.000 Trainingsbilder und 10.000 Testbilder, die alle Graustufenbilder in der Größe von 28×28 Pixeln sind. Die Bedeutung des Datensatzes liegt in seiner Rolle als Standard-Benchmark für die Bewertung von Bildklassifizierungsalgorithmen, was Forschern und Ingenieuren hilft, Methoden zu vergleichen und Fortschritte in diesem Bereich nachzuverfolgen.
Link to this sectionWie kann ich Ultralytics YOLO verwenden, um ein Modell auf dem MNIST-Datensatz zu trainieren?#
Um ein Modell mit Ultralytics YOLO auf dem MNIST-Datensatz zu trainieren, kannst du diese Schritte befolgen:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Eine detaillierte Liste der verfügbaren Trainingsargumente findest du auf der Training-Seite.
Link to this sectionWas ist der Unterschied zwischen den Datensätzen MNIST und EMNIST?#
Der MNIST-Datensatz enthält nur handgeschriebene Ziffern, während der Extended MNIST (EMNIST)-Datensatz sowohl Ziffern als auch Groß- und Kleinbuchstaben enthält. EMNIST wurde als Nachfolger von MNIST entwickelt und verwendet dasselbe 28×28-Pixel-Format für die Bilder, wodurch er mit Tools und Modellen kompatibel ist, die für den ursprünglichen MNIST-Datensatz entwickelt wurden. Diese breitere Palette an Zeichen in EMNIST macht ihn für eine größere Vielfalt an Machine-Learning-Anwendungen nützlich.
Link to this sectionKann ich die Ultralytics Platform verwenden, um Modelle auf benutzerdefinierten Datensätzen wie MNIST zu trainieren?#
Ja, du kannst die Ultralytics Platform verwenden, um Modelle auf benutzerdefinierten Datensätzen wie MNIST zu trainieren. Die Ultralytics Platform bietet eine benutzerfreundliche Oberfläche zum Hochladen von Datensätzen, Trainieren von Modellen und Verwalten von Projekten, ohne dass umfangreiche Programmierkenntnisse erforderlich sind. Weitere Details zum Einstieg findest du auf der Seite Ultralytics Platform Quickstart.
Link to this sectionWie schneidet MNIST im Vergleich zu anderen Bildklassifizierungsdatensätzen ab?#
MNIST ist einfacher als viele moderne Datensätze wie CIFAR-10 oder ImageNet, was ihn ideal für Anfänger und schnelle Experimente macht. Während komplexere Datensätze größere Herausforderungen mit Farbbildern und vielfältigen Objektkategorien bieten, bleibt MNIST aufgrund seiner Einfachheit, geringen Dateigröße und historischen Bedeutung für die Entwicklung von Machine-Learning-Algorithmen wertvoll. Für fortgeschrittenere Klassifizierungsaufgaben solltest du Fashion-MNIST in Betracht ziehen, das die gleiche Struktur beibehält, aber Kleidungsstücke anstelle von Ziffern enthält.