Zum Inhalt springen

MNIST-Datensatz

Der MNIST-Datensatz (Modified National Institute of Standards and Technology) ist eine große Datenbank mit handgeschriebenen Ziffern, die häufig zum Training verschiedener Bildverarbeitungssysteme und maschineller Lernmodelle verwendet wird. Er wurde durch "Neuvermischung" der Stichproben aus den ursprünglichen NIST-Datensätzen erstellt und hat sich zu einem Maßstab für die Bewertung der Leistung von Bildklassifizierungsalgorithmen entwickelt.

Hauptmerkmale

  • MNIST enthält 60.000 Trainingsbilder und 10.000 Testbilder von handgeschriebenen Ziffern.
  • Der Datensatz umfasst Graustufenbilder der Größe 28x28 Pixel.
  • The images are normalized to fit into a 28x28 pixel bounding box and anti-aliased, introducing grayscale levels.
  • MNIST wird häufig zum Trainieren und Testen im Bereich des maschinellen Lernens verwendet, insbesondere für Bildklassifizierungsaufgaben.

Struktur des Datensatzes

Der MNIST-Datensatz wird in zwei Teilmengen aufgeteilt:

  1. Training Set: Dieser Teilsatz enthält 60.000 Bilder von handgeschriebenen Ziffern, die zum Trainieren von maschinellen Lernmodellen verwendet werden.
  2. Testsatz: Diese Teilmenge besteht aus 10.000 Bildern, die zum Testen und Vergleichen der trainierten Modelle verwendet werden.

Erweiterte MNIST (EMNIST)

Extended MNIST (EMNIST) ist ein neuerer Datensatz, der vom NIST als Nachfolger von MNIST entwickelt und veröffentlicht wurde. Während MNIST nur Bilder von handgeschriebenen Ziffern enthielt, umfasst EMNIST alle Bilder der NIST Special Database 19, einer großen Datenbank mit handgeschriebenen Groß- und Kleinbuchstaben sowie Ziffern. Die Bilder in EMNIST wurden mit demselben Verfahren in das gleiche 28x28-Pixel-Format umgewandelt wie die MNIST-Bilder. Dementsprechend werden Tools, die mit dem älteren, kleineren MNIST-Datensatz arbeiten, wahrscheinlich unverändert mit EMNIST funktionieren.

Anwendungen

The MNIST dataset is widely used for training and evaluating deep learning models in image classification tasks, such as Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs), and various other machine learning algorithms. The dataset's simple and well-structured format makes it an essential resource for researchers and practitioners in the field of machine learning and computer vision.

Verwendung

To train a CNN model on the MNIST dataset for 100 epochs with an image size of 32x32, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

Beispiel für einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Beispielbilder und Anmerkungen

The MNIST dataset contains grayscale images of handwritten digits, providing a well-structured dataset for image classification tasks. Here are some examples of images from the dataset:

Datensatz Beispielbild

Das Beispiel zeigt die Vielfalt und Komplexität der handgeschriebenen Ziffern im MNIST-Datensatz und verdeutlicht, wie wichtig ein vielfältiger Datensatz für das Training robuster Bildklassifizierungsmodelle ist.

Zitate und Danksagungen

Wenn du den MNIST-Datensatz in deinem

Forschungs- oder Entwicklungsarbeit, zitiere bitte das folgende Papier:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

We would like to acknowledge Yann LeCun, Corinna Cortes, and Christopher J.C. Burges for creating and maintaining the MNIST dataset as a valuable resource for the machine learning and computer vision research community. For more information about the MNIST dataset and its creators, visit the MNIST dataset website.

FAQ

Was ist der MNIST-Datensatz und warum ist er für das maschinelle Lernen wichtig?

Der MNIST-Datensatz (Modified National Institute of Standards and Technology Dataset) ist eine weit verbreitete Sammlung handgeschriebener Ziffern, die zum Trainieren und Testen von Bildklassifizierungssystemen verwendet wird. Er umfasst 60.000 Trainingsbilder und 10.000 Testbilder, alle in Graustufen und mit einer Größe von 28x28 Pixeln. Die Bedeutung des Datensatzes liegt in seiner Rolle als Standardmaßstab für die Bewertung von Bildklassifizierungsalgorithmen, der Forschern und Ingenieuren hilft, Methoden zu vergleichen und Fortschritte in diesem Bereich zu verfolgen.

Wie kann ich Ultralytics YOLO verwenden, um ein Modell für den MNIST-Datensatz zu trainieren?

Um ein Modell auf dem MNIST-Datensatz mit Ultralytics YOLO zu trainieren, kannst du die folgenden Schritte ausführen:

Beispiel für einen Zug

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Eine detaillierte Liste der verfügbaren Trainingsargumente findest du auf der Seite Training.

Was ist der Unterschied zwischen den MNIST- und EMNIST-Datensätzen?

Der MNIST-Datensatz enthält nur handgeschriebene Ziffern, während der erweiterte MNIST-Datensatz (EMNIST) sowohl Ziffern als auch Groß- und Kleinbuchstaben enthält. EMNIST wurde als Nachfolger von MNIST entwickelt und verwendet dasselbe 28x28-Pixel-Format für die Bilder, wodurch es mit den Tools und Modellen kompatibel ist, die für den ursprünglichen MNIST-Datensatz entwickelt wurden. Die größere Bandbreite an Zeichen in EMNIST macht sie für eine Vielzahl von Anwendungen des maschinellen Lernens nützlich.

Kann ich Ultralytics HUB nutzen, um Modelle auf benutzerdefinierten Datensätzen wie MNIST zu trainieren?

Ja, du kannst Ultralytics HUB nutzen, um Modelle auf benutzerdefinierten Datensätzen wie MNIST zu trainieren. Ultralytics HUB bietet eine benutzerfreundliche Oberfläche zum Hochladen von Datensätzen, zum Trainieren von Modellen und zum Verwalten von Projekten, ohne dass du über umfangreiche Programmierkenntnisse verfügen musst. Weitere Informationen zu den ersten Schritten findest du auf der Seite Ultralytics HUB Quickstart.

📅 Created 11 months ago ✏️ Updated 3 days ago

Kommentare