MNIST-dataset

De MNIST (Modified National Institute of Standards and Technology) dataset is een grote database van handgeschreven cijfers die vaak wordt gebruikt voor het trainen van verschillende beeldverwerkingssystemen en modellen voor machinaal leren. De dataset is gemaakt door de monsters uit de oorspronkelijke datasets van NIST "opnieuw te mengen" en is een benchmark geworden voor het evalueren van de prestaties van algoritmen voor beeldclassificatie.

Belangrijkste kenmerken

MNIST bevat 60.000 trainingsafbeeldingen en 10.000 testafbeeldingen van handgeschreven cijfers.
De dataset bestaat uit grijswaardenafbeeldingen van 28x28 pixels.
De afbeeldingen worden genormaliseerd zodat ze in een 28x28 pixel bounding box passen en anti-aliased, waarbij grijswaarden worden geïntroduceerd.
MNIST wordt veel gebruikt voor het trainen en testen op het gebied van machinaal leren, vooral voor beeldclassificatietaken.

Structuur dataset

De MNIST dataset is opgesplitst in twee subsets:

Trainingsset: Deze subset bevat 60.000 afbeeldingen van handgeschreven cijfers die worden gebruikt voor het trainen van modellen voor machinaal leren.
Testset: Deze subset bestaat uit 10.000 afbeeldingen die worden gebruikt voor het testen en benchmarken van de getrainde modellen.

Uitgebreide MNIST (EMNIST)

Extended MNIST (EMNIST) is een nieuwere dataset die door NIST is ontwikkeld en uitgebracht als opvolger van MNIST. Terwijl MNIST alleen afbeeldingen van handgeschreven cijfers bevatte, bevat EMNIST alle afbeeldingen van NIST Special Database 19, een grote database van handgeschreven hoofdletters, kleine letters en cijfers. De afbeeldingen in EMNIST zijn geconverteerd naar hetzelfde 28x28 pixel formaat, door hetzelfde proces, als de MNIST afbeeldingen. Daarom zullen gereedschappen die werken met de oudere, kleinere MNIST dataset waarschijnlijk ongewijzigd werken met EMNIST.

Toepassingen

De MNIST dataset wordt veel gebruikt voor het trainen en evalueren van deep learning modellen in beeldclassificatietaken, zoals Convolutional Neural Networks (CNN's), Support Vector Machines (SVM's) en diverse andere machine learning algoritmen. Het eenvoudige en goed gestructureerde formaat van de dataset maakt het een essentiële bron voor onderzoekers en beoefenaars op het gebied van machine learning en computer vision.

Gebruik

Om een CNN model te trainen op de MNIST dataset voor 100 epochs met een afbeeldingsgrootte van 32x32, kun je de volgende codefragmenten gebruiken. Raadpleeg de pagina Model Training voor een uitgebreide lijst met beschikbare argumenten.

Voorbeeld trein

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-cls.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='mnist', epochs=100, imgsz=32)

# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Voorbeeldafbeeldingen en -annotaties

De MNIST dataset bevat afbeeldingen in grijstinten van handgeschreven cijfers en is daarmee een goed gestructureerde dataset voor beeldclassificatietaken. Hier zijn enkele voorbeelden van afbeeldingen uit de dataset:

Voorbeeldafbeelding dataset

Het voorbeeld laat de variëteit en complexiteit zien van de handgeschreven cijfers in de MNIST dataset, en benadrukt het belang van een diverse dataset voor het trainen van robuuste beeldclassificatiemodellen.

Citaten en erkenningen

Als je de MNIST dataset gebruikt in je

onderzoek of ontwikkelingswerk, citeer dan het volgende document:

BibTeX

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

We willen Yann LeCun, Corinna Cortes en Christopher J.C. Burges bedanken voor het maken en onderhouden van de MNIST dataset als een waardevolle bron voor de machine learning en computer vision onderzoeksgemeenschap. Ga voor meer informatie over de MNIST dataset en de makers ervan naar de MNIST dataset website.

Gemaakt op 2023-11-12, Bijgewerkt op 2023-11-22
Auteurs: glenn-jocher (3)