Overslaan naar inhoud

MNIST-dataset

De MNIST (Modified National Institute of Standards and Technology) dataset is een grote database van handgeschreven cijfers die vaak wordt gebruikt voor het trainen van verschillende beeldverwerkingssystemen en modellen voor machinaal leren. De dataset is gemaakt door de monsters uit de oorspronkelijke datasets van NIST "opnieuw te mengen" en is een benchmark geworden voor het evalueren van de prestaties van algoritmen voor beeldclassificatie.

Belangrijkste kenmerken

  • MNIST bevat 60.000 trainingsafbeeldingen en 10.000 testafbeeldingen van handgeschreven cijfers.
  • De dataset bestaat uit grijswaardenafbeeldingen van 28x28 pixels.
  • De afbeeldingen worden genormaliseerd zodat ze in een 28x28 pixel bounding box passen en anti-aliased, waarbij grijswaarden worden geĆÆntroduceerd.
  • MNIST wordt veel gebruikt voor het trainen en testen op het gebied van machinaal leren, vooral voor beeldclassificatietaken.

Structuur dataset

De MNIST dataset is opgesplitst in twee subsets:

  1. Trainingsset: Deze subset bevat 60.000 afbeeldingen van handgeschreven cijfers die worden gebruikt voor het trainen van modellen voor machinaal leren.
  2. Testset: Deze subset bestaat uit 10.000 afbeeldingen die worden gebruikt voor het testen en benchmarken van de getrainde modellen.

Uitgebreide MNIST (EMNIST)

Extended MNIST (EMNIST) is een nieuwere dataset die door NIST is ontwikkeld en uitgebracht als opvolger van MNIST. Terwijl MNIST alleen afbeeldingen van handgeschreven cijfers bevatte, bevat EMNIST alle afbeeldingen van NIST Special Database 19, een grote database van handgeschreven hoofdletters, kleine letters en cijfers. De afbeeldingen in EMNIST zijn geconverteerd naar hetzelfde 28x28 pixel formaat, door hetzelfde proces, als de MNIST afbeeldingen. Daarom zullen gereedschappen die werken met de oudere, kleinere MNIST dataset waarschijnlijk ongewijzigd werken met EMNIST.

Toepassingen

De MNIST dataset wordt veel gebruikt voor het trainen en evalueren van deep learning modellen in beeldclassificatietaken, zoals Convolutional Neural Networks (CNN's), Support Vector Machines (SVM's) en diverse andere machine learning algoritmen. Het eenvoudige en goed gestructureerde formaat van de dataset maakt het een essentiƫle bron voor onderzoekers en beoefenaars op het gebied van machine learning en computer vision.

Gebruik

Om een CNN model te trainen op de MNIST dataset voor 100 epochs met een afbeeldingsgrootte van 32x32, kun je de volgende codefragmenten gebruiken. Raadpleeg de pagina Model Training voor een uitgebreide lijst met beschikbare argumenten.

Voorbeeld trein

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Voorbeeldafbeeldingen en -annotaties

De MNIST dataset bevat afbeeldingen in grijstinten van handgeschreven cijfers en is daarmee een goed gestructureerde dataset voor beeldclassificatietaken. Hier zijn enkele voorbeelden van afbeeldingen uit de dataset:

Voorbeeldafbeelding dataset

Het voorbeeld laat de variƫteit en complexiteit zien van de handgeschreven cijfers in de MNIST dataset, en benadrukt het belang van een diverse dataset voor het trainen van robuuste beeldclassificatiemodellen.

Citaten en erkenningen

Als je de MNIST dataset gebruikt in je

onderzoek of ontwikkelingswerk, citeer dan het volgende document:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

We willen Yann LeCun, Corinna Cortes en Christopher J.C. Burges bedanken voor het maken en onderhouden van de MNIST dataset als een waardevolle bron voor de machine learning en computer vision onderzoeksgemeenschap. Ga voor meer informatie over de MNIST dataset en de makers ervan naar de MNIST dataset website.

FAQ

Wat is de MNIST dataset en waarom is deze belangrijk bij machinaal leren?

De MNIST dataset, of Modified National Institute of Standards and Technology dataset, is een veelgebruikte verzameling handgeschreven cijfers die is ontworpen voor het trainen en testen van beeldclassificatiesystemen. De set bevat 60.000 trainingsafbeeldingen en 10.000 testafbeeldingen, allemaal in grijstinten en 28 x 28 pixels groot. Het belang van de dataset ligt in zijn rol als standaard benchmark voor het evalueren van algoritmen voor beeldclassificatie, waardoor onderzoekers en technici methoden kunnen vergelijken en de vooruitgang op dit gebied kunnen volgen.

Hoe kan ik Ultralytics YOLO gebruiken om een model te trainen op de MNIST dataset?

Om een model te trainen op de MNIST dataset met Ultralytics YOLO kun je de volgende stappen volgen:

Voorbeeld trein

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Raadpleeg de pagina Training voor een gedetailleerde lijst van beschikbare trainingsargumenten.

Wat is het verschil tussen de MNIST en EMNIST datasets?

De MNIST dataset bevat alleen handgeschreven cijfers, terwijl de Extended MNIST (EMNIST) dataset zowel cijfers als hoofdletters en kleine letters bevat. EMNIST is ontwikkeld als opvolger van MNIST en gebruikt hetzelfde 28x28 pixel formaat voor de afbeeldingen, waardoor het compatibel is met tools en modellen die zijn ontworpen voor de originele MNIST dataset. Dit bredere scala aan tekens in EMNIST maakt het bruikbaar voor een grotere verscheidenheid aan toepassingen voor machinaal leren.

Kan ik Ultralytics HUB gebruiken om modellen te trainen op aangepaste datasets zoals MNIST?

Ja, je kunt Ultralytics HUB gebruiken om modellen te trainen op aangepaste datasets zoals MNIST. Ultralytics HUB biedt een gebruiksvriendelijke interface voor het uploaden van datasets, het trainen van modellen en het beheren van projecten zonder dat je uitgebreide kennis van codering nodig hebt. Kijk voor meer informatie over hoe je aan de slag kunt op de Ultralytics HUB Quickstart pagina.



Gemaakt op 2023-11-12, Bijgewerkt op 2024-07-04
Auteurs: glenn-jocher (6)

Reacties