No license

Link to this sectionJeu de données MNIST#

Name: Jeu de données de classification d'images MNIST
Creator: Yann LeCun
Keywords: MNIST, jeu de données, chiffres manuscrits, classification d'images, deep learning, apprentissage automatique, ensemble d'entraînement, ensemble de test, NIST

Le jeu de données MNIST (Modified National Institute of Standards and Technology) est une référence en matière de classification d'images composée de 70 000 images en niveaux de gris de 28x28 pixels représentant des chiffres manuscrits répartis en 10 classes : les chiffres de 0 à 9. Il est fourni avec une séparation prédéfinie de 60 000 images d'entraînement et 10 000 images de test et sert depuis longtemps de référence standard pour évaluer les algorithmes de machine learning et de vision par ordinateur. Pour l'équivalent plus complexe basé sur des images de vêtements, consulte le jeu de données associé Fashion-MNIST ; pour des images en couleur, consulte CIFAR-10.

Link to this sectionFonctionnalités clés#

MNIST contient 60 000 images d'entraînement et 10 000 images de test de chiffres manuscrits, soit 70 000 au total.
Chaque image est une image en niveaux de gris de 28x28 pixels représentant un seul chiffre, normalisée et lissée dans une boîte englobante fixe de 28x28.
Les 10 classes couvrent les chiffres de 0 à 9, avec un nombre d'images à peu près équilibré par classe.
Il est fourni avec une séparation entraînement/test prédéfinie, aucune séparation manuelle ou automatique n'est donc requise.
MNIST est une référence standard pour la recherche en classification d'images et en deep learning.

Link to this sectionStructure du jeu de données#

MNIST est fourni avec une séparation officielle et prédéfinie, aucun partitionnement manuel ou automatique n'est donc nécessaire :

Classes : 10 (chiffres manuscrits 0–9)
Total d'images : 70 000 (28x28 en niveaux de gris)
Jeu d'entraînement : 60 000 images
Jeu de test : 10 000 images

Split de validation

MNIST n'a pas de dossier de validation séparé, Ultralytics utilise donc par défaut le jeu de test de 10 000 images comme séparation de validation pendant l'entraînement.

Chaque image est étiquetée avec son chiffre correspondant (0–9), faisant de MNIST un jeu de données supervisé idéal pour les tâches de classification.

Link to this sectionApplications#

MNIST est largement utilisé pour entraîner et évaluer des modèles de classification d'images, des réseaux de neurones convolutifs (CNN) et machines à vecteurs de support (SVM) classiques aux architectures profondes modernes. Ses petites images en niveaux de gris et ses 10 classes de chiffres en font une référence rapide et reproductible pour la comparaison d'algorithmes et l'expérimentation en vision par ordinateur.

Quelques applications courantes incluent :

Évaluation comparative de nouveaux algorithmes de classification
Objectifs pédagogiques pour enseigner les concepts d'apprentissage automatique
Prototypage de systèmes de reconnaissance d'images
Test de techniques d'optimisation de modèles

Link to this sectionUtilisation#

Entraîne un modèle de classification YOLO sur MNIST pendant 100 époques avec une taille d'image de 28. Le jeu de données se télécharge et se met en cache automatiquement lors de la première utilisation ; si tu préfères un contrôle total sur le prétraitement, les archives gzip originales sont également disponibles depuis la base de données MNIST. Pour la liste complète des arguments disponibles, consulte la page Entraînement et le guide sur la tâche de classification d'images.

Exemple d'entraînement

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

Tests rapides avec MNIST160

Ultralytics expose également data="mnist160", une tranche de 160 images contenant les huit premières images de chaque chiffre (0–9) provenant à la fois des séparations d'entraînement et de test. Elle reflète la structure de répertoire de MNIST, ce qui te permet d'échanger des jeux de données sans modifier aucun autre argument — idéal pour les pipelines CI ou les vérifications de bon fonctionnement avant de t'engager sur le jeu de données complet de 70 000 images.

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

Link to this sectionExemples d'images et annotations#

Exemples d'images du jeu de données MNIST :

Exemples du jeu de données de classification de chiffres manuscrits MNIST

Les échantillons montrent l'éventail des styles d'écriture manuscrite que le jeu de données capture à travers les 10 classes de chiffres.

Link to this sectionCitations et remerciements#

Si tu utilises le jeu de données MNIST dans tes travaux de recherche ou de développement, merci de citer l'article suivant :

Citation

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]},
         volume={2},
         year={2010}
}

Nous tenons à remercier Yann LeCun, Corinna Cortes et Christopher J.C. Burges pour avoir créé et maintenu le jeu de données MNIST comme une ressource précieuse pour la communauté de recherche en machine learning et en vision par ordinateur. Pour plus d'informations sur le jeu de données MNIST et ses créateurs, visite le site web du jeu de données MNIST.

Link to this sectionFAQ#

Link to this sectionQu'est-ce que le jeu de données MNIST et pourquoi est-il important en apprentissage automatique ?#

Le jeu de données MNIST est une référence de 70 000 images en niveaux de gris de 28x28 pixels de chiffres manuscrits, divisées en 60 000 images d'entraînement et 10 000 images de test sur les 10 classes de 0 à 9. C'est la référence standard pour évaluer les algorithmes de classification d'images — son format petit et uniforme permet aux chercheurs et aux ingénieurs de comparer des méthodes et de suivre les progrès avec un minimum de configuration, ce qui explique pourquoi il reste une première référence courante en machine learning.

Link to this sectionCombien de classes et d'images le jeu de données MNIST possède-t-il ?#

MNIST possède 10 classes — les chiffres manuscrits de 0 à 9 — et 70 000 images en niveaux de gris au total, chacune de 28x28 pixels. Il est fourni avec une séparation prédéfinie de 60 000 images d'entraînement et 10 000 images de test, avec un nombre d'exemples à peu près égal par chiffre.

Link to this sectionComment puis-je utiliser Ultralytics YOLO pour entraîner un modèle sur le jeu de données MNIST ?#

Pour entraîner un modèle Ultralytics YOLO sur MNIST, utilise les extraits de code ci-dessous. Le jeu de données se télécharge automatiquement lors de la première utilisation. Pour une liste détaillée des arguments d'entraînement disponibles, reporte-toi à la page Entraînement.

Exemple d'entraînement

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

Link to this sectionComment le jeu de données MNIST est-il divisé en jeux d'entraînement et de test ?#

MNIST est fourni avec une séparation prédéfinie de 60 000 images d'entraînement et 10 000 images de test. Contrairement aux jeux de données de classification basés sur des dossiers qu'Ultralytics divise automatiquement, la partition officielle de MNIST est utilisée telle quelle, et le jeu de test sert par défaut de séparation de validation pendant l'entraînement.

Link to this sectionQuelle est la différence entre les jeux de données MNIST et EMNIST ?#

Le jeu de données MNIST contient uniquement des chiffres manuscrits, tandis que le jeu de données Extended MNIST (EMNIST) inclut à la fois des chiffres ainsi que des lettres majuscules et minuscules. EMNIST a été développé comme successeur de MNIST et utilise le même format de 28x28 pixels, ce qui le rend compatible avec les outils et les modèles conçus pour le jeu de données MNIST original. Cette gamme plus large de caractères rend EMNIST utile pour une plus grande variété d'applications de machine learning.

Link to this sectionPuis-je utiliser la plateforme Ultralytics pour entraîner des modèles sur des jeux de données comme MNIST ?#

Oui. Ultralytics Platform te permet de télécharger des jeux de données, d'entraîner des modèles de classification d'images et de les déployer sans codage intensif. C'est un moyen pratique d'exécuter des expériences MNIST dans le cloud — consulte l'aperçu des jeux de données de classification pour découvrir des options associées.

Link to this sectionComment MNIST se compare-t-il aux autres jeux de données de classification d'images ?#

MNIST est plus simple que de nombreux jeux de données modernes comme CIFAR-10 ou ImageNet, ce qui le rend idéal pour les débutants et les expérimentations rapides. Bien que des jeux de données plus complexes offrent de plus grands défis avec des images en couleur et des catégories d'objets diverses, MNIST reste précieux pour sa simplicité, sa petite taille de fichier et son importance historique dans le développement des algorithmes de machine learning. Pour un remplacement direct plus difficile avec la même structure, consulte Fashion-MNIST, qui propose des articles vestimentaires au lieu de chiffres.

Contributeurs

GLglenn-jocher¹⁸ RAraimbekovm² PDpderrenger¹ MAMatthewNoyce¹ JKjk4e¹

Créé 12 nov. 2023Mis à jour hier