Conjunto de datos MNIST

Q: What is the MNIST dataset, and why is it important in machine learning?

El conjunto de datos MNIST, o conjunto de datos modificado del Instituto Nacional de Estándares y Tecnología, es una colección ampliamente utilizada de dígitos escritos a mano diseñada para entrenar y probar sistemas de clasificación de imágenes. Incluye 60,000 imágenes de entrenamiento y 10,000 imágenes de prueba, todas en escala de grises y de 28×28 píxeles. La importancia del conjunto de datos radica en su papel como un punto de referencia estándar para evaluar algoritmos de clasificación de imágenes, lo que ayuda a los investigadores e ingenieros a comparar métodos y realizar un seguimiento del progreso en el campo.

El conjunto de datos MNIST (Modified National Institute of Standards and Technology) es una gran base de datos de dígitos manuscritos que se utiliza comúnmente para entrenar varios sistemas de procesamiento de imágenes y modelos de aprendizaje automático. Fue creado "remezclando" las muestras de los conjuntos de datos originales del NIST y se ha convertido en un punto de referencia para evaluar el rendimiento de los algoritmos de clasificación de imágenes.

Características clave

MNIST contiene 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba de dígitos manuscritos.
El conjunto de datos comprende imágenes en escala de grises de tamaño 28×28 píxeles.
Las imágenes se normalizan para que quepan en un cuadro delimitador de 28×28 píxeles y se suavizan, introduciendo niveles de escala de grises.
MNIST se utiliza ampliamente para el entrenamiento y las pruebas en el campo del aprendizaje automático, especialmente para tareas de clasificación de imágenes.

Estructura del conjunto de datos

El conjunto de datos MNIST se divide en dos subconjuntos:

Conjunto de entrenamiento: Este subconjunto contiene 60,000 imágenes de dígitos manuscritos utilizados para entrenar modelos de aprendizaje automático.
Conjunto de Prueba: Este subconjunto consta de 10,000 imágenes utilizadas para probar y evaluar los modelos entrenados.

Acceso al conjunto de datos

Archivos originales: Descargue los archivos gzip desde la página MNIST de Yann LeCun si desea tener control directo sobre el preprocesamiento.
Cargador de Ultralytics: Use data="mnist" (o data="mnist160" para el subconjunto siguiente) en tu comando y el conjunto de datos se descargará, se convertirá a PNG y se almacenará en caché automáticamente.

Cada imagen en el conjunto de datos está etiquetada con el dígito correspondiente (0-9), lo que lo convierte en un conjunto de datos de aprendizaje supervisado ideal para tareas de clasificación.

MNIST Extendido (EMNIST)

MNIST Extendido (EMNIST) es un conjunto de datos más reciente desarrollado y publicado por NIST para ser el sucesor de MNIST. Mientras que MNIST incluía imágenes solo de dígitos manuscritos, EMNIST incluye todas las imágenes de la Base de Datos Especial 19 de NIST, que es una gran base de datos de letras mayúsculas y minúsculas manuscritas, así como dígitos. Las imágenes en EMNIST se convirtieron al mismo formato de 28×28 píxeles, mediante el mismo proceso, que las imágenes de MNIST. En consecuencia, las herramientas que funcionan con el conjunto de datos MNIST más antiguo y pequeño probablemente funcionarán sin modificaciones con EMNIST.

Aplicaciones

El conjunto de datos MNIST se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en tareas de clasificación de imágenes, como Redes Neuronales Convolucionales (CNN), Máquinas de Vectores de Soporte (SVM) y varios otros algoritmos de aprendizaje automático. El formato simple y bien estructurado del conjunto de datos lo convierte en un recurso esencial para investigadores y profesionales en el campo del aprendizaje automático y la visión artificial.

Algunas aplicaciones comunes incluyen:

Evaluación comparativa de nuevos algoritmos de clasificación
Fines educativos para la enseñanza de conceptos de aprendizaje automático
Creación de prototipos de sistemas de reconocimiento de imágenes
Prueba de técnicas de optimización de modelos

Uso

Para entrenar un modelo CNN en el conjunto de datos MNIST durante 100 epochs con un tamaño de imagen de 28×28, puedes usar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de Entrenamiento del modelo.

Ejemplo de entrenamiento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

sample_images y anotaciones

El conjunto de datos MNIST contiene imágenes en escala de grises de dígitos escritos a mano, lo que proporciona un conjunto de datos bien estructurado para tareas de clasificación de imágenes. Aquí hay algunos ejemplos de imágenes del conjunto de datos:

Muestras del conjunto de datos MNIST para la clasificación de dígitos escritos a mano

El ejemplo muestra la variedad y complejidad de los dígitos manuscritos en el conjunto de datos MNIST, destacando la importancia de un conjunto de datos diverso para entrenar modelos robustos de clasificación de imágenes.

Citas y agradecimientos

Si utiliza el dataset MNIST en su trabajo de investigación o desarrollo, cite el siguiente artículo:

BibTeX

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Nos gustaría agradecer a Yann LeCun, Corinna Cortes y Christopher J.C. Burges por crear y mantener el conjunto de datos MNIST como un valioso recurso para la comunidad de investigación de aprendizaje automático y visión artificial. Para obtener más información sobre el conjunto de datos MNIST y sus creadores, visite el sitio web del conjunto de datos MNIST.

Pruebas rápidas de MNIST160

¿Necesita una prueba de regresión ultrarrápida? Ultralytics también expone data="mnist160", un fragmento de 160 imágenes que contiene las ocho primeras muestras de cada clase de dígitos. Refleja la estructura de directorios de MNIST, por lo que puede intercambiar conjuntos de datos sin cambiar ningún otro argumento:

Ejemplo de entrenamiento con MNIST160

CLI

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

Utilice este subconjunto para los conductos de CI o las comprobaciones de validez antes de comprometerse con el conjunto de datos completo de 70.000 imágenes.

Preguntas frecuentes

¿Qué es el conjunto de datos MNIST y por qué es importante en el aprendizaje automático?

El conjunto de datos MNIST, o conjunto de datos Modified National Institute of Standards and Technology, es una colección ampliamente utilizada de dígitos manuscritos diseñada para entrenar y probar sistemas de clasificación de imágenes. Incluye 60.000 imágenes de entrenamiento y 10.000 imágenes de prueba, todas en escala de grises y de 28×28 píxeles. La importancia del conjunto de datos radica en su papel como punto de referencia estándar para evaluar los algoritmos de clasificación de imágenes, lo que ayuda a los investigadores e ingenieros a comparar métodos y realizar un seguimiento del progreso en el campo.

¿Cómo puedo usar Ultralytics YOLO para entrenar un modelo en el dataset MNIST?

Para entrenar un modelo en el conjunto de datos MNIST utilizando Ultralytics YOLO, puedes seguir estos pasos:

Ejemplo de entrenamiento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

Para obtener una lista detallada de los argumentos de entrenamiento disponibles, consulte la página de Entrenamiento.

¿Cuál es la diferencia entre los conjuntos de datos MNIST y EMNIST?

El conjunto de datos MNIST contiene solo dígitos escritos a mano, mientras que el conjunto de datos MNIST extendido (EMNIST) incluye tanto dígitos como letras mayúsculas y minúsculas. EMNIST se desarrolló como sucesor de MNIST y utiliza el mismo formato de píxeles de 28×28 para las imágenes, lo que lo hace compatible con herramientas y modelos diseñados para el conjunto de datos MNIST original. Esta gama más amplia de caracteres en EMNIST lo hace útil para una variedad más amplia de aplicaciones de aprendizaje automático.

¿Puedo usar Ultralytics Platform para entrenar modelos con conjuntos de datos personalizados como MNIST?

Sí, puede usar Ultralytics Platform para entrenar modelos con conjuntos de datos personalizados como MNIST. Ultralytics Platform ofrece una interfaz fácil de usar para cargar conjuntos de datos, entrenar modelos y gestionar proyectos sin necesidad de amplios conocimientos de codificación. Para más detalles sobre cómo empezar, consulte la página de inicio rápido de Ultralytics Platform.

¿Cómo se compara MNIST con otros conjuntos de datos de clasificación de imágenes?

MNIST es más simple que muchos conjuntos de datos modernos como CIFAR-10 o ImageNet, lo que lo hace ideal para principiantes y para la experimentación rápida. Si bien los conjuntos de datos más complejos ofrecen mayores desafíos con imágenes en color y diversas categorías de objetos, MNIST sigue siendo valioso por su simplicidad, su pequeño tamaño de archivo y su importancia histórica en el desarrollo de algoritmos de aprendizaje automático. Para tareas de clasificación más avanzadas, considere la posibilidad de utilizar Fashion-MNIST, que mantiene la misma estructura pero presenta prendas de vestir en lugar de dígitos.

📅 Creado hace 2 años ✏️ Actualizado hace 3 meses