Conjunto de Dados MNIST
O dataset MNIST (Modified National Institute of Standards and Technology) é um grande banco de dados de dígitos manuscritos que é comumente usado para treinar vários sistemas de processamento de imagens e modelos de aprendizado de máquina. Foi criado "remisturando" as amostras dos datasets originais do NIST e se tornou um benchmark para avaliar o desempenho de algoritmos de classificação de imagens.
Principais Características
- O MNIST contém 60.000 imagens de treino e 10.000 imagens de teste de dígitos manuscritos.
- O dataset compreende imagens em escala de cinza de tamanho 28×28 pixels.
- As imagens são normalizadas para caber em uma bounding box de 28×28 pixels e suavizadas, introduzindo níveis de escala de cinza.
- O MNIST é amplamente utilizado para treino e teste no campo de machine learning, especialmente para tarefas de classificação de imagens.
Estrutura do Conjunto de Dados
O conjunto de dados MNIST é dividido em dois subconjuntos:
- Conjunto de Treinamento: Este subconjunto contém 60.000 imagens de dígitos manuscritos usadas para treinar modelos de aprendizado de máquina.
- Conjunto de Teste: Este subconjunto consiste em 10.000 imagens usadas para testar e avaliar os modelos treinados.
Acesso ao Dataset
- Ficheiros originais: Descarregue os arquivos gzip da página MNIST de Yann LeCun se pretender controlo direto sobre o pré-processamento.
- Carregador Ultralytics: Use
data="mnist") e YOLO11 para executar o rastreamento de objetos em quadros de vídeo. Este script assume que os pacotes necessários (data="mnist160"para o subconjunto abaixo) no seu comando e o conjunto de dados será baixado, convertido para PNG e armazenado em cache automaticamente.
Cada imagem no conjunto de dados é rotulada com o dígito correspondente (0-9), tornando-o um conjunto de dados de aprendizagem supervisionada ideal para tarefas de classificação.
MNIST Estendido (EMNIST)
O MNIST Estendido (EMNIST) é um conjunto de dados mais recente desenvolvido e lançado pelo NIST para ser o sucessor do MNIST. Enquanto o MNIST incluía apenas imagens de dígitos manuscritos, o EMNIST inclui todas as imagens do NIST Special Database 19, que é um grande banco de dados de letras maiúsculas e minúsculas manuscritas, bem como dígitos. As imagens no EMNIST foram convertidas para o mesmo formato de pixel de 28×28, pelo mesmo processo, que as imagens do MNIST. Assim, ferramentas que funcionam com o conjunto de dados MNIST mais antigo e menor provavelmente funcionarão sem modificações com o EMNIST.
Aplicações
O conjunto de dados MNIST é amplamente utilizado para treinar e avaliar modelos de aprendizado profundo em tarefas de classificação de imagens, como Redes Neurais Convolucionais (CNNs), Máquinas de Vetores de Suporte (SVMs) e vários outros algoritmos de aprendizado de máquina. O formato simples e bem estruturado do conjunto de dados o torna um recurso essencial para pesquisadores e profissionais no campo de aprendizado de máquina e visão computacional.
Algumas aplicações comuns incluem:
- Benchmarking de novos algoritmos de classificação
- Fins educacionais para ensinar conceitos de machine learning
- Prototipagem de sistemas de reconhecimento de imagem
- Testando técnicas de otimização de modelo
Utilização
Para treinar um modelo CNN no conjunto de dados MNIST por 100 épocas com um tamanho de imagem de 28×28, você pode usar os seguintes trechos de código. Para obter uma lista abrangente dos argumentos disponíveis, consulte a página de Treinamento do modelo.
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28
Amostras de Imagens e Anotações
O conjunto de dados MNIST contém imagens em escala de cinza de dígitos manuscritos, fornecendo um conjunto de dados bem estruturado para tarefas de classificação de imagens. Aqui estão alguns exemplos de imagens do conjunto de dados:

O exemplo mostra a variedade e complexidade dos dígitos manuscritos no dataset MNIST, destacando a importância de um dataset diversificado para treinar modelos robustos de classificação de imagens.
Citações e Agradecimentos
Se você usar o dataset MNIST em seu trabalho de pesquisa ou desenvolvimento, cite o seguinte artigo:
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
volume={2},
year={2010}
}
Gostaríamos de agradecer a Yann LeCun, Corinna Cortes e Christopher J.C. Burges por criarem e manterem o conjunto de dados MNIST como um recurso valioso para a comunidade de investigação de aprendizagem automática e visão computacional. Para mais informações sobre o conjunto de dados MNIST e os seus criadores, visite o site do conjunto de dados MNIST.
Testes Rápidos MNIST160
Precisa de um teste de regressão extremamente rápido? A Ultralytics também expõe data="mnist160", uma fatia de 160 imagens contendo as oito primeiras amostras de cada classe de dígitos. Ele espelha a estrutura de diretórios do MNIST, para que você possa trocar os conjuntos de dados sem alterar nenhum outro argumento:
Exemplo de Treino com MNIST160
yolo classify train data=mnist160 model=yolo11n-cls.pt epochs=5 imgsz=28
Use este subconjunto para pipelines de CI ou verificações de sanidade antes de confirmar o conjunto de dados completo de 70.000 imagens.
FAQ
O que é o conjunto de dados MNIST e por que ele é importante no aprendizado de máquina?
O dataset MNIST, ou Modified National Institute of Standards and Technology dataset, é uma coleção amplamente utilizada de dígitos manuscritos projetada para treinar e testar sistemas de classificação de imagens. Ele inclui 60.000 imagens de treinamento e 10.000 imagens de teste, todas em escala de cinza e com tamanho de 28×28 pixels. A importância do dataset reside em seu papel como um benchmark padrão para avaliar algoritmos de classificação de imagens, ajudando pesquisadores e engenheiros a comparar métodos e acompanhar o progresso no campo.
Como posso usar o Ultralytics YOLO para treinar um modelo no conjunto de dados MNIST?
Para treinar um modelo no conjunto de dados MNIST usando Ultralytics YOLO, você pode seguir estas etapas:
Exemplo de Treinamento
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28
Para obter uma lista detalhada dos argumentos de treinamento disponíveis, consulte a página de Treinamento.
Qual é a diferença entre os conjuntos de dados MNIST e EMNIST?
O conjunto de dados MNIST contém apenas dígitos manuscritos, enquanto o conjunto de dados Extended MNIST (EMNIST) inclui dígitos e letras maiúsculas e minúsculas. O EMNIST foi desenvolvido como um sucessor do MNIST e utiliza o mesmo formato de 28×28 pixels para as imagens, tornando-o compatível com ferramentas e modelos projetados para o conjunto de dados MNIST original. Essa gama mais ampla de caracteres no EMNIST o torna útil para uma variedade maior de aplicações de aprendizado de máquina.
Posso usar o Ultralytics HUB para treinar modelos em conjuntos de dados personalizados como MNIST?
Sim, você pode usar o Ultralytics HUB para treinar modelos em conjuntos de dados personalizados como o MNIST. O Ultralytics HUB oferece uma interface amigável para carregar conjuntos de dados, treinar modelos e gerenciar projetos sem a necessidade de amplo conhecimento de codificação. Para obter mais detalhes sobre como começar, consulte a página Ultralytics HUB Quickstart.
Como o MNIST se compara a outros conjuntos de dados de classificação de imagens?
O MNIST é mais simples do que muitos conjuntos de dados modernos, como o CIFAR-10 ou o ImageNet, tornando-o ideal para iniciantes e experimentação rápida. Embora conjuntos de dados mais complexos ofereçam maiores desafios com imagens coloridas e diversas categorias de objetos, o MNIST permanece valioso por sua simplicidade, tamanho de arquivo pequeno e importância histórica no desenvolvimento de algoritmos de machine learning. Para tarefas de classificação mais avançadas, considere usar o Fashion-MNIST, que mantém a mesma estrutura, mas apresenta itens de vestuário em vez de dígitos.