Перейти к содержимому

Набор данных MNIST

Набор данных MNIST (модифицированный Национальный институт стандартов и технологий) - это большая база данных рукописных цифр, которая часто используется для обучения различных систем обработки изображений и моделей машинного обучения. Она была создана путем "пересмешивания" образцов из оригинальных наборов данных NIST и стала эталоном для оценки эффективности алгоритмов классификации изображений.

Основные характеристики

  • MNIST содержит 60 000 обучающих и 10 000 тестовых изображений рукописных цифр.
  • Набор данных состоит из полутоновых изображений размером 28х28 пикселей.
  • The images are normalized to fit into a 28x28 pixel bounding box and anti-aliased, introducing grayscale levels.
  • MNIST широко используется для обучения и тестирования в области машинного обучения, особенно для задач классификации изображений.

Структура набора данных

Набор данных MNIST разбит на два подмножества:

  1. Обучающий набор: Этот поднабор содержит 60 000 изображений рукописных цифр, которые используются для обучения моделей машинного обучения.
  2. Набор для тестирования: Это подмножество состоит из 10 000 изображений, которые используются для тестирования и бенчмаркинга обученных моделей.

Расширенный MNIST (EMNIST)

Extended MNIST (EMNIST) - это новый набор данных, разработанный и выпущенный NIST в качестве преемника MNIST. Если MNIST включал в себя изображения только рукописных цифр, то EMNIST включает в себя все изображения из специальной базы данных NIST Special Database 19, которая представляет собой большую базу данных рукописных прописных и строчных букв, а также цифр. Изображения в EMNIST были преобразованы в тот же формат 28х28 пикселей, что и изображения из MNIST. Соответственно, инструменты, работающие со старым, меньшим по размеру набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.

Приложения

The MNIST dataset is widely used for training and evaluating deep learning models in image classification tasks, such as Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs), and various other machine learning algorithms. The dataset's simple and well-structured format makes it an essential resource for researchers and practitioners in the field of machine learning and computer vision.

Использование

To train a CNN model on the MNIST dataset for 100 epochs with an image size of 32x32, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Примеры изображений и аннотаций

The MNIST dataset contains grayscale images of handwritten digits, providing a well-structured dataset for image classification tasks. Here are some examples of images from the dataset:

Образец изображения из набора данных

Этот пример демонстрирует разнообразие и сложность рукописных цифр в наборе данных MNIST, подчеркивая важность разнообразных наборов данных для обучения надежных моделей классификации изображений.

Цитаты и благодарности

Если ты используешь набор данных MNIST в своем

исследовательской или опытно-конструкторской работы, пожалуйста, ссылайтесь на следующую статью:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

We would like to acknowledge Yann LeCun, Corinna Cortes, and Christopher J.C. Burges for creating and maintaining the MNIST dataset as a valuable resource for the machine learning and computer vision research community. For more information about the MNIST dataset and its creators, visit the MNIST dataset website.

ВОПРОСЫ И ОТВЕТЫ

Что такое набор данных MNIST и почему он важен для машинного обучения?

MNIST dataset, или Модифицированный набор данных Национального института стандартов и технологий, - это широко используемая коллекция рукописных цифр, предназначенная для обучения и тестирования систем классификации изображений. Он включает в себя 60 000 обучающих и 10 000 тестирующих изображений, все из которых имеют оттенки серого и размер 28х28 пикселей. Важность набора данных заключается в том, что он является стандартным эталоном для оценки алгоритмов классификации изображений, помогая исследователям и инженерам сравнивать методы и отслеживать прогресс в этой области.

Как использовать Ultralytics YOLO для обучения модели на наборе данных MNIST?

Чтобы обучить модель на наборе данных MNIST с помощью Ultralytics YOLO , ты можешь выполнить следующие шаги:

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Подробный список доступных тренировочных аргументов ты найдешь на странице " Обучение ".

В чем разница между наборами данных MNIST и EMNIST?

Набор данных MNIST содержит только рукописные цифры, в то время как расширенный набор данных MNIST (EMNIST) включает в себя как цифры, так и заглавные и строчные буквы. EMNIST был разработан как преемник MNIST и использует тот же формат изображений 28х28 пикселей, что делает его совместимым с инструментами и моделями, разработанными для оригинального набора данных MNIST. Такой широкий спектр символов в EMNIST делает его полезным для более широкого спектра приложений машинного обучения.

Могу ли я использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST?

Да, ты можешь использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST. Ultralytics HUB предлагает удобный интерфейс для загрузки наборов данных, обучения моделей и управления проектами, не требуя при этом обширных знаний в области кодирования. Более подробно о том, как начать работу, читай на странице Ultralytics HUB Quickstart.

📅 Created 11 months ago ✏️ Updated 5 days ago

Комментарии