Перейти к содержимому

Набор данных MNIST

Набор данных MNIST (модифицированный Национальный институт стандартов и технологий) - это большая база данных рукописных цифр, которая часто используется для обучения различных систем обработки изображений и моделей машинного обучения. Она была создана путем "пересмешивания" образцов из оригинальных наборов данных NIST и стала эталоном для оценки эффективности алгоритмов классификации изображений.

Основные характеристики

  • MNIST содержит 60 000 обучающих и 10 000 тестовых изображений рукописных цифр.
  • Набор данных состоит из полутоновых изображений размером 28х28 пикселей.
  • Изображения нормализуются, чтобы вписаться в ограничительную рамку размером 28х28 пикселей, и сглаживаются, вводя уровни серого.
  • MNIST широко используется для обучения и тестирования в области машинного обучения, особенно для задач классификации изображений.

Структура набора данных

Набор данных MNIST разбит на два подмножества:

  1. Обучающий набор: Этот поднабор содержит 60 000 изображений рукописных цифр, которые используются для обучения моделей машинного обучения.
  2. Набор для тестирования: Это подмножество состоит из 10 000 изображений, которые используются для тестирования и бенчмаркинга обученных моделей.

Расширенный MNIST (EMNIST)

Extended MNIST (EMNIST) - это новый набор данных, разработанный и выпущенный NIST в качестве преемника MNIST. Если MNIST включал в себя изображения только рукописных цифр, то EMNIST включает в себя все изображения из специальной базы данных NIST Special Database 19, которая представляет собой большую базу данных рукописных прописных и строчных букв, а также цифр. Изображения в EMNIST были преобразованы в тот же формат 28х28 пикселей, что и изображения MNIST. Соответственно, инструменты, работающие со старым, меньшим по размеру набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.

Приложения

Набор данных MNIST широко используется для обучения и оценки моделей глубокого обучения в задачах классификации изображений, таких как конволюционные нейронные сети (CNN), машины опорных векторов (SVM) и различные другие алгоритмы машинного обучения. Простой и хорошо структурированный формат набора данных делает его незаменимым ресурсом для исследователей и практиков в области машинного обучения и компьютерного зрения.

Использование

Чтобы обучить модель CNN на наборе данных MNIST в течение 100 эпох с размером изображения 32x32, ты можешь воспользоваться следующими фрагментами кода. Полный список доступных аргументов смотри на странице обучения модели.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-cls.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='mnist', epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Примеры изображений и аннотаций

Набор данных MNIST содержит полутоновые изображения рукописных цифр и представляет собой хорошо структурированный набор данных для задач классификации изображений. Вот несколько примеров изображений из этого набора:

Образец изображения из набора данных

Этот пример демонстрирует разнообразие и сложность рукописных цифр в наборе данных MNIST, подчеркивая важность разнообразных наборов данных для обучения надежных моделей классификации изображений.

Цитаты и благодарности

Если ты используешь набор данных MNIST в своем

исследовательской или опытно-конструкторской работы, пожалуйста, ссылайтесь на следующую статью:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Мы хотели бы поблагодарить Янна ЛеКуна, Коринну Кортес и Кристофера Джей Си Берджеса за создание и поддержку набора данных MNIST как ценного ресурса для сообщества исследователей машинного обучения и компьютерного зрения. Чтобы узнать больше о наборе данных MNIST и его создателях, посети сайт MNIST dataset.



Создано 2023-11-12, Обновлено 2023-11-22
Авторы: glenn-jocher (3)

Комментарии