Перейти к содержанию

Набор данных MNIST

Набор данных MNIST (Модифицированный Национальный институт стандартов и технологий) - это большая база данных рукописных цифр, которая широко используется для обучения различных систем обработки изображений и моделей машинного обучения. Она была создана путем "повторного смешивания" образцов из оригинальных наборов данных NIST и стала эталоном для оценки эффективности алгоритмов классификации изображений.

Основные характеристики

  • MNIST содержит 60 000 обучающих и 10 000 тестовых изображений рукописных цифр.
  • Набор данных состоит из полутоновых изображений размером 28x28 пикселей.
  • Изображения нормализуются, чтобы вписаться в ограничительное поле размером 28x28 пикселей, и сглаживаются, вводя уровни серого.
  • MNIST широко используется для обучения и тестирования в области машинного обучения, особенно для задач классификации изображений.

Структура набора данных

Набор данных MNIST разделен на два подмножества:

  1. Обучающий набор: Этот набор содержит 60 000 изображений рукописных цифр, используемых для обучения моделей машинного обучения.
  2. Набор для тестирования: Это подмножество состоит из 10 000 изображений, используемых для тестирования и проверки обученных моделей.

Расширенный MNIST (EMNIST)

Расширенный MNIST (EMNIST) - это новый набор данных, разработанный и выпущенный NIST в качестве преемника MNIST. Если MNIST включал в себя изображения только рукописных цифр, то EMNIST включает в себя все изображения из специальной базы данных NIST 19, которая представляет собой большую базу данных рукописных заглавных и строчных букв, а также цифр. Изображения в EMNIST были преобразованы в тот же формат 28x28 пикселей, что и изображения MNIST. Соответственно, инструменты, работающие со старым, более компактным набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.

Приложения

Набор данных MNIST широко используется для обучения и оценки моделей глубокого обучения в задачах классификации изображений, таких как конволюционные нейронные сети (CNN), машины опорных векторов (SVM) и различные другие алгоритмы машинного обучения. Простой и хорошо структурированный формат набора данных делает его незаменимым ресурсом для исследователей и практиков в области машинного обучения и компьютерного зрения.

Использование

Для обучения модели CNN на наборе данных MNIST в течение 100 эпох с размером изображения 32x32 можно использовать следующие фрагменты кода. Полный список доступных аргументов см. на странице обучения модели.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Образцы изображений и аннотаций

Набор данных MNIST содержит полутоновые изображения рукописных цифр и представляет собой хорошо структурированный набор данных для задач классификации изображений. Вот несколько примеров изображений из этого набора данных:

Образец изображения из набора данных

Этот пример демонстрирует разнообразие и сложность рукописных цифр в наборе данных MNIST, подчеркивая важность разнообразных наборов данных для обучения надежных моделей классификации изображений.

Цитаты и благодарности

Если вы используете набор данных MNIST в своем

исследовательской или опытно-конструкторской работы, пожалуйста, ссылайтесь на следующую статью:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Мы хотели бы выразить благодарность Янну ЛеКуну, Коринне Кортес и Кристоферу Дж. К. Берджесу за создание и поддержку набора данных MNIST как ценного ресурса для сообщества исследователей машинного обучения и компьютерного зрения. Дополнительную информацию о наборе данных MNIST и его создателях можно найти на сайте набора данных MNIST.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое набор данных MNIST и почему он важен для машинного обучения?

Набор данных MNIST, или модифицированный набор данных Национального института стандартов и технологий, - это широко используемая коллекция рукописных цифр, предназначенная для обучения и тестирования систем классификации изображений. Он включает 60 000 обучающих и 10 000 тестовых изображений, все из которых имеют оттенки серого и размер 28x28 пикселей. Важность набора данных заключается в том, что он является стандартным эталоном для оценки алгоритмов классификации изображений, помогая исследователям и инженерам сравнивать методы и отслеживать прогресс в этой области.

Как использовать Ultralytics YOLO для обучения модели на наборе данных MNIST?

Чтобы обучить модель на наборе данных MNIST с помощью сайта Ultralytics YOLO , выполните следующие действия:

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

Подробный список доступных аргументов для обучения см. на странице " Обучение".

В чем разница между наборами данных MNIST и EMNIST?

Набор данных MNIST содержит только рукописные цифры, в то время как расширенный набор данных MNIST (EMNIST) включает в себя как цифры, так и заглавные и строчные буквы. EMNIST был разработан как преемник MNIST и использует тот же формат изображений 28x28 пикселей, что делает его совместимым с инструментами и моделями, разработанными для оригинального набора данных MNIST. Более широкий спектр символов в EMNIST делает его полезным для более широкого спектра приложений машинного обучения.

Могу ли я использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST?

Да, вы можете использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST. Ultralytics HUB предлагает удобный интерфейс для загрузки наборов данных, обучения моделей и управления проектами, не требующий глубоких знаний кодирования. Более подробную информацию о том, как начать работу, можно найти на странице Ultralytics HUB Quickstart.

📅 Создано 1 год назад ✏️ Обновлено 1 месяц назад

Комментарии