Перейти к содержимому

Набор данных MNIST

Набор данных MNIST (модифицированный Национальный институт стандартов и технологий) - это большая база данных рукописных цифр, которая часто используется для обучения различных систем обработки изображений и моделей машинного обучения. Она была создана путем "пересмешивания" образцов из оригинальных наборов данных NIST и стала эталоном для оценки эффективности алгоритмов классификации изображений.

Основные характеристики

  • MNIST содержит 60 000 обучающих и 10 000 тестовых изображений рукописных цифр.
  • Набор данных состоит из полутоновых изображений размером 28х28 пикселей.
  • Изображения нормализуются, чтобы вписаться в ограничительную рамку размером 28х28 пикселей, и сглаживаются, вводя уровни серого.
  • MNIST широко используется для обучения и тестирования в области машинного обучения, особенно для задач классификации изображений.

Структура набора данных

Набор данных MNIST разбит на два подмножества:

  1. Обучающий набор: Этот поднабор содержит 60 000 изображений рукописных цифр, которые используются для обучения моделей машинного обучения.
  2. Набор для тестирования: Это подмножество состоит из 10 000 изображений, которые используются для тестирования и бенчмаркинга обученных моделей.

Расширенный MNIST (EMNIST)

Extended MNIST (EMNIST) - это новый набор данных, разработанный и выпущенный NIST в качестве преемника MNIST. Если MNIST включал в себя изображения только рукописных цифр, то EMNIST включает в себя все изображения из специальной базы данных NIST Special Database 19, которая представляет собой большую базу данных рукописных прописных и строчных букв, а также цифр. Изображения в EMNIST были преобразованы в тот же формат 28х28 пикселей, что и изображения из MNIST. Соответственно, инструменты, работающие со старым, меньшим по размеру набором данных MNIST, скорее всего, будут работать с EMNIST без изменений.

Приложения

Набор данных MNIST широко используется для обучения и оценки моделей глубокого обучения в задачах классификации изображений, таких как конволюционные нейронные сети (CNN), машины опорных векторов (SVM) и различные другие алгоритмы машинного обучения. Простой и хорошо структурированный формат набора данных делает его незаменимым ресурсом для исследователей и практиков в области машинного обучения и компьютерного зрения.

Использование

Чтобы обучить модель CNN на наборе данных MNIST в течение 100 эпох с размером изображения 32x32, ты можешь воспользоваться следующими фрагментами кода. Полный список доступных аргументов смотри на странице обучения модели.

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Примеры изображений и аннотаций

Набор данных MNIST содержит полутоновые изображения рукописных цифр и представляет собой хорошо структурированный набор данных для задач классификации изображений. Вот несколько примеров изображений из этого набора:

Образец изображения из набора данных

Этот пример демонстрирует разнообразие и сложность рукописных цифр в наборе данных MNIST, подчеркивая важность разнообразных наборов данных для обучения надежных моделей классификации изображений.

Цитаты и благодарности

Если ты используешь набор данных MNIST в своем

исследовательской или опытно-конструкторской работы, пожалуйста, ссылайтесь на следующую статью:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Мы хотели бы поблагодарить Янна ЛеКуна, Коринну Кортес и Кристофера Джей Си Берджеса за создание и поддержку набора данных MNIST как ценного ресурса для сообщества исследователей машинного обучения и компьютерного зрения. Чтобы узнать больше о наборе данных MNIST и его создателях, посети сайт MNIST dataset.

ВОПРОСЫ И ОТВЕТЫ

Что такое набор данных MNIST и почему он важен для машинного обучения?

MNIST dataset, или Модифицированный набор данных Национального института стандартов и технологий, - это широко используемая коллекция рукописных цифр, предназначенная для обучения и тестирования систем классификации изображений. Он включает в себя 60 000 обучающих и 10 000 тестирующих изображений, все из которых имеют оттенки серого и размер 28х28 пикселей. Важность набора данных заключается в том, что он является стандартным эталоном для оценки алгоритмов классификации изображений, помогая исследователям и инженерам сравнивать методы и отслеживать прогресс в этой области.

Как использовать Ultralytics YOLO для обучения модели на наборе данных MNIST?

Чтобы обучить модель на наборе данных MNIST с помощью Ultralytics YOLO , ты можешь выполнить следующие шаги:

Пример поезда

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Подробный список доступных тренировочных аргументов ты найдешь на странице " Обучение ".

В чем разница между наборами данных MNIST и EMNIST?

Набор данных MNIST содержит только рукописные цифры, в то время как расширенный набор данных MNIST (EMNIST) включает в себя как цифры, так и заглавные и строчные буквы. EMNIST был разработан как преемник MNIST и использует тот же формат изображений 28х28 пикселей, что делает его совместимым с инструментами и моделями, разработанными для оригинального набора данных MNIST. Такой широкий спектр символов в EMNIST делает его полезным для более широкого спектра приложений машинного обучения.

Могу ли я использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST?

Да, ты можешь использовать Ultralytics HUB для обучения моделей на пользовательских наборах данных, таких как MNIST. Ultralytics HUB предлагает удобный интерфейс для загрузки наборов данных, обучения моделей и управления проектами, не требуя при этом обширных знаний в области кодирования. Более подробно о том, как начать работу, читай на странице Ultralytics HUB Quickstart.



Создано 2023-11-12, Обновлено 2024-07-04
Авторы: glenn-jocher (6)

Комментарии