MNIST 데이터 세트
MNIST(Modified National Institute of Standards and Technology) 데이터 세트는 다양한 이미지 처리 시스템 및 머신 러닝 모델을 훈련하는 데 일반적으로 사용되는 손으로 쓴 숫자들의 대규모 데이터베이스입니다. NIST의 원래 데이터 세트에서 샘플을 "재혼합"하여 만들어졌으며 이미지 분류 알고리즘의 성능을 평가하기 위한 벤치마크가 되었습니다.
주요 기능
- MNIST에는 60,000개의 훈련 이미지와 10,000개의 필기체 숫자 테스트 이미지가 포함되어 있습니다.
- 데이터 세트는 28×28 픽셀 크기의 흑백 이미지로 구성됩니다.
- 이미지는 28×28 픽셀 바운딩 박스에 맞게 정규화되고 앤티앨리어싱 처리되어 회색조 레벨을 도입합니다.
- MNIST는 머신 러닝 분야, 특히 이미지 분류 작업에서 훈련 및 테스트에 널리 사용됩니다.
데이터 세트 구조
MNIST 데이터 세트는 두 개의 하위 집합으로 나뉩니다.
- 훈련 세트: 이 하위 집합은 머신러닝 모델 훈련에 사용되는 60,000개의 손으로 쓴 숫자 이미지로 구성됩니다.
- 테스트 세트: 이 하위 집합은 훈련된 모델의 테스트 및 벤치마킹에 사용되는 10,000개의 이미지로 구성됩니다.
데이터 세트의 각 이미지는 해당 숫자(0-9)로 레이블이 지정되어 분류 작업에 이상적인 지도 학습 데이터 세트가 됩니다.
확장된 MNIST(EMNIST)
EMNIST(Extended MNIST)는 NIST에서 MNIST의 후속으로 개발 및 출시한 최신 데이터 세트입니다. MNIST에는 손으로 쓴 숫자 이미지 만 포함된 반면, EMNIST에는 손으로 쓴 대문자 및 소문자 글자와 숫자로 구성된 대규모 데이터베이스인 NIST 특수 데이터베이스 19의 모든 이미지가 포함되어 있습니다. EMNIST의 이미지는 MNIST 이미지와 동일한 프로세스를 통해 동일한 28×28 픽셀 형식으로 변환되었습니다. 따라서 기존의 더 작은 MNIST 데이터 세트에서 작동하는 도구는 EMNIST에서도 수정 없이 작동할 가능성이 높습니다.
응용 분야
MNIST 데이터 세트는 딥러닝 모델을 이미지 분류 작업에서 훈련하고 평가하는 데 널리 사용됩니다(예: Convolutional Neural Networks(CNN), Support Vector Machines(SVM) 및 기타 다양한 머신 러닝 알고리즘). 이 데이터 세트의 간단하고 잘 구성된 형식은 머신 러닝 및 컴퓨터 비전 분야의 연구원과 실무자에게 필수적인 리소스입니다.
몇 가지 일반적인 응용 분야는 다음과 같습니다:
- 새로운 분류 알고리즘 벤치마킹
- 머신 러닝 개념 교육 목적
- 이미지 인식 시스템 프로토타입 제작
- 모델 최적화 기술 테스트
사용법
32×32의 이미지 크기로 100 epochs 동안 MNIST 데이터 세트에 대해 CNN 모델을 학습시키려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 Training 페이지를 참조하십시오.
훈련 예제
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28
샘플 이미지 및 주석
MNIST 데이터 세트에는 손으로 쓴 숫자의 회색조 이미지가 포함되어 있어 이미지 분류 작업을 위한 잘 구성된 데이터 세트를 제공합니다. 다음은 데이터 세트의 이미지 예시입니다.
이 예제는 MNIST 데이터 세트에서 손으로 쓴 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델을 훈련하기 위한 다양한 데이터 세트의 중요성을 강조합니다.
인용 및 감사의 말씀
연구 또는 개발 작업에 MNIST 데이터 세트를 사용하는 경우, 다음 논문을 인용해 주십시오.
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
volume={2},
year={2010}
}
기계 학습 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 리소스로서 MNIST 데이터 세트를 만들고 유지 관리해 주신 Yann LeCun, Corinna Cortes, Christopher J.C. Burges에게 감사를 드립니다. MNIST 데이터 세트 및 제작자에 대한 자세한 내용은 MNIST 데이터 세트 웹사이트를 방문하십시오.
FAQ
MNIST 데이터 세트란 무엇이며 머신 러닝에서 왜 중요한가요?
MNIST 데이터 세트(Modified National Institute of Standards and Technology 데이터 세트)는 이미지 분류 시스템을 훈련하고 테스트하기 위해 설계된 손으로 쓴 숫자들의 널리 사용되는 모음입니다. 60,000개의 훈련 이미지와 10,000개의 테스트 이미지를 포함하며, 모두 회색조이고 크기는 28x28픽셀입니다. 이 데이터 세트의 중요성은 이미지 분류 알고리즘을 평가하기 위한 표준 벤치마크로서의 역할에 있으며, 연구원과 엔지니어가 방법을 비교하고 해당 분야의 진행 상황을 추적하는 데 도움이 됩니다.
Ultralytics YOLO를 사용하여 MNIST 데이터 세트에서 모델을 훈련하려면 어떻게 해야 하나요?
Ultralytics YOLO를 사용하여 MNIST 데이터 세트에서 모델을 훈련하려면 다음 단계를 따르십시오.
훈련 예제
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28
사용 가능한 훈련 인수에 대한 자세한 목록은 훈련 페이지를 참조하십시오.
MNIST와 EMNIST 데이터 세트의 차이점은 무엇인가요?
MNIST 데이터 세트에는 손으로 쓴 숫자만 포함되어 있는 반면, 확장된 MNIST(EMNIST) 데이터 세트에는 숫자와 대문자 및 소문자가 모두 포함되어 있습니다. EMNIST는 MNIST의 후속으로 개발되었으며 이미지에 대해 동일한 28×28 픽셀 형식을 사용하여 원래 MNIST 데이터 세트를 위해 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 범위의 문자는 더 다양한 머신 러닝 애플리케이션에 유용합니다.
Ultralytics HUB를 사용하여 MNIST와 같은 사용자 지정 데이터 세트에서 모델을 훈련할 수 있나요?
예, Ultralytics HUB를 사용하여 MNIST와 같은 사용자 지정 데이터 세트에 대한 모델을 훈련할 수 있습니다. Ultralytics HUB는 광범위한 코딩 지식 없이도 데이터 세트 업로드, 모델 훈련 및 프로젝트 관리를 위한 사용자 친화적인 인터페이스를 제공합니다. 시작하는 방법에 대한 자세한 내용은 Ultralytics HUB 빠른 시작 페이지를 확인하십시오.
MNIST는 다른 이미지 분류 데이터 세트와 어떻게 비교되나요?
MNIST는 CIFAR-10 또는 ImageNet과 같은 최신 데이터 세트보다 간단하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터 세트는 컬러 이미지와 다양한 객체 범주로 더 큰 문제를 제공하지만, MNIST는 단순성, 작은 파일 크기 및 머신러닝 알고리즘 개발의 역사적 중요성으로 인해 여전히 가치가 있습니다. 보다 고급 분류 작업을 위해 동일한 구조를 유지하지만 숫자 대신 의류 품목을 특징으로 하는 Fashion-MNIST를 사용하는 것을 고려해 보십시오.