Link to this sectionMNIST 데이터셋#
MNIST(Modified National Institute of Standards and Technology) 데이터셋은 다양한 이미지 처리 시스템 및 머신러닝 모델을 훈련하는 데 일반적으로 사용되는 대규모 필기 숫자 데이터베이스입니다. 이 데이터셋은 NIST의 원본 데이터셋 샘플을 '재구성'하여 만들어졌으며, 이미지 분류 알고리즘의 성능을 평가하기 위한 벤치마크가 되었습니다.
Link to this section주요 특징#
- MNIST는 60,000개의 학습용 이미지와 10,000개의 테스트용 필기 숫자 이미지로 구성되어 있습니다.
- 이 데이터셋은 28×28 픽셀 크기의 그레이스케일 이미지로 구성됩니다.
- 이미지는 28×28 픽셀 bounding box에 맞게 정규화되고 안티앨리어싱 처리되어 그레이스케일 레벨을 포함합니다.
- MNIST는 머신러닝 분야, 특히 이미지 분류 작업을 위한 학습 및 테스트에 널리 사용됩니다.
Link to this section데이터셋 구조#
MNIST 데이터셋은 두 개의 하위 세트로 나뉩니다:
- 학습 세트(Training Set): 이 하위 세트에는 머신러닝 모델을 학습하는 데 사용되는 60,000개의 필기 숫자 이미지가 포함되어 있습니다.
- 테스트 세트(Testing Set): 이 하위 세트는 학습된 모델을 테스트하고 벤치마킹하는 데 사용되는 10,000개의 이미지로 구성됩니다.
Link to this section데이터셋 액세스#
- 원본 파일: 전처리 과정을 직접 제어하려면 원본 MNIST 아카이브에서 gzip 아카이브를 다운로드하십시오.
- Ultralytics 로더: 명령어에
data="mnist"(또는 아래 하위 세트의 경우data="mnist160")를 사용하면 데이터셋이 자동으로 다운로드되고 PNG로 변환되며 캐시됩니다.
데이터셋의 각 이미지에는 해당 숫자(0-9)가 레이블로 지정되어 있어 분류 작업에 이상적인 지도 학습 데이터셋이 됩니다.
Link to this sectionExtended MNIST (EMNIST)#
Extended MNIST (EMNIST)는 MNIST의 후속 버전으로 NIST에서 개발 및 발표한 최신 데이터셋입니다. MNIST에는 필기 숫자 이미지들만 포함된 반면, EMNIST에는 필기 대문자 및 소문자와 숫자로 구성된 대규모 데이터베이스인 NIST Special Database 19의 모든 이미지가 포함되어 있습니다. EMNIST의 이미지는 MNIST 이미지와 동일한 프로세스를 통해 동일한 28×28 픽셀 형식으로 변환되었습니다. 따라서 더 작고 오래된 MNIST 데이터셋에서 작동하는 도구들은 수정 없이 EMNIST에서도 그대로 작동할 가능성이 높습니다.
Link to this section응용 분야#
MNIST 데이터셋은 딥러닝 모델의 이미지 분류 작업, 예를 들어 Convolutional Neural Networks(CNNs), Support Vector Machines(SVMs) 및 기타 여러 머신러닝 알고리즘을 학습 및 평가하는 데 널리 사용됩니다. 이 데이터셋의 단순하고 체계적인 구조는 머신러닝 및 컴퓨터 비전 분야의 연구자와 실무자들에게 필수적인 자원입니다.
몇 가지 일반적인 애플리케이션은 다음과 같습니다:
- 새로운 분류 알고리즘 벤치마킹
- 머신러닝 개념 교육을 위한 교육적 목적
- 이미지 인식 시스템 프로토타이핑
- 모델 최적화 기술 테스트
Link to this section사용법#
MNIST 데이터셋에서 28×28 이미지 크기로 100 에포크(epochs) 동안 CNN 모델을 훈련하려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습(Training) 페이지를 참조하십시오.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Link to this section샘플 이미지 및 주석#
MNIST 데이터셋은 필기 숫자의 그레이스케일 이미지를 포함하여 이미지 분류 작업을 위한 잘 구조화된 데이터셋을 제공합니다. 다음은 데이터셋 이미지의 몇 가지 예시입니다:

이 예시는 MNIST 데이터셋에 포함된 필기 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델 학습을 위해 다양한 데이터셋이 중요하다는 점을 강조합니다.
Link to this section인용 및 감사의 글#
연구 또는 개발 작업에 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]},
volume={2},
year={2010}
}머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 리소스로서 MNIST 데이터셋을 생성하고 유지 관리해 온 Yann LeCun, Corinna Cortes 및 Christopher J.C. Burges에게 감사를 표합니다. MNIST 데이터셋과 제작자에 대한 자세한 내용은 MNIST 데이터셋 웹사이트를 방문하십시오.
Link to this sectionMNIST160 빠른 테스트#
매우 빠른 회귀 테스트가 필요하십니까? Ultralytics는 학습 및 테스트 분할에서 각 숫자(0-9)의 처음 8개 이미지를 포함하는 160개 이미지 슬라이스인 data="mnist160"도 제공합니다. 이 슬라이스는 MNIST 디렉토리 구조를 그대로 따르므로 다른 인수를 변경하지 않고도 데이터셋을 교체할 수 있습니다:
yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28전체 70,000개 이미지 데이터셋으로 작업하기 전에 CI 파이프라인 또는 정상 작동 여부 확인(sanity check)을 위해 이 하위 세트를 사용하십시오.
Link to this sectionFAQ#
Link to this sectionMNIST 데이터셋이란 무엇이며, 머신러닝에서 왜 중요한가요?#
MNIST 데이터셋(Modified National Institute of Standards and Technology 데이터셋)은 이미지 분류 시스템을 학습하고 테스트하기 위해 설계된 필기 숫자들의 널리 사용되는 모음입니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 구성되어 있으며, 모두 그레이스케일이고 28×28 픽셀 크기입니다. 이 데이터셋의 중요성은 이미지 분류 알고리즘을 평가하기 위한 표준 벤치마크로서의 역할에 있으며, 연구자와 엔지니어가 방법론을 비교하고 해당 분야의 진척도를 추적하는 데 도움을 줍니다.
Link to this sectionUltralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습하려면 어떻게 해야 하나요?#
Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습하려면 다음 단계를 따르십시오:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)사용 가능한 학습 인수에 대한 자세한 목록은 학습(Training) 페이지를 참조하십시오.
Link to this sectionMNIST 데이터셋과 EMNIST 데이터셋의 차이점은 무엇인가요?#
MNIST 데이터셋은 필기 숫자만 포함하지만, Extended MNIST(EMNIST) 데이터셋은 숫자뿐만 아니라 대문자와 소문자도 포함합니다. EMNIST는 MNIST의 후속 버전으로 개발되었으며 이미지에 동일한 28×28 픽셀 형식을 사용하여 원래의 MNIST 데이터셋용으로 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 문자 범위는 훨씬 다양한 머신러닝 애플리케이션에 유용합니다.
Link to this sectionUltralytics Platform을 사용하여 MNIST와 같은 커스텀 데이터셋으로 모델을 학습할 수 있나요?#
네, Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 학습시킬 수 있습니다. Ultralytics Platform은 광범위한 코딩 지식 없이도 데이터셋 업로드, 모델 학습 및 프로젝트 관리를 수행할 수 있는 사용자 친화적인 인터페이스를 제공합니다. 시작 방법에 대한 자세한 내용은 Ultralytics Platform Quickstart 페이지를 확인하시기 바랍니다.
Link to this sectionMNIST는 다른 이미지 분류 데이터셋과 어떻게 다른가요?#
MNIST는 CIFAR-10이나 ImageNet과 같은 많은 현대 데이터셋보다 단순하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터셋은 컬러 이미지와 다양한 객체 카테고리로 인해 더 큰 도전을 제공하지만, MNIST는 단순성, 작은 파일 크기 및 머신러닝 알고리즘 개발에서의 역사적 중요성 때문에 여전히 가치가 있습니다. 더 고급 분류 작업이 필요하다면 MNIST와 동일한 구조를 유지하면서 숫자가 아닌 의류 아이템을 특징으로 하는 Fashion-MNIST 사용을 고려해 보십시오.