Link to this sectionMNIST 데이터셋#
MNIST(Modified National Institute of Standards and Technology) 데이터셋은 다양한 이미지 처리 시스템 및 머신러닝 모델을 훈련하는 데 일반적으로 사용되는 대규모 필기 숫자 데이터베이스입니다. 이 데이터셋은 NIST의 원본 데이터셋 샘플을 '재구성'하여 만들어졌으며, 이미지 분류 알고리즘의 성능을 평가하기 위한 벤치마크가 되었습니다.
Link to this section주요 특징#
- MNIST는 60,000개의 학습용 이미지와 10,000개의 테스트용 필기 숫자 이미지로 구성되어 있습니다.
- 이 데이터셋은 28×28 픽셀 크기의 그레이스케일 이미지로 구성됩니다.
- 이미지는 28×28 픽셀 bounding box에 맞게 정규화되고 안티앨리어싱 처리되어 그레이스케일 레벨을 포함합니다.
- MNIST는 머신러닝 분야, 특히 이미지 분류 작업을 위한 학습 및 테스트에 널리 사용됩니다.
Link to this section데이터셋 구조#
MNIST 데이터셋은 두 개의 하위 세트로 나뉩니다:
- 학습 세트(Training Set): 이 하위 세트에는 머신러닝 모델을 학습하는 데 사용되는 60,000개의 필기 숫자 이미지가 포함되어 있습니다.
- 테스트 세트(Testing Set): 이 하위 세트는 학습된 모델을 테스트하고 벤치마킹하는 데 사용되는 10,000개의 이미지로 구성됩니다.
Link to this section데이터셋 액세스#
- 원본 파일: 전처리 과정을 직접 제어하려면 원본 MNIST 아카이브에서 gzip 아카이브를 다운로드하십시오.
- Ultralytics 로더: 명령어에
data="mnist"(또는 아래 하위 세트의 경우data="mnist160")를 사용하면 데이터셋이 자동으로 다운로드되고 PNG로 변환되며 캐시됩니다.
데이터셋의 각 이미지에는 해당 숫자(0-9)가 레이블로 지정되어 있어 분류 작업에 이상적인 지도 학습 데이터셋이 됩니다.
Link to this sectionExtended MNIST (EMNIST)#
Extended MNIST (EMNIST)는 MNIST의 후속 버전으로 NIST에서 개발 및 발표한 최신 데이터셋입니다. MNIST에는 필기 숫자 이미지들만 포함된 반면, EMNIST에는 필기 대문자 및 소문자와 숫자로 구성된 대규모 데이터베이스인 NIST Special Database 19의 모든 이미지가 포함되어 있습니다. EMNIST의 이미지는 MNIST 이미지와 동일한 프로세스를 통해 동일한 28×28 픽셀 형식으로 변환되었습니다. 따라서 더 작고 오래된 MNIST 데이터셋에서 작동하는 도구들은 수정 없이 EMNIST에서도 그대로 작동할 가능성이 높습니다.
Link to this section응용 분야#
The MNIST dataset is widely used for training and evaluating deep learning models in image classification tasks, such as Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs), and various other machine learning algorithms. The dataset's simple and well-structured format makes it an essential resource for researchers and practitioners in the field of machine learning and computer vision.
몇 가지 일반적인 애플리케이션은 다음과 같습니다:
- 새로운 분류 알고리즘 벤치마킹
- 머신러닝 개념 교육을 위한 교육적 목적
- 이미지 인식 시스템 프로토타이핑
- 모델 최적화 기술 테스트
Link to this section사용법#
MNIST 데이터셋에서 28×28 이미지 크기로 100 에포크(epochs) 동안 CNN 모델을 훈련하려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습(Training) 페이지를 참조하십시오.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)Link to this section샘플 이미지 및 주석#
MNIST 데이터셋은 필기 숫자의 그레이스케일 이미지를 포함하여 이미지 분류 작업을 위한 잘 구조화된 데이터셋을 제공합니다. 다음은 데이터셋 이미지의 몇 가지 예시입니다:

이 예시는 MNIST 데이터셋에 포함된 필기 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델 학습을 위해 다양한 데이터셋이 중요하다는 점을 강조합니다.
Link to this section인용 및 감사의 글#
연구 또는 개발 작업에 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:
@article{lecun2010mnist,
title={MNIST handwritten digit database},
author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
journal={ATT Labs [Online]},
volume={2},
year={2010}
}머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 리소스로서 MNIST 데이터셋을 생성하고 유지 관리해 온 Yann LeCun, Corinna Cortes 및 Christopher J.C. Burges에게 감사를 표합니다. MNIST 데이터셋과 제작자에 대한 자세한 내용은 MNIST 데이터셋 웹사이트를 방문하십시오.
Link to this sectionMNIST160 빠른 테스트#
매우 빠른 회귀 테스트가 필요하십니까? Ultralytics는 학습 및 테스트 분할에서 각 숫자(0-9)의 처음 8개 이미지를 포함하는 160개 이미지 슬라이스인 data="mnist160"도 제공합니다. 이 슬라이스는 MNIST 디렉토리 구조를 그대로 따르므로 다른 인수를 변경하지 않고도 데이터셋을 교체할 수 있습니다:
yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28전체 70,000개 이미지 데이터셋으로 작업하기 전에 CI 파이프라인 또는 정상 작동 여부 확인(sanity check)을 위해 이 하위 세트를 사용하십시오.
Link to this sectionFAQ#
Link to this sectionMNIST 데이터셋이란 무엇이며, 머신러닝에서 왜 중요한가요?#
MNIST 데이터셋(Modified National Institute of Standards and Technology 데이터셋)은 이미지 분류 시스템을 학습하고 테스트하기 위해 설계된 필기 숫자들의 널리 사용되는 모음입니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 구성되어 있으며, 모두 그레이스케일이고 28×28 픽셀 크기입니다. 이 데이터셋의 중요성은 이미지 분류 알고리즘을 평가하기 위한 표준 벤치마크로서의 역할에 있으며, 연구자와 엔지니어가 방법론을 비교하고 해당 분야의 진척도를 추적하는 데 도움을 줍니다.
Link to this sectionUltralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습하려면 어떻게 해야 하나요?#
Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습하려면 다음 단계를 따르십시오:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)사용 가능한 학습 인수에 대한 자세한 목록은 학습(Training) 페이지를 참조하십시오.
Link to this sectionMNIST 데이터셋과 EMNIST 데이터셋의 차이점은 무엇인가요?#
MNIST 데이터셋은 필기 숫자만 포함하지만, Extended MNIST(EMNIST) 데이터셋은 숫자뿐만 아니라 대문자와 소문자도 포함합니다. EMNIST는 MNIST의 후속 버전으로 개발되었으며 이미지에 동일한 28×28 픽셀 형식을 사용하여 원래의 MNIST 데이터셋용으로 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 문자 범위는 훨씬 다양한 머신러닝 애플리케이션에 유용합니다.
Link to this sectionUltralytics Platform을 사용하여 MNIST와 같은 커스텀 데이터셋으로 모델을 학습할 수 있나요?#
네, Ultralytics Platform을 사용하여 MNIST와 같은 커스텀 데이터셋으로 모델을 학습할 수 있습니다. Ultralytics Platform은 광범위한 코딩 지식 없이도 데이터셋 업로드, 모델 학습 및 프로젝트 관리를 할 수 있는 사용자 친화적인 인터페이스를 제공합니다. 시작하는 방법에 대한 자세한 내용은 Ultralytics Platform 퀵스타트 페이지를 확인하십시오.
Link to this sectionMNIST는 다른 이미지 분류 데이터셋과 어떻게 다른가요?#
MNIST는 CIFAR-10이나 ImageNet과 같은 많은 현대 데이터셋보다 단순하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터셋은 컬러 이미지와 다양한 객체 카테고리로 인해 더 큰 도전을 제공하지만, MNIST는 단순성, 작은 파일 크기 및 머신러닝 알고리즘 개발에서의 역사적 중요성 때문에 여전히 가치가 있습니다. 더 고급 분류 작업이 필요하다면 MNIST와 동일한 구조를 유지하면서 숫자가 아닌 의류 아이템을 특징으로 하는 Fashion-MNIST 사용을 고려해 보십시오.