No license

Link to this sectionMNIST 데이터셋#

Name: MNIST 이미지 분류 데이터셋
Creator: Yann LeCun
Keywords: MNIST, 데이터셋, 필기 숫자, 이미지 분류, 딥러닝, 머신 러닝, 학습 세트, 테스트 세트, NIST

MNIST (Modified National Institute of Standards and Technology) 데이터셋은 10개의 클래스(0부터 9까지의 숫자)로 구성된 70,000개의 28x28 그레이스케일 손글씨 숫자 이미지로 이루어진 이미지 분류 벤치마크입니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 사전 분할되어 제공되며, 오랫동안 머신러닝 및 컴퓨터 비전 알고리즘을 평가하기 위한 표준 벤치마크 역할을 해왔습니다. 더 어려운 의류 이미지 버전은 관련 Fashion-MNIST 데이터셋을, 컬러 이미지는 CIFAR-10을 참조하십시오.

Link to this section주요 특징#

MNIST는 총 70,000개의 손글씨 숫자 이미지로, 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 구성되어 있습니다.
모든 이미지는 단일 숫자를 포함한 28x28 그레이스케일 사진이며, 고정된 28x28 바운딩 박스 내에 정규화 및 안티앨리어싱 처리되어 있습니다.
10개의 클래스는 0~9까지의 숫자를 나타내며, 각 클래스당 이미지 수는 대략 균등하게 분포되어 있습니다.
데이터셋은 사전 정의된 학습/테스트 분할로 제공되므로 수동 또는 자동 분할이 필요하지 않습니다.
MNIST는 이미지 분류 및 딥러닝 연구를 위한 표준 벤치마크입니다.

Link to this section데이터셋 구조#

MNIST는 공식적으로 사전 정의된 분할과 함께 제공되므로 별도의 자동 또는 수동 파티셔닝이 필요하지 않습니다:

클래스: 10개 (손글씨 숫자 0–9)
총 이미지 수: 70,000개 (28x28 그레이스케일)
학습 세트: 60,000개 이미지
테스트 세트: 10,000개 이미지

검증 분할

MNIST에는 별도의 검증 폴더가 없으므로, Ultralytics는 학습 중 기본적으로 10,000개의 테스트 이미지를 검증 세트로 사용합니다.

각 이미지는 해당 숫자(0–9)로 라벨링되어 있어, MNIST는 분류 작업에 이상적인 지도 학습 데이터셋입니다.

Link to this section응용 분야#

MNIST is widely used to train and evaluate image classification models, from classic Convolutional Neural Networks (CNNs) and Support Vector Machines (SVMs) to modern deep architectures. Its small grayscale images and 10 digit classes make it a fast, reproducible benchmark for algorithm comparison and computer vision experimentation.

몇 가지 일반적인 애플리케이션은 다음과 같습니다:

새로운 분류 알고리즘 벤치마킹
머신러닝 개념 교육을 위한 교육적 목적
이미지 인식 시스템 프로토타이핑
모델 최적화 기술 테스트

Link to this section사용법#

MNIST에서 YOLO 분류 모델을 28 이미지 크기로 100 에포크 동안 학습하십시오. 데이터셋은 처음 사용 시 자동으로 다운로드 및 캐싱됩니다. 전처리에 대한 완전한 제어를 선호하는 경우, 원본 gzip 아카이브를 MNIST 데이터베이스에서 이용할 수 있습니다. 사용 가능한 전체 인수 목록은 학습 페이지와 이미지 분류 작업 가이드를 참조하십시오.

훈련 예제

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

MNIST160을 이용한 빠른 테스트

Ultralytics는 data="mnist160"도 제공합니다. 이는 학습 및 테스트 분할에서 각 숫자(0–9)의 첫 8개 이미지를 포함하는 160개 이미지 슬라이스입니다. 이 데이터셋은 MNIST 디렉토리 구조를 그대로 따르므로, 다른 인수를 변경하지 않고도 데이터셋을 교체할 수 있습니다. 이는 전체 70,000개 데이터셋을 사용하기 전 CI 파이프라인이나 정상 작동 여부를 확인하는 데 이상적입니다.

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

Link to this section샘플 이미지 및 주석#

MNIST 데이터셋의 샘플 이미지:

MNIST 필기 숫자 분류 데이터셋 샘플

이 샘플들은 10개의 숫자 클래스에 걸쳐 데이터셋에 포함된 다양한 필체 스타일을 보여줍니다.

Link to this section인용 및 감사의 글#

연구 또는 개발 작업에 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:

인용

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]},
         volume={2},
         year={2010}
}

저희는 MNIST 데이터셋을 머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 소중한 자원으로 만들고 유지해 주신 Yann LeCun, Corinna Cortes, Christopher J.C. Burges 님께 감사를 표합니다. MNIST 데이터셋과 제작자에 대한 자세한 정보는 MNIST 데이터셋 웹사이트를 방문하십시오.

Link to this sectionFAQ#

Link to this sectionMNIST 데이터셋이란 무엇이며, 머신러닝에서 왜 중요한가요?#

MNIST 데이터셋은 10개의 클래스(0–9)로 나뉘어 학습용 60,000개, 테스트용 10,000개로 분할된 70,000개의 28x28 그레이스케일 손글씨 숫자 이미지 벤치마크입니다. 이는 이미지 분류 알고리즘을 평가하기 위한 표준 레퍼런스이며, 작고 균일한 형식 덕분에 연구원과 엔지니어들이 최소한의 설정으로 방법을 비교하고 진행 상황을 추적할 수 있어 머신러닝의 가장 일반적인 첫 번째 벤치마크로 남아 있습니다.

Link to this sectionMNIST 데이터셋의 클래스 수와 이미지 수는 어떻게 됩니까?#

MNIST는 10개의 클래스(0부터 9까지의 숫자)와 총 70,000개의 28x28 픽셀 그레이스케일 이미지로 구성되어 있습니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 사전 분할되어 제공되며, 각 숫자별로 거의 동일한 수의 예제가 포함되어 있습니다.

Link to this sectionUltralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습하려면 어떻게 해야 하나요?#

MNIST에서 Ultralytics YOLO 모델을 학습하려면 아래 코드 스니펫을 사용하십시오. 데이터셋은 처음 사용 시 자동으로 다운로드됩니다. 사용 가능한 상세 학습 인수 목록은 학습 페이지를 참조하십시오.

훈련 예제

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

Link to this sectionMNIST 데이터셋은 어떻게 학습 세트와 테스트 세트로 분할됩니까?#

MNIST는 60,000개의 학습 이미지와 10,000개의 테스트 이미지로 사전 정의된 분할과 함께 제공됩니다. Ultralytics가 자동으로 분할하는 폴더 기반 분류 데이터셋과 달리, MNIST의 공식 파티션이 그대로 사용되며 테스트 세트는 학습 중 기본적으로 검증 세트로 사용됩니다.

Link to this sectionMNIST 데이터셋과 EMNIST 데이터셋의 차이점은 무엇인가요?#

MNIST 데이터셋은 손글씨 숫자만 포함하는 반면, Extended MNIST(EMNIST) 데이터셋은 숫자와 대문자 및 소문자를 모두 포함합니다. EMNIST는 MNIST의 후속 버전으로 개발되었으며 동일한 28x28 픽셀 형식을 사용하여 기존 MNIST 데이터셋용 도구 및 모델과 호환됩니다. 이러한 더 넓은 범위의 문자로 인해 EMNIST는 더 다양한 머신러닝 애플리케이션에 유용합니다.

Link to this sectionMNIST와 같은 데이터셋으로 모델을 학습하기 위해 Ultralytics Platform을 사용할 수 있습니까?#

네. Ultralytics Platform을 사용하면 데이터셋을 업로드하고 이미지 분류 모델을 학습하며 복잡한 코딩 없이도 배포할 수 있습니다. 이는 클라우드에서 MNIST 실험을 실행하는 편리한 방법입니다. 관련 옵션은 분류 데이터셋 개요를 참조하십시오.

Link to this sectionMNIST는 다른 이미지 분류 데이터셋과 어떻게 다른가요?#

MNIST는 CIFAR-10이나 ImageNet과 같은 현대적인 데이터셋보다 단순하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터셋은 컬러 이미지와 다양한 객체 범주로 인해 더 큰 과제를 제공하지만, MNIST는 단순함, 작은 파일 크기, 머신러닝 알고리즘 개발에서의 역사적 중요성 덕분에 여전히 가치가 있습니다. 동일한 구조를 가진 더 어려운 대체 데이터셋을 찾으신다면, 숫자 대신 의류 아이템을 포함하는 Fashion-MNIST를 참조하십시오.

기여자

GLglenn-jocher¹⁸ RAraimbekovm² PDpderrenger¹ MAMatthewNoyce¹ JKjk4e¹

생성됨 2023년 11월 12일업데이트됨 13시간 전