콘텐츠로 건너뛰기

MNIST 데이터셋

MNIST (Modified National Institute of Standards and Technology) 데이터셋은 다양한 이미지 처리 시스템 및 머신러닝 모델 훈련에 일반적으로 사용되는 손글씨 숫자의 대규모 데이터베이스입니다. 이 데이터셋은 NIST의 원본 데이터셋 샘플을 '재혼합'하여 생성되었으며, 이미지 분류 알고리즘의 성능을 평가하는 벤치마크가 되었습니다.

주요 기능

  • MNIST는 60,000개의 훈련 이미지와 10,000개의 손글씨 숫자 테스트 이미지를 포함합니다.
  • 데이터 세트는 28×28 픽셀 크기의 흑백 이미지로 구성됩니다.
  • 이미지는 28×28 픽셀 바운딩 박스에 맞게 정규화되고 앤티앨리어싱 처리되어 회색조 레벨을 도입합니다.
  • MNIST는 머신러닝 분야에서 훈련 및 테스트에 널리 사용되며, 특히 이미지 분류 작업에 활용됩니다.

데이터 세트 구조

MNIST 데이터셋은 두 가지 하위 집합으로 나뉩니다:

  1. 훈련 세트: 이 하위 집합은 머신러닝 모델 훈련에 사용되는 60,000개의 손으로 쓴 숫자 이미지로 구성됩니다.
  2. 테스트 세트: 이 하위 집합은 훈련된 모델의 테스트 및 벤치마킹에 사용되는 10,000개의 이미지로 구성됩니다.

데이터 집합 액세스

  • 원본 파일: 전처리 과정을 직접 제어하고 싶다면 Yann LeCun의 MNIST 페이지에서 gzip 아카이브를 다운로드하세요.
  • Ultralytics 로더: 사용 data="mnist" (또는 data="mnist160" )를 명령에 입력하면 데이터 세트가 다운로드되고 PNG로 변환되어 자동으로 캐시됩니다.

데이터 세트의 각 이미지는 해당 숫자(0-9)로 레이블이 지정되어 분류 작업에 이상적인 지도 학습 데이터 세트가 됩니다.

Extended MNIST (EMNIST)

Extended MNIST (EMNIST)는 NIST에서 개발 및 출시한 최신 데이터셋으로, MNIST의 후속작입니다. MNIST가 손글씨 숫자 이미지만을 포함했던 반면, EMNIST는 손글씨 대문자 및 소문자, 그리고 숫자의 대규모 데이터베이스인 NIST Special Database 19의 모든 이미지를 포함합니다. EMNIST의 이미지는 MNIST 이미지와 동일한 과정으로 동일한 28x28 픽셀 형식으로 변환되었습니다. 따라서 오래되고 더 작은 MNIST 데이터셋과 함께 작동하는 도구는 EMNIST에서도 수정 없이 작동할 가능성이 높습니다.

응용 분야

MNIST 데이터셋은 딥러닝 모델을 훈련하고 평가하는 데 널리 사용되며, 컨볼루션 신경망 (CNN), 서포트 벡터 머신 (SVM) 및 다양한 기타 머신러닝 알고리즘과 같은 이미지 분류 작업에 활용됩니다. 이 데이터셋의 단순하고 잘 구조화된 형식은 머신러닝컴퓨터 비전 분야의 연구원과 실무자에게 필수적인 자료입니다.

몇 가지 일반적인 응용 분야는 다음과 같습니다:

  • 새로운 분류 알고리즘 벤치마킹
  • 머신 러닝 개념 교육 목적
  • 이미지 인식 시스템 프로토타입 제작
  • 모델 최적화 기술 테스트

사용법

28×28 이미지 크기로 MNIST 데이터셋에서 CNN 모델을 100 에포크 동안 학습시키려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습 페이지를 참조하십시오.

훈련 예제

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

샘플 이미지 및 주석

MNIST 데이터셋은 손글씨 숫자의 그레이스케일 이미지를 포함하며, 이미지 분류 작업을 위한 잘 구성된 데이터셋을 제공합니다. 다음은 데이터셋의 이미지 예시입니다.

MNIST 숫자 분류 데이터셋 샘플

이 예시는 MNIST 데이터셋에 있는 손글씨 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델 학습을 위한 다양한 데이터셋의 중요성을 강조합니다.

인용 및 감사의 말씀

연구 또는 개발 작업에서 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 자원으로서 MNIST 데이터셋을 생성하고 유지보수해 주신 Yann LeCun, Corinna Cortes, Christopher J.C. Burges에게 감사드립니다. MNIST 데이터셋 및 그 생성자에 대한 자세한 정보는 MNIST 데이터셋 웹사이트를 방문하십시오.

MNIST160 빠른 테스트

초고속 회귀 테스트가 필요하신가요? Ultralytics 또한 data="mnist160", 각 숫자 클래스에서 처음 8개 샘플을 포함하는 160개 이미지 슬라이스입니다. MNIST 디렉토리 구조를 미러링하므로 다른 인수를 변경하지 않고도 데이터 세트를 교체할 수 있습니다.

MNIST160을 사용한 훈련 예제

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

전체 70,000개 이미지 데이터 세트를 커밋하기 전에 이 하위 집합을 CI 파이프라인 또는 건전성 검사에 사용하세요.

FAQ

MNIST 데이터셋이란 무엇이며, 머신러닝에서 왜 중요한가요?

MNIST 데이터셋(Modified National Institute of Standards and Technology 데이터셋)은 이미지 분류 시스템 학습 및 테스트용으로 설계된 널리 사용되는 손글씨 숫자 모음입니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지를 포함하며, 모두 그레이스케일이며 28×28 픽셀 크기입니다. 데이터셋의 중요성은 이미지 분류 알고리즘 평가를 위한 표준 벤치마크로서의 역할에 있으며, 연구원과 엔지니어가 방법을 비교하고 해당 분야의 진행 상황을 추적하는 데 도움을 줍니다.

Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 어떻게 훈련시킬 수 있나요?

Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습시키려면 다음 단계를 따를 수 있습니다:

훈련 예제

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

사용 가능한 훈련 인수에 대한 자세한 목록은 훈련 페이지를 참조하십시오.

MNIST와 EMNIST 데이터셋의 차이점은 무엇인가요?

MNIST 데이터셋은 손글씨 숫자만을 포함하는 반면, Extended MNIST (EMNIST) 데이터셋은 숫자와 대문자 및 소문자를 모두 포함합니다. EMNIST는 MNIST의 후속작으로 개발되었으며, 이미지에 동일한 28x28 픽셀 형식을 사용하여 원래 MNIST 데이터셋용으로 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 범위의 문자는 더 다양한 머신러닝 응용 분야에 유용하게 활용될 수 있습니다.

Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 훈련할 수 있나요?

네, Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 훈련할 수 있습니다. Ultralytics Platform은 광범위한 코딩 지식 없이도 데이터셋 업로드, 모델 훈련 및 프로젝트 관리를 위한 사용자 친화적인 인터페이스를 제공합니다. 시작 방법에 대한 자세한 내용은 Ultralytics Platform Quickstart 페이지를 참조하십시오.

MNIST는 다른 이미지 분류 데이터셋과 비교하면 어떤가요?

MNIST는 CIFAR-10 또는 ImageNet과 같은 많은 최신 데이터셋보다 간단하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터셋은 컬러 이미지와 다양한 객체 카테고리로 더 큰 과제를 제공하지만, MNIST는 단순성, 작은 파일 크기, 그리고 머신러닝 알고리즘 개발에서의 역사적 중요성 때문에 여전히 가치가 있습니다. 더 고급 classify 작업을 위해서는 동일한 구조를 유지하면서도 숫자 대신 의류 품목을 특징으로 하는 Fashion-MNIST 사용을 고려해 보십시오.



5; 2 년 전에 생성됨 ✏️ 7 전에 업데이트됨
glenn-jocherpderrengerUltralyticsAssistantMatthewNoycejk4e

댓글