MNIST 데이터셋

Q: How can I use Ultralytics YOLO to train a model on the MNIST dataset?

Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 훈련시키려면 다음 단계를 따를 수 있습니다. 사용 가능한 훈련 인수에 대한 자세한 목록은 훈련 페이지를 참조하세요.

Q: Can I use Ultralytics Platform to train models on custom datasets like MNIST?

예, Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 학습시킬 수 있습니다. Ultralytics Platform은 광범위한 코딩 지식 없이도 데이터셋 업로드, 모델 학습 및 프로젝트 관리를 위한 사용자 친화적인 인터페이스를 제공합니다. 시작 방법에 대한 자세한 내용은 Ultralytics Platform 빠른 시작 페이지를 확인하십시오.

MNIST (Modified National Institute of Standards and Technology) 데이터셋은 다양한 이미지 처리 시스템 및 머신러닝 모델 훈련에 일반적으로 사용되는 손글씨 숫자의 대규모 데이터베이스입니다. 이 데이터셋은 NIST의 원본 데이터셋 샘플을 '재혼합'하여 생성되었으며, 이미지 분류 알고리즘의 성능을 평가하는 벤치마크가 되었습니다.

주요 기능

MNIST는 60,000개의 훈련 이미지와 10,000개의 손글씨 숫자 테스트 이미지를 포함합니다.
데이터 세트는 28×28 픽셀 크기의 흑백 이미지로 구성됩니다.
이미지는 28×28 픽셀 바운딩 박스에 맞게 정규화되고 앤티앨리어싱 처리되어 회색조 레벨을 도입합니다.
MNIST는 머신러닝 분야에서 훈련 및 테스트에 널리 사용되며, 특히 이미지 분류 작업에 활용됩니다.

데이터 세트 구조

MNIST 데이터셋은 두 가지 하위 집합으로 나뉩니다:

훈련 세트: 이 하위 집합은 머신러닝 모델 훈련에 사용되는 60,000개의 손으로 쓴 숫자 이미지로 구성됩니다.
테스트 세트: 이 하위 집합은 훈련된 모델의 테스트 및 벤치마킹에 사용되는 10,000개의 이미지로 구성됩니다.

데이터 집합 액세스

원본 파일: 전처리 과정을 직접 제어하고 싶다면 Yann LeCun의 MNIST 페이지에서 gzip 아카이브를 다운로드하세요.
Ultralytics 로더: 사용 data="mnist" (또는 data="mnist160" )를 명령에 입력하면 데이터 세트가 다운로드되고 PNG로 변환되어 자동으로 캐시됩니다.

데이터 세트의 각 이미지는 해당 숫자(0-9)로 레이블이 지정되어 분류 작업에 이상적인 지도 학습 데이터 세트가 됩니다.

Extended MNIST (EMNIST)

Extended MNIST (EMNIST)는 NIST에서 개발 및 출시한 최신 데이터셋으로, MNIST의 후속작입니다. MNIST가 손글씨 숫자 이미지만을 포함했던 반면, EMNIST는 손글씨 대문자 및 소문자, 그리고 숫자의 대규모 데이터베이스인 NIST Special Database 19의 모든 이미지를 포함합니다. EMNIST의 이미지는 MNIST 이미지와 동일한 과정으로 동일한 28x28 픽셀 형식으로 변환되었습니다. 따라서 오래되고 더 작은 MNIST 데이터셋과 함께 작동하는 도구는 EMNIST에서도 수정 없이 작동할 가능성이 높습니다.

응용 분야

MNIST 데이터셋은 딥러닝 모델을 훈련하고 평가하는 데 널리 사용되며, 컨볼루션 신경망 (CNN), 서포트 벡터 머신 (SVM) 및 다양한 기타 머신러닝 알고리즘과 같은 이미지 분류 작업에 활용됩니다. 이 데이터셋의 단순하고 잘 구조화된 형식은 머신러닝 및 컴퓨터 비전 분야의 연구원과 실무자에게 필수적인 자료입니다.

몇 가지 일반적인 응용 분야는 다음과 같습니다:

새로운 분류 알고리즘 벤치마킹
머신 러닝 개념 교육 목적
이미지 인식 시스템 프로토타입 제작
모델 최적화 기술 테스트

사용법

28×28 이미지 크기로 MNIST 데이터셋에서 CNN 모델을 100 에포크 동안 학습시키려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 학습 페이지를 참조하십시오.

훈련 예제

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

샘플 이미지 및 주석

MNIST 데이터셋은 손글씨 숫자의 그레이스케일 이미지를 포함하며, 이미지 분류 작업을 위한 잘 구성된 데이터셋을 제공합니다. 다음은 데이터셋의 이미지 예시입니다.

MNIST 숫자 분류 데이터셋 샘플

이 예시는 MNIST 데이터셋에 있는 손글씨 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델 학습을 위한 다양한 데이터셋의 중요성을 강조합니다.

인용 및 감사의 말씀

연구 또는 개발 작업에서 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주십시오:

BibTeX

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

머신러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 자원으로서 MNIST 데이터셋을 생성하고 유지보수해 주신 Yann LeCun, Corinna Cortes, Christopher J.C. Burges에게 감사드립니다. MNIST 데이터셋 및 그 생성자에 대한 자세한 정보는 MNIST 데이터셋 웹사이트를 방문하십시오.

MNIST160 빠른 테스트

초고속 회귀 테스트가 필요하신가요? Ultralytics 또한 data="mnist160", 각 숫자 클래스에서 처음 8개 샘플을 포함하는 160개 이미지 슬라이스입니다. MNIST 디렉토리 구조를 미러링하므로 다른 인수를 변경하지 않고도 데이터 세트를 교체할 수 있습니다.

MNIST160을 사용한 훈련 예제

CLI

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

전체 70,000개 이미지 데이터 세트를 커밋하기 전에 이 하위 집합을 CI 파이프라인 또는 건전성 검사에 사용하세요.

FAQ

MNIST 데이터셋이란 무엇이며, 머신러닝에서 왜 중요한가요?

MNIST 데이터셋(Modified National Institute of Standards and Technology 데이터셋)은 이미지 분류 시스템 학습 및 테스트용으로 설계된 널리 사용되는 손글씨 숫자 모음입니다. 이 데이터셋은 60,000개의 학습 이미지와 10,000개의 테스트 이미지를 포함하며, 모두 그레이스케일이며 28×28 픽셀 크기입니다. 데이터셋의 중요성은 이미지 분류 알고리즘 평가를 위한 표준 벤치마크로서의 역할에 있으며, 연구원과 엔지니어가 방법을 비교하고 해당 분야의 진행 상황을 추적하는 데 도움을 줍니다.

Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 어떻게 훈련시킬 수 있나요?

Ultralytics YOLO를 사용하여 MNIST 데이터셋으로 모델을 학습시키려면 다음 단계를 따를 수 있습니다:

훈련 예제

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

사용 가능한 훈련 인수에 대한 자세한 목록은 훈련 페이지를 참조하십시오.

MNIST와 EMNIST 데이터셋의 차이점은 무엇인가요?

MNIST 데이터셋은 손글씨 숫자만을 포함하는 반면, Extended MNIST (EMNIST) 데이터셋은 숫자와 대문자 및 소문자를 모두 포함합니다. EMNIST는 MNIST의 후속작으로 개발되었으며, 이미지에 동일한 28x28 픽셀 형식을 사용하여 원래 MNIST 데이터셋용으로 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 범위의 문자는 더 다양한 머신러닝 응용 분야에 유용하게 활용될 수 있습니다.

Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 훈련할 수 있나요?

네, Ultralytics Platform을 사용하여 MNIST와 같은 사용자 지정 데이터셋으로 모델을 훈련할 수 있습니다. Ultralytics Platform은 광범위한 코딩 지식 없이도 데이터셋 업로드, 모델 훈련 및 프로젝트 관리를 위한 사용자 친화적인 인터페이스를 제공합니다. 시작 방법에 대한 자세한 내용은 Ultralytics Platform Quickstart 페이지를 참조하십시오.

MNIST는 다른 이미지 분류 데이터셋과 비교하면 어떤가요?

MNIST는 CIFAR-10 또는 ImageNet과 같은 많은 최신 데이터셋보다 간단하여 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터셋은 컬러 이미지와 다양한 객체 카테고리로 더 큰 과제를 제공하지만, MNIST는 단순성, 작은 파일 크기, 그리고 머신러닝 알고리즘 개발에서의 역사적 중요성 때문에 여전히 가치가 있습니다. 더 고급 classify 작업을 위해서는 동일한 구조를 유지하면서도 숫자 대신 의류 품목을 특징으로 하는 Fashion-MNIST 사용을 고려해 보십시오.

5; 2 년 전에 생성됨 ✏️ 3 전에 업데이트됨