MNIST 데이터 세트
MNIST (미국 국립표준기술연구소) 데이터 세트는 다양한 이미지 처리 시스템과 머신 러닝 모델을 훈련하는 데 일반적으로 사용되는 대규모 필기 숫자 데이터베이스입니다. NIST의 원본 데이터 세트에서 샘플을 "재혼합"하여 생성되었으며 이미지 분류 알고리즘의 성능을 평가하는 벤치마크가 되었습니다.
주요 기능
- MNIST에는 60,000개의 훈련 이미지와 10,000개의 손글씨 숫자 테스트 이미지가 포함되어 있습니다.
- 데이터 세트는 28×28 픽셀 크기의 그레이 스케일 이미지로 구성됩니다.
- 이미지는 28×28픽셀 바운딩 박스에 맞게 정규화되고 앤티 앨리어싱되어 회색조 레벨이 도입됩니다.
- MNIST는 머신러닝 분야, 특히 이미지 분류 작업의 훈련 및 테스트에 널리 사용됩니다.
데이터 세트 구조
MNIST 데이터 세트는 두 개의 하위 집합으로 나뉩니다:
- 훈련 세트: 이 하위 집합에는 머신 러닝 모델 학습에 사용되는 60,000개의 손글씨 숫자 이미지가 포함되어 있습니다.
- 테스트 세트: 이 하위 집합은 학습된 모델을 테스트하고 벤치마킹하는 데 사용되는 10,000개의 이미지로 구성됩니다.
데이터 세트의 각 이미지에는 해당 숫자(0-9)로 레이블이 지정되어 있어 분류 작업에 이상적인 지도 학습 데이터 세트입니다.
확장 MNIST(EMNIST)
확장된 MNIST(EMNIST)는 MNIST의 후속으로 NIST에서 개발하여 공개한 최신 데이터 세트입니다. MNIST에는 손으로 쓴 숫자의 이미지만 포함되어 있는 반면, EMNIST에는 숫자는 물론 손으로 쓴 대문자와 소문자의 대규모 데이터베이스인 NIST 특수 데이터베이스 19의 모든 이미지가 포함되어 있습니다. EMNIST의 이미지는 MNIST 이미지와 동일한 프로세스를 통해 동일한 28×28픽셀 포맷으로 변환되었습니다. 따라서 이전의 더 작은 MNIST 데이터 세트에서 작동하는 도구는 EMNIST에서도 수정하지 않고 작동할 가능성이 높습니다.
애플리케이션
MNIST 데이터 세트는 컨볼루션 신경망 (CNN), 서포트 벡터 머신 (SVM) 및 기타 다양한 머신 러닝 알고리즘과 같은 이미지 분류 작업에서 딥 러닝 모델을 훈련하고 평가하는 데 널리 사용됩니다. 데이터 세트의 형식이 간단하고 체계적이어서 머신 러닝 및 컴퓨터 비전 분야의 연구자와 실무자에게 필수적인 리소스입니다.
몇 가지 일반적인 애플리케이션은 다음과 같습니다:
- 새로운 분류 알고리즘 벤치마킹
- 머신 러닝 개념 교육을 위한 교육 목적
- 이미지 인식 시스템 프로토타이핑
- 모델 최적화 기법 테스트
사용법
이미지 크기가 32×32인 100개의 에포크에 대해 MNIST 데이터 세트에서 CNN 모델을 훈련하려면 다음 코드 스니펫을 사용할 수 있습니다. 사용 가능한 인수의 전체 목록은 모델 훈련 페이지를 참조하세요.
열차 예시
샘플 이미지 및 주석
MNIST 데이터 세트에는 손으로 쓴 숫자의 회색조 이미지가 포함되어 있어 이미지 분류 작업을 위한 잘 구조화된 데이터 세트를 제공합니다. 다음은 데이터 세트의 이미지 몇 가지 예시입니다:
이 예는 MNIST 데이터 세트에 있는 필기 숫자의 다양성과 복잡성을 보여주며, 강력한 이미지 분류 모델을 훈련하기 위해 다양한 데이터 세트의 중요성을 강조합니다.
인용 및 감사
연구 또는 개발 작업에 MNIST 데이터셋을 사용하는 경우 다음 논문을 인용해 주세요:
머신 러닝 및 컴퓨터 비전 연구 커뮤니티를 위한 귀중한 리소스인 MNIST 데이터 세트를 만들고 유지 관리해 주신 Yann LeCun, Corinna Cortes, Christopher J.C. Burges에게 감사의 말씀을 전합니다. MNIST 데이터 세트와 제작자에 대한 자세한 내용은 MNIST 데이터 세트 웹사이트를 참조하세요.
자주 묻는 질문
MNIST 데이터 세트는 무엇이며 머신 러닝에서 중요한 이유는 무엇인가요?
MNIST 데이터 세트 또는 수정된 국립표준기술연구소 데이터 세트는 이미지 분류 시스템의 훈련 및 테스트를 위해 설계된 널리 사용되는 수기 숫자 모음입니다. 여기에는 60,000개의 훈련 이미지와 10,000개의 테스트 이미지가 포함되어 있으며, 모두 28×28픽셀 크기의 회색조 이미지입니다. 이 데이터 세트의 중요성은 이미지 분류 알고리즘을 평가하기 위한 표준 벤치마크로서 연구자와 엔지니어가 해당 분야의 방법을 비교하고 진행 상황을 추적하는 데 도움이 된다는 데 있습니다.
Ultralytics YOLO 을 사용하여 MNIST 데이터 세트에서 모델을 훈련하려면 어떻게 해야 하나요?
Ultralytics YOLO 을 사용하여 MNIST 데이터 세트에서 모델을 학습시키려면 다음 단계를 따르세요:
열차 예시
사용 가능한 교육 인수에 대한 자세한 목록은 교육 페이지를 참조하세요.
MNIST와 EMNIST 데이터 세트의 차이점은 무엇인가요?
MNIST 데이터 세트는 손으로 쓴 숫자만 포함하지만, 확장된 MNIST(EMNIST) 데이터 세트는 숫자와 대문자 및 소문자를 모두 포함합니다. EMNIST는 MNIST의 후속으로 개발되었으며 이미지에 동일한 28×28픽셀 형식을 사용하므로 원래 MNIST 데이터 세트용으로 설계된 도구 및 모델과 호환됩니다. EMNIST의 더 넓은 문자 범위는 더 다양한 머신 러닝 애플리케이션에 유용합니다.
Ultralytics HUB를 사용하여 MNIST와 같은 사용자 지정 데이터 세트에서 모델을 학습시킬 수 있나요?
예, Ultralytics HUB를 사용하여 MNIST와 같은 사용자 지정 데이터 세트에서 모델을 훈련할 수 있습니다. Ultralytics HUB는 광범위한 코딩 지식 없이도 데이터 세트 업로드, 모델 학습, 프로젝트 관리를 위한 사용자 친화적인 인터페이스를 제공합니다. 시작하는 방법에 대한 자세한 내용은 Ultralytics HUB 빠른 시작 페이지를 참조하세요.
MNIST는 다른 이미지 분류 데이터 세트와 어떻게 비교되나요?
MNIST는 CIFAR-10이나 ImageNet과 같은 최신 데이터 세트보다 단순하기 때문에 초보자와 빠른 실험에 이상적입니다. 더 복잡한 데이터 세트는 컬러 이미지와 다양한 객체 범주로 인해 더 큰 문제를 제공하지만, MNIST는 단순성, 작은 파일 크기, 머신 러닝 알고리즘 개발에서 역사적인 중요성 때문에 여전히 가치가 있습니다. 보다 고급 분류 작업을 위해서는 동일한 구조를 유지하되 숫자 대신 의류 품목을 특징으로 하는 Fashion-MNIST를 사용하는 것이 좋습니다.