İçeriğe geç

MNIST Veri Kümesi

MNIST (Değiştirilmiş Ulusal Standartlar ve Teknoloji Enstitüsü) veri kümesi, çeşitli görüntü işleme sistemlerini ve makine öğrenimi modellerini eğitmek için yaygın olarak kullanılan büyük bir el yazısı rakam veritabanıdır. NIST'in orijinal veri kümelerindeki örneklerin "yeniden karıştırılması" ile oluşturulmuştur ve görüntü sınıflandırma algoritmalarının performansını değerlendirmek için bir ölçüt haline gelmiştir.

Temel Özellikler

  • MNIST, el yazısı rakamlardan oluşan 60.000 eğitim görüntüsü ve 10.000 test görüntüsü içermektedir.
  • Veri kümesi 28x28 piksel boyutunda gri tonlamalı görüntülerden oluşmaktadır.
  • Görüntüler 28x28 piksellik bir sınırlayıcı kutuya sığacak şekilde normalleştirilir ve gri tonlama seviyeleri eklenerek kenar yumuşatması yapılır.
  • MNIST, özellikle görüntü sınıflandırma görevleri için makine öğrenimi alanında eğitim ve test için yaygın olarak kullanılmaktadır.

Veri Kümesi Yapısı

MNIST veri kümesi iki alt kümeye ayrılmıştır:

  1. Eğitim Seti: Bu alt küme, makine öğrenimi modellerini eğitmek için kullanılan 60.000 el yazısı rakam görüntüsü içerir.
  2. Test Kümesi: Bu alt küme, eğitilen modelleri test etmek ve kıyaslamak için kullanılan 10.000 görüntüden oluşur.

Genişletilmiş MNIST (EMNIST)

Genişletilmiş MNIST (EMNIST), NIST tarafından MNIST'in halefi olarak geliştirilen ve yayınlanan daha yeni bir veri setidir. MNIST yalnızca el yazısı rakamların görüntülerini içerirken, EMNIST el yazısı büyük ve küçük harflerin yanı sıra rakamlardan oluşan geniş bir veritabanı olan NIST Special Database 19'daki tüm görüntüleri içerir. EMNIST'teki görüntüler, MNIST görüntüleriyle aynı işlemden geçirilerek aynı 28x28 piksel formatına dönüştürülmüştür. Buna göre, daha eski ve daha küçük olan MNIST veri setiyle çalışan araçlar EMNIST ile muhtemelen değiştirilmeden çalışacaktır.

Uygulamalar

MNIST veri seti, görüntü sınıflandırma görevlerinde Evrişimli Sinir Ağları (CNN'ler), Destek Vektör Makineleri (SVM'ler) ve diğer çeşitli makine öğrenimi algoritmaları gibi derin öğrenme modellerini eğitmek ve değerlendirmek için yaygın olarak kullanılmaktadır. Veri setinin basit ve iyi yapılandırılmış formatı, onu makine öğrenimi ve bilgisayarla görme alanındaki araştırmacılar ve uygulayıcılar için önemli bir kaynak haline getirmektedir.

Kullanım

Bir CNN modelini 32x32 görüntü boyutunda 100 epok için MNIST veri kümesi üzerinde eğitmek için aşağıdaki kod parçacıklarını kullanabilirsiniz. Kullanılabilir bağımsız değişkenlerin kapsamlı bir listesi için Model Eğitimi sayfasına bakın.

Tren Örneği

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Örnek Görüntüler ve Açıklamalar

MNIST veri kümesi, el yazısı rakamların gri tonlamalı görüntülerini içerir ve görüntü sınıflandırma görevleri için iyi yapılandırılmış bir veri kümesi sağlar. İşte veri kümesinden bazı görüntü örnekleri:

Veri kümesi örnek görüntüsü

Bu örnek, MNIST veri kümesindeki el yazısı rakamların çeşitliliğini ve karmaşıklığını göstermekte ve sağlam görüntü sınıflandırma modellerini eğitmek için çeşitli veri kümelerinin önemini vurgulamaktadır.

Atıflar ve Teşekkür

Eğer MNIST veri setini kullanıyorsanız

araştırma veya geliştirme çalışması, lütfen aşağıdaki makaleye atıfta bulunun:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

Yann LeCun, Corinna Cortes ve Christopher J.C. Burges'e makine öğrenimi ve bilgisayarla görme araştırma topluluğu için değerli bir kaynak olarak MNIST veri setini oluşturdukları ve sürdürdükleri için teşekkür ederiz. MNIST veri seti ve yaratıcıları hakkında daha fazla bilgi için MNIST veri seti web sitesini ziyaret edin.

SSS

MNIST veri seti nedir ve makine öğreniminde neden önemlidir?

MNIST veri kümesi veya Değiştirilmiş Ulusal Standartlar ve Teknoloji Enstitüsü veri kümesi, görüntü sınıflandırma sistemlerini eğitmek ve test etmek için tasarlanmış, yaygın olarak kullanılan bir el yazısı rakam koleksiyonudur. Hepsi gri tonlamalı ve 28x28 piksel boyutunda olan 60.000 eğitim görüntüsü ve 10.000 test görüntüsü içerir. Veri setinin önemi, görüntü sınıflandırma algoritmalarını değerlendirmek için standart bir ölçüt olarak rol oynaması, araştırmacıların ve mühendislerin yöntemleri karşılaştırmasına ve bu alandaki ilerlemeyi takip etmesine yardımcı olmasında yatmaktadır.

MNIST veri kümesi üzerinde bir modeli eğitmek için Ultralytics YOLO adresini nasıl kullanabilirim?

Ultralytics YOLO adresini kullanarak MNIST veri kümesi üzerinde bir model eğitmek için aşağıdaki adımları takip edebilirsiniz:

Tren Örneği

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

Mevcut eğitim argümanlarının ayrıntılı bir listesi için Eğitim sayfasına bakın.

MNIST ve EMNIST veri kümeleri arasındaki fark nedir?

MNIST veri kümesi sadece el yazısı rakamları içerirken, Genişletilmiş MNIST (EMNIST) veri kümesi hem rakamları hem de büyük ve küçük harfleri içerir. EMNIST, MNIST'in halefi olarak geliştirilmiştir ve görüntüler için aynı 28x28 piksel formatını kullanır, bu da onu orijinal MNIST veri kümesi için tasarlanmış araçlar ve modellerle uyumlu hale getirir. EMNIST'teki bu daha geniş karakter yelpazesi, onu daha çeşitli makine öğrenimi uygulamaları için kullanışlı hale getirmektedir.

MNIST gibi özel veri kümeleri üzerinde modelleri eğitmek için Ultralytics HUB'ı kullanabilir miyim?

Evet, MNIST gibi özel veri kümeleri üzerinde modelleri eğitmek için Ultralytics HUB'ı kullanabilirsiniz. Ultralytics HUB, kapsamlı kodlama bilgisine ihtiyaç duymadan veri kümelerini yüklemek, modelleri eğitmek ve projeleri yönetmek için kullanıcı dostu bir arayüz sunar. Nasıl başlayacağınız hakkında daha fazla bilgi için Ultralytics HUB Hızlı Başlangıç sayfasına göz atın.



Oluşturma 2023-11-12, Güncelleme 2024-07-04
Yazarlar: glenn-jocher (6)

Yorumlar