انتقل إلى المحتوى

مجموعة بيانات MNIST

مجموعة بيانات MNIST (المعهد الوطني المعدل للمعايير والتكنولوجيا) هي قاعدة بيانات كبيرة من الأرقام المكتوبة بخط اليد والتي تستخدم بشكل شائع لتدريب أنظمة معالجة الصور المختلفة ونماذج التعلم الآلي. تم إنشاؤه عن طريق "إعادة مزج" العينات من مجموعات البيانات الأصلية ل NIST وأصبح معيارا لتقييم أداء خوارزميات تصنيف الصور.

الميزات الرئيسية

  • يحتوي MNIST على 60000 صورة تدريب و 10000 صورة اختبار للأرقام المكتوبة بخط اليد.
  • تشتمل مجموعة البيانات على صور بتدرج الرمادي بحجم 28 × 28 بكسل.
  • The images are normalized to fit into a 28x28 pixel bounding box and anti-aliased, introducing grayscale levels.
  • يستخدم MNIST على نطاق واسع للتدريب والاختبار في مجال التعلم الآلي ، خاصة لمهام تصنيف الصور.

هيكل مجموعة البيانات

تنقسم مجموعة بيانات MNIST إلى مجموعتين فرعيتين:

  1. مجموعة التدريب: تحتوي هذه المجموعة الفرعية على 60000 صورة لأرقام مكتوبة بخط اليد تستخدم لتدريب نماذج التعلم الآلي.
  2. مجموعة الاختبار: تتكون هذه المجموعة الفرعية من 10000 صورة تستخدم لاختبار النماذج المدربة وقياسها.

MNIST الموسعة (EMNIST)

Extended MNIST (EMNIST) هي مجموعة بيانات أحدث تم تطويرها وإصدارها بواسطة NIST لتكون خليفة MNIST. بينما تضمن MNIST صورا للأرقام المكتوبة بخط اليد فقط ، يتضمن EMNIST جميع الصور من قاعدة بيانات NIST الخاصة 19 ، وهي قاعدة بيانات كبيرة من الأحرف الكبيرة والصغيرة المكتوبة بخط اليد بالإضافة إلى الأرقام. تم تحويل الصور في EMNIST إلى نفس تنسيق 28 × 28 بكسل ، بنفس العملية ، كما كانت صور MNIST. وفقا لذلك ، من المحتمل أن تعمل الأدوات التي تعمل مع مجموعة بيانات MNIST الأقدم والأصغر دون تعديل مع EMNIST.

التطبيقات

The MNIST dataset is widely used for training and evaluating deep learning models in image classification tasks, such as Convolutional Neural Networks (CNNs), Support Vector Machines (SVMs), and various other machine learning algorithms. The dataset's simple and well-structured format makes it an essential resource for researchers and practitioners in the field of machine learning and computer vision.

استخدام

To train a CNN model on the MNIST dataset for 100 epochs with an image size of 32x32, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

عينة من الصور والتعليقات التوضيحية

The MNIST dataset contains grayscale images of handwritten digits, providing a well-structured dataset for image classification tasks. Here are some examples of images from the dataset:

صورة عينة مجموعة البيانات

يعرض المثال تنوع وتعقيد الأرقام المكتوبة بخط اليد في مجموعة بيانات MNIST ، مما يسلط الضوء على أهمية مجموعة البيانات المتنوعة لتدريب نماذج تصنيف الصور القوية.

الاستشهادات والشكر

إذا كنت تستخدم مجموعة بيانات MNIST في

أعمال البحث أو التطوير ، يرجى ذكر الورقة التالية:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

We would like to acknowledge Yann LeCun, Corinna Cortes, and Christopher J.C. Burges for creating and maintaining the MNIST dataset as a valuable resource for the machine learning and computer vision research community. For more information about the MNIST dataset and its creators, visit the MNIST dataset website.

الأسئلة المتداولة

ما هي مجموعة بيانات MNIST، وما أهميتها في التعلم الآلي؟

مجموعة بيانات MNIST، أو مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا المعدلة، هي مجموعة مستخدمة على نطاق واسع من الأرقام المكتوبة بخط اليد والمصممة لتدريب واختبار أنظمة تصنيف الصور. وهي تتضمن 60,000 صورة للتدريب و10,000 صورة للاختبار، وجميعها ذات تدرج رمادي وحجم 28 × 28 بكسل. وتكمن أهمية مجموعة البيانات في دورها كمعيار قياسي لتقييم خوارزميات تصنيف الصور، مما يساعد الباحثين والمهندسين على مقارنة الأساليب وتتبع التقدم في هذا المجال.

كيف يمكنني استخدام Ultralytics YOLO لتدريب نموذج على مجموعة بيانات MNIST؟

لتدريب نموذج على مجموعة بيانات MNIST باستخدام Ultralytics YOLO ، يمكنك اتباع الخطوات التالية:

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

للحصول على قائمة مفصلة بحجج التدريب المتاحة، راجع صفحة التدريب.

ما الفرق بين مجموعتي بيانات MNIST و EMNIST؟

تحتوي مجموعة بيانات MNIST على أرقام مكتوبة بخط اليد فقط، في حين أن مجموعة بيانات MNIST الموسعة (EMNIST) تتضمن أرقامًا وحروفًا كبيرة وصغيرة. تم تطوير EMNIST كخلف ل MNIST ويستخدم نفس تنسيق 28 × 28 بكسل للصور، مما يجعله متوافقًا مع الأدوات والنماذج المصممة لمجموعة بيانات MNIST الأصلية. هذا النطاق الأوسع من الأحرف في EMNIST يجعله مفيدًا لمجموعة واسعة من تطبيقات التعلّم الآلي.

هل يمكنني استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST؟

نعم، يمكنك استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST. Ultralytics يوفر HUB واجهة سهلة الاستخدام لتحميل مجموعات البيانات وتدريب النماذج وإدارة المشاريع دون الحاجة إلى معرفة واسعة بالترميز. لمزيد من التفاصيل حول كيفية البدء، راجع صفحة Ultralytics HUB Quickstart.


📅 Created 11 months ago ✏️ Updated 6 days ago

التعليقات