تخطي إلى المحتوى

مجموعة بيانات MNIST

مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا ( MNIST ) المعدّلة هي قاعدة بيانات كبيرة للأرقام المكتوبة بخط اليد والتي تُستخدم عادةً لتدريب مختلف أنظمة معالجة الصور ونماذج التعلم الآلي. وقد تم إنشاؤها عن طريق "إعادة خلط" العينات من مجموعات بيانات المعهد الوطني للمعايير والتكنولوجيا الوطنية الأصلية وأصبحت معياراً لتقييم أداء خوارزميات تصنيف الصور.

الميزات الرئيسية

  • يحتوي برنامج MNIST على 60,000 صورة تدريب و10,000 صورة اختبار لأرقام مكتوبة بخط اليد.
  • تتألف مجموعة البيانات من صور بتدرج الرمادي بحجم 28 × 28 بكسل.
  • يتم تطبيع الصور لتتناسب مع المربع المحيط 28 × 28 بكسل ومضاد للصقل مع إدخال مستويات التدرج الرمادي.
  • يُستخدم MNIST على نطاق واسع للتدريب والاختبار في مجال التعلم الآلي، خاصةً في مهام تصنيف الصور.

هيكلية مجموعة البيانات

تنقسم مجموعة بيانات MNIST إلى مجموعتين فرعيتين:

  1. مجموعة التدريب: تحتوي هذه المجموعة الفرعية على 60,000 صورة لأرقام مكتوبة بخط اليد تُستخدم لتدريب نماذج التعلم الآلي.
  2. مجموعة الاختبار: تتألف هذه المجموعة الفرعية من 10,000 صورة تُستخدم لاختبار النماذج المدرّبة وقياسها.

النظام الموسع لقائمة MNIST (EMNIST)

قاعدة البيانات الموسّعة MNIST (EMNIST) هي مجموعة بيانات أحدث تم تطويرها وإصدارها من قبل المعهد الوطني للمعايير والتكنولوجيا (NIST) لتكون خلفاً لقاعدة البيانات MNIST. بينما تضمّنت MNIST صورًا للأرقام المكتوبة بخط اليد فقط، تضمّنت EMNIST جميع الصور من قاعدة بيانات NIST الخاصة رقم 19، وهي قاعدة بيانات كبيرة للأحرف الكبيرة والصغيرة المكتوبة بخط اليد بالإضافة إلى الأرقام. تم تحويل الصور الموجودة في EMNIST إلى نفس تنسيق 28 × 28 بكسل، بنفس العملية التي تم بها تحويل صور قاعدة بيانات المعهد الوطني للمعايير الوطنية للمعايير والتكنولوجيا (MNIST). وبناءً على ذلك، فإن الأدوات التي تعمل مع مجموعة بيانات MNIST الأقدم والأصغر حجمًا ستعمل على الأرجح دون تعديل مع EMNIST.

التطبيقات

تُستخدم مجموعة بيانات MNIST على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام تصنيف الصور، مثل الشبكات العصبية التلافيفية (CNNs) وآلات دعم المتجهات (SVMs) وخوارزميات التعلم الآلي الأخرى المختلفة. إن تنسيق مجموعة البيانات البسيط والمنظم بشكل جيد يجعلها موردًا أساسيًا للباحثين والممارسين في مجال التعلم الآلي والرؤية الحاسوبية.

الاستخدام

لتدريب نموذج CNN على مجموعة بيانات MNIST لـ 100 حلقة تدريبية بحجم صورة 32 × 32، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالوسائط المتاحة، راجع صفحة تدريب النموذج.

مثال على القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

عينة من الصور والتعليقات التوضيحية

تحتوي مجموعة بيانات MNIST على صور بتدرج الرمادي لأرقام مكتوبة بخط اليد، مما يوفر مجموعة بيانات جيدة التنظيم لمهام تصنيف الصور. فيما يلي بعض الأمثلة لصور من مجموعة البيانات:

صورة عينة مجموعة البيانات

يعرض هذا المثال تنوّع وتعقيد الأرقام المكتوبة بخط اليد في مجموعة بيانات MNIST، مما يسلّط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج تصنيف الصور القوية.

الاستشهادات والشكر والتقدير

إذا كنت تستخدم مجموعة بيانات MNIST في

أعمال البحث أو التطوير، يرجى الاستشهاد بالورقة التالية:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

نود أن نشكر يان لوكون، وكورينا كورتيس، وكريستوفر جيه سي بورجز على إنشاء مجموعة بيانات MNIST وصيانتها كمصدر قيّم لمجتمع أبحاث التعلم الآلي والرؤية الحاسوبية. لمزيد من المعلومات حول مجموعة بيانات MNIST ومنشئيها، يرجى زيارة الموقع الإلكتروني لمجموعة بيانات MNIST.

الأسئلة الشائعة

ما هي مجموعة بيانات MNIST، وما أهميتها في التعلم الآلي؟

مجموعة بيانات MNIST، أو مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا المعدلة، هي مجموعة مستخدمة على نطاق واسع من الأرقام المكتوبة بخط اليد والمصممة لتدريب واختبار أنظمة تصنيف الصور. وهي تتضمن 60,000 صورة للتدريب و10,000 صورة للاختبار، وجميعها ذات تدرج رمادي وحجم 28 × 28 بكسل. وتكمن أهمية مجموعة البيانات في دورها كمعيار قياسي لتقييم خوارزميات تصنيف الصور، مما يساعد الباحثين والمهندسين على مقارنة الأساليب وتتبع التقدم في هذا المجال.

كيف يمكنني استخدام Ultralytics YOLO لتدريب نموذج على مجموعة بيانات MNIST؟

لتدريب نموذج على مجموعة بيانات MNIST باستخدام Ultralytics YOLO ، يمكنك اتباع الخطوات التالية:

مثال على القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo11n-cls.pt epochs=100 imgsz=28

للحصول على قائمة مفصلة بحجج التدريب المتاحة، راجع صفحة التدريب.

ما الفرق بين مجموعتي بيانات MNIST و EMNIST؟

تحتوي مجموعة بيانات MNIST على أرقام مكتوبة بخط اليد فقط، في حين أن مجموعة بيانات MNIST الموسعة (EMNIST) تتضمن أرقامًا وحروفًا كبيرة وصغيرة. تم تطوير EMNIST كخلف ل MNIST ويستخدم نفس تنسيق 28 × 28 بكسل للصور، مما يجعله متوافقًا مع الأدوات والنماذج المصممة لمجموعة بيانات MNIST الأصلية. هذا النطاق الأوسع من الأحرف في EMNIST يجعله مفيدًا لمجموعة واسعة من تطبيقات التعلّم الآلي.

هل يمكنني استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST؟

نعم، يمكنك استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST. Ultralytics يوفر HUB واجهة سهلة الاستخدام لتحميل مجموعات البيانات وتدريب النماذج وإدارة المشاريع دون الحاجة إلى معرفة واسعة بالترميز. لمزيد من التفاصيل حول كيفية البدء، راجع صفحة Ultralytics HUB Quickstart.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات