انتقل إلى المحتوى

مجموعة بيانات MNIST

مجموعة بيانات MNIST (المعهد الوطني المعدل للمعايير والتكنولوجيا) هي قاعدة بيانات كبيرة من الأرقام المكتوبة بخط اليد والتي تستخدم بشكل شائع لتدريب أنظمة معالجة الصور المختلفة ونماذج التعلم الآلي. تم إنشاؤه عن طريق "إعادة مزج" العينات من مجموعات البيانات الأصلية ل NIST وأصبح معيارا لتقييم أداء خوارزميات تصنيف الصور.

الميزات الرئيسية

  • يحتوي MNIST على 60000 صورة تدريب و 10000 صورة اختبار للأرقام المكتوبة بخط اليد.
  • تشتمل مجموعة البيانات على صور بتدرج الرمادي بحجم 28 × 28 بكسل.
  • يتم تسوية الصور لتلائم مربعا محيطا بدقة 28 × 28 بكسل ومصقول ، مما يؤدي إلى إدخال مستويات تدرج الرمادي.
  • يستخدم MNIST على نطاق واسع للتدريب والاختبار في مجال التعلم الآلي ، خاصة لمهام تصنيف الصور.

هيكل مجموعة البيانات

تنقسم مجموعة بيانات MNIST إلى مجموعتين فرعيتين:

  1. مجموعة التدريب: تحتوي هذه المجموعة الفرعية على 60000 صورة لأرقام مكتوبة بخط اليد تستخدم لتدريب نماذج التعلم الآلي.
  2. مجموعة الاختبار: تتكون هذه المجموعة الفرعية من 10000 صورة تستخدم لاختبار النماذج المدربة وقياسها.

MNIST الموسعة (EMNIST)

Extended MNIST (EMNIST) هي مجموعة بيانات أحدث تم تطويرها وإصدارها بواسطة NIST لتكون خليفة MNIST. بينما تضمن MNIST صورا للأرقام المكتوبة بخط اليد فقط ، يتضمن EMNIST جميع الصور من قاعدة بيانات NIST الخاصة 19 ، وهي قاعدة بيانات كبيرة من الأحرف الكبيرة والصغيرة المكتوبة بخط اليد بالإضافة إلى الأرقام. تم تحويل الصور في EMNIST إلى نفس تنسيق 28 × 28 بكسل ، بنفس العملية ، كما كانت صور MNIST. وفقا لذلك ، من المحتمل أن تعمل الأدوات التي تعمل مع مجموعة بيانات MNIST الأقدم والأصغر دون تعديل مع EMNIST.

التطبيقات

تستخدم مجموعة بيانات MNIST على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام تصنيف الصور ، مثل الشبكات العصبية التلافيفية (CNNs) ، وآلات دعم المتجهات (SVMs) ، والعديد من خوارزميات التعلم الآلي الأخرى. إن تنسيق مجموعة البيانات البسيط والمنظم جيدا يجعلها موردا أساسيا للباحثين والممارسين في مجال التعلم الآلي ورؤية الكمبيوتر.

استخدام

لتدريب نموذج CNN على مجموعة بيانات MNIST ل 100 حقبة بحجم صورة 32 × 32 ، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالوسيطات المتاحة، ارجع إلى صفحة نموذج التدريب .

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

عينة من الصور والتعليقات التوضيحية

تحتوي مجموعة بيانات MNIST على صور ذات تدرج رمادي للأرقام المكتوبة بخط اليد ، مما يوفر مجموعة بيانات جيدة التنظيم لمهام تصنيف الصور. فيما يلي بعض الأمثلة على الصور من مجموعة البيانات:

صورة عينة مجموعة البيانات

يعرض المثال تنوع وتعقيد الأرقام المكتوبة بخط اليد في مجموعة بيانات MNIST ، مما يسلط الضوء على أهمية مجموعة البيانات المتنوعة لتدريب نماذج تصنيف الصور القوية.

الاستشهادات والشكر

إذا كنت تستخدم مجموعة بيانات MNIST في

أعمال البحث أو التطوير ، يرجى ذكر الورقة التالية:

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

نود أن نعرب عن تقديرنا ل Yann LeCun و Corinna Cortes و Christopher JC Burges لإنشاء مجموعة بيانات MNIST والحفاظ عليها كمورد قيم لمجتمع أبحاث التعلم الآلي ورؤية الكمبيوتر. لمزيد من المعلومات حول مجموعة بيانات MNIST ومنشئيها، تفضل بزيارة موقع مجموعة بيانات MNIST على الويب.

الأسئلة المتداولة

ما هي مجموعة بيانات MNIST، وما أهميتها في التعلم الآلي؟

مجموعة بيانات MNIST، أو مجموعة بيانات المعهد الوطني للمعايير والتكنولوجيا المعدلة، هي مجموعة مستخدمة على نطاق واسع من الأرقام المكتوبة بخط اليد والمصممة لتدريب واختبار أنظمة تصنيف الصور. وهي تتضمن 60,000 صورة للتدريب و10,000 صورة للاختبار، وجميعها ذات تدرج رمادي وحجم 28 × 28 بكسل. وتكمن أهمية مجموعة البيانات في دورها كمعيار قياسي لتقييم خوارزميات تصنيف الصور، مما يساعد الباحثين والمهندسين على مقارنة الأساليب وتتبع التقدم في هذا المجال.

كيف يمكنني استخدام Ultralytics YOLO لتدريب نموذج على مجموعة بيانات MNIST؟

لتدريب نموذج على مجموعة بيانات MNIST باستخدام Ultralytics YOLO ، يمكنك اتباع الخطوات التالية:

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=32)
# Start training from a pretrained *.pt model
cnn detect train data=mnist model=yolov8n-cls.pt epochs=100 imgsz=28

للحصول على قائمة مفصلة بحجج التدريب المتاحة، راجع صفحة التدريب.

ما الفرق بين مجموعتي بيانات MNIST و EMNIST؟

تحتوي مجموعة بيانات MNIST على أرقام مكتوبة بخط اليد فقط، في حين أن مجموعة بيانات MNIST الموسعة (EMNIST) تتضمن أرقامًا وحروفًا كبيرة وصغيرة. تم تطوير EMNIST كخلف ل MNIST ويستخدم نفس تنسيق 28 × 28 بكسل للصور، مما يجعله متوافقًا مع الأدوات والنماذج المصممة لمجموعة بيانات MNIST الأصلية. هذا النطاق الأوسع من الأحرف في EMNIST يجعله مفيدًا لمجموعة واسعة من تطبيقات التعلّم الآلي.

هل يمكنني استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST؟

نعم، يمكنك استخدام Ultralytics HUB لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST. Ultralytics يوفر HUB واجهة سهلة الاستخدام لتحميل مجموعات البيانات وتدريب النماذج وإدارة المشاريع دون الحاجة إلى معرفة واسعة بالترميز. لمزيد من التفاصيل حول كيفية البدء، راجع صفحة Ultralytics HUB Quickstart.



تم الإنشاء 2023-11-12-2023، تم التحديث 2024-07-04-2024
المؤلفون: جلين-جوتشر (6)

التعليقات