مجموعة بيانات MNIST

Q: What is the MNIST dataset, and why is it important in machine learning?

مجموعة بيانات MNIST، أو مجموعة البيانات المعدلة للمعهد الوطني للمعايير والتكنولوجيا، هي مجموعة مستخدمة على نطاق واسع من الأرقام المكتوبة بخط اليد والمصممة لتدريب واختبار أنظمة تصنيف الصور. وهي تتضمن 60,000 صورة تدريب و 10,000 صورة اختبار، وكلها ذات تدرج رمادي وحجم 28 × 28 بكسل. تكمن أهمية مجموعة البيانات في دورها كمعيار قياسي لتقييم خوارزميات تصنيف الصور، مما يساعد الباحثين والمهندسين على مقارنة الأساليب وتتبع التقدم في هذا المجال.

Q: Can I use Ultralytics Platform to train models on custom datasets like MNIST?

نعم، يمكنك استخدام Ultralytics Platform لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST. توفر Ultralytics Platform واجهة سهلة الاستخدام لتحميل مجموعات البيانات وتدريب النماذج وإدارة المشاريع دون الحاجة إلى معرفة برمجية واسعة. لمزيد من التفاصيل حول كيفية البدء، راجع صفحة البدء السريع لـ Ultralytics Platform.

تُعد مجموعة بيانات MNIST (المعهد الوطني المعدل للمعايير والتكنولوجيا) قاعدة بيانات كبيرة للأرقام المكتوبة بخط اليد تُستخدم عادةً لتدريب أنظمة معالجة الصور المختلفة ونماذج التعلم الآلي. تم إنشاؤها عن طريق "إعادة خلط" العينات من مجموعات بيانات NIST الأصلية وأصبحت معيارًا لتقييم أداء خوارزميات تصنيف الصور.

الميزات الرئيسية

تحتوي MNIST على 60,000 صورة تدريب و 10,000 صورة اختبار للأرقام المكتوبة بخط اليد.
تتكون مجموعة البيانات من صور ذات تدرج رمادي بحجم 28 × 28 بكسل.
يتم تطبيع الصور لتناسب مربع محيط بحجم 28 × 28 بكسل ومضادة للتشويه، مما يؤدي إلى إدخال مستويات الرمادي.
تستخدم MNIST على نطاق واسع للتدريب والاختبار في مجال تعلم الآلة، وخاصة لمهام تصنيف الصور.

هيكل مجموعة البيانات

تنقسم مجموعة بيانات MNIST إلى مجموعتين فرعيتين:

مجموعة التدريب: تحتوي هذه المجموعة الفرعية على 60,000 صورة لأرقام مكتوبة بخط اليد تستخدم لتدريب نماذج التعلم الآلي.
مجموعة الاختبار: تتكون هذه المجموعة الفرعية من 10,000 صورة تستخدم لاختبار وتقييم النماذج المدربة.

الوصول إلى مجموعة البيانات

الملفات الأصلية: قم بتنزيل أرشيفات gzip من صفحة MNIST الخاصة بـ Yann LeCun إذا كنت تريد تحكمًا مباشرًا في المعالجة المسبقة.
محمل Ultralytics: استخدم data="mnist" (أو data="mnist160" (للمجموعة الفرعية أدناه) في الأمر الخاص بك وسيتم تنزيل مجموعة البيانات وتحويلها إلى PNG وتخزينها مؤقتًا تلقائيًا.

يتم تسمية كل صورة في مجموعة البيانات بالرقم المقابل (0-9)، مما يجعلها مجموعة بيانات تعلم خاضعة للإشراف ومثالية لمهام التصنيف.

MNIST الموسعة (EMNIST)

تعد MNIST الموسعة (EMNIST) مجموعة بيانات أحدث تم تطويرها وإصدارها بواسطة NIST لتكون خلفًا لـ MNIST. في حين أن MNIST تضمنت صورًا للأرقام المكتوبة بخط اليد فقط، فإن EMNIST تتضمن جميع الصور من قاعدة بيانات NIST الخاصة 19، وهي قاعدة بيانات كبيرة للأحرف الكبيرة والصغيرة المكتوبة بخط اليد بالإضافة إلى الأرقام. تم تحويل الصور في EMNIST إلى نفس تنسيق 28 × 28 بكسل، بنفس العملية، كما كانت صور MNIST. وفقًا لذلك، من المحتمل أن تعمل الأدوات التي تعمل مع مجموعة بيانات MNIST الأقدم والأصغر دون تعديل مع EMNIST.

التطبيقات

تُستخدم مجموعة بيانات MNIST على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام تصنيف الصور، مثل الشبكات العصبية التلافيفية (CNNs)، و آلات المتجهات الداعمة (SVMs)، والعديد من خوارزميات تعلم الآلة الأخرى. إن تنسيق مجموعة البيانات البسيط والمنظم جيدًا يجعلها موردًا أساسيًا للباحثين والممارسين في مجال تعلم الآلة و رؤية الكمبيوتر.

تتضمن بعض التطبيقات الشائعة ما يلي:

قياس خوارزميات التصنيف الجديدة.
الأغراض التعليمية لتدريس مفاهيم تعلم الآلة
نماذج أولية لأنظمة التعرف على الصور
اختبار تقنيات تحسين النموذج

الاستخدام

لتدريب نموذج CNN على مجموعة بيانات MNIST لعدد 100 حقبة (epoch) بحجم صورة 28×28، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالحجج المتاحة، ارجع إلى صفحة تدريب النموذج.

مثال على التدريب

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

عينات من الصور والشروحات التوضيحية

تحتوي مجموعة بيانات MNIST على صور ذات تدرج رمادي لأرقام مكتوبة بخط اليد، مما يوفر مجموعة بيانات جيدة التنظيم لمهام تصنيف الصور. فيما يلي بعض الأمثلة للصور من مجموعة البيانات:

عينات من مجموعة بيانات تصنيف الأرقام MNIST

يعرض المثال تنوع وتعقيد الأرقام المكتوبة بخط اليد في مجموعة بيانات MNIST، مما يسلط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج قوية لتصنيف الصور.

الاقتباسات والإقرارات

إذا كنت تستخدم مجموعة بيانات MNIST في بحثك أو عملك التطويري، فيرجى الاستشهاد بالورقة التالية:

BibTeX

@article{lecun2010mnist,
         title={MNIST handwritten digit database},
         author={LeCun, Yann and Cortes, Corinna and Burges, CJ},
         journal={ATT Labs [Online]. Available: http://yann.lecun.com/exdb/mnist},
         volume={2},
         year={2010}
}

نود أن نعرب عن تقديرنا ليان ليكان وكورينا كورتيس وكريستوفر ج.ج. بورجيس لإنشاء وصيانة مجموعة بيانات MNIST كمورد قيم لمجتمع أبحاث تعلم الآلة ورؤية الكمبيوتر. لمزيد من المعلومات حول مجموعة بيانات MNIST ومنشئيها، تفضل بزيارة موقع مجموعة بيانات MNIST.

اختبارات سريعة لـ MNIST160

هل تحتاج إلى اختبار انحدار سريع للغاية؟ Ultralytics تعرض أيضًا data="mnist160"، وهي شريحة تحتوي على 160 صورة تتضمن العينات الثمانية الأولى من كل فئة رقمية. وهي تعكس هيكل دليل MNIST، بحيث يمكنك تبديل مجموعات البيانات دون تغيير أي وسيطات أخرى:

مثال التدريب مع MNIST160

CLI

yolo classify train data=mnist160 model=yolo26n-cls.pt epochs=5 imgsz=28

استخدم هذه المجموعة الفرعية لخطوط أنابيب CI أو فحوصات السلامة قبل الالتزام بمجموعة البيانات الكاملة التي تحتوي على 70,000 صورة.

الأسئلة الشائعة

ما هي مجموعة بيانات MNIST، ولماذا هي مهمة في تعلم الآلة؟

تُعد مجموعة بيانات MNIST، أو مجموعة بيانات المعهد الوطني المعدل للمعايير والتكنولوجيا، مجموعة مستخدمة على نطاق واسع من الأرقام المكتوبة بخط اليد مصممة لتدريب واختبار أنظمة تصنيف الصور. تتضمن 60,000 صورة تدريب و 10,000 صورة اختبار، جميعها ذات تدرج رمادي وبحجم 28×28 بكسل. تكمن أهمية مجموعة البيانات في دورها كمعيار قياسي لتقييم خوارزميات تصنيف الصور، مما يساعد الباحثين والمهندسين على مقارنة الأساليب وتتبع التقدم في هذا المجال.

كيف يمكنني استخدام Ultralytics YOLO لتدريب نموذج على مجموعة بيانات MNIST؟

لتدريب نموذج على مجموعة بيانات MNIST باستخدام Ultralytics YOLO، يمكنك اتباع الخطوات التالية:

مثال على التدريب

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="mnist", epochs=100, imgsz=28)

# Start training from a pretrained *.pt model
yolo classify train data=mnist model=yolo26n-cls.pt epochs=100 imgsz=28

للحصول على قائمة مفصلة بحجج التدريب المتاحة، راجع صفحة التدريب.

ما هو الفرق بين مجموعتي بيانات MNIST و EMNIST؟

تحتوي مجموعة بيانات MNIST على أرقام مكتوبة بخط اليد فقط، في حين أن مجموعة بيانات MNIST الموسعة (EMNIST) تتضمن كلاً من الأرقام والأحرف الكبيرة والصغيرة. تم تطوير EMNIST كخلف لمجموعة بيانات MNIST ويستخدم نفس تنسيق 28 × 28 بكسل للصور، مما يجعله متوافقًا مع الأدوات والنماذج المصممة لمجموعة بيانات MNIST الأصلية. هذا النطاق الأوسع من الأحرف في EMNIST يجعله مفيدًا لمجموعة واسعة من تطبيقات تعلم الآلة.

هل يمكنني استخدام Ultralytics Platform لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST؟

نعم، يمكنك استخدام منصة Ultralytics لتدريب النماذج على مجموعات بيانات مخصصة مثل MNIST. توفر منصة Ultralytics واجهة سهلة الاستخدام لتحميل مجموعات البيانات، وتدريب النماذج، وإدارة المشاريع دون الحاجة إلى معرفة برمجية واسعة. لمزيد من التفاصيل حول كيفية البدء، يرجى مراجعة صفحة دليل البدء السريع لمنصة Ultralytics.

كيف تتم مقارنة MNIST بمجموعات بيانات تصنيف الصور الأخرى؟

تعتبر MNIST أبسط من العديد من مجموعات البيانات الحديثة مثل CIFAR-10 أو ImageNet، مما يجعلها مثالية للمبتدئين والتجارب السريعة. في حين أن مجموعات البيانات الأكثر تعقيدًا تقدم تحديات أكبر مع الصور الملونة وفئات الكائنات المتنوعة، تظل MNIST ذات قيمة لبساطتها وحجم ملفها الصغير وأهميتها التاريخية في تطوير خوارزميات تعلم الآلة. لمهام التصنيف الأكثر تقدمًا، ضع في اعتبارك استخدام Fashion-MNIST، التي تحافظ على نفس الهيكل ولكنها تعرض عناصر ملابس بدلاً من الأرقام.

📅 تم الإنشاء قبل 2 سنوات ✏️ تم التحديث قبل 3 أشهر