مجموعة بيانات ImageNet
ImageNet هي قاعدة بيانات واسعة النطاق للصور المشروحة المصممة للاستخدام في أبحاث التعرف على الأشياء المرئية. وهي تحتوي على أكثر من 14 مليون صورة، وكل صورة مشروحة باستخدام مجموعات متلازمات WordNet، مما يجعلها واحدة من أكثر الموارد المتاحة لتدريب نماذج التعلم العميق في مهام الرؤية الحاسوبية.
نماذج ImageNet المدربة مسبقاً
الطراز | الحجم (بكسل) |
اعتماد توب 1 |
أعلى 5 |
السرعة CPU ONNX (مللي ثانية) |
السرعة T4 T4TensorRT10 (مللي ثانية) |
بارامز (م) |
(ب) عند 640 (ب) في 640 |
---|---|---|---|---|---|---|---|
YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 1.6 | 3.3 |
YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 5.5 | 12.1 |
YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 10.4 | 39.3 |
YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 12.9 | 49.4 |
YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 28.4 | 110.4 |
الميزات الرئيسية
- تحتوي ImageNet على أكثر من 14 مليون صورة عالية الدقة تغطي آلاف من فئات الكائنات.
- تم تنظيم مجموعة البيانات وفقًا للتسلسل الهرمي لشبكة WordNet، حيث تمثل كل مجموعة من المزامنة فئة.
- تُستخدم ImageNet على نطاق واسع في التدريب والقياس في مجال الرؤية الحاسوبية، خاصةً في مهام تصنيف الصور واكتشاف الأجسام.
- كان لتحدي ImageNet السنوي للتعرف البصري على نطاق واسع (ILSVRC) دور فعال في تطوير أبحاث الرؤية الحاسوبية.
هيكلية مجموعة البيانات
يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي ل WordNet. وتمثل كل عقدة في التسلسل الهرمي فئة، ويتم وصف كل فئة من خلال مجموعة مترادفات (مجموعة من المصطلحات المترادفة). يتم شرح الصور في ImageNet بمجموعة مترادفات واحدة أو أكثر، مما يوفر موردًا ثريًا لنماذج التدريب للتعرف على الكائنات المختلفة وعلاقاتها.
تحدي التعرف البصري على الصور على نطاق واسع ImageNet (ILSVRC)
لطالما كانت مسابقة ImageNet السنوية للتعرّف على المرئيات على نطاق واسع (ILSVRC ) حدثًا مهمًا في مجال الرؤية الحاسوبية. فقد وفرت منصة للباحثين والمطورين لتقييم خوارزمياتهم ونماذجهم على مجموعة بيانات واسعة النطاق بمقاييس تقييم موحدة. وقد أدى تحدي ILSVRC إلى تحقيق تقدم كبير في تطوير نماذج التعلم العميق لتصنيف الصور واكتشاف الأجسام وغيرها من مهام الرؤية الحاسوبية.
التطبيقات
تُستخدم مجموعة بيانات ImageNet على نطاق واسع لتدريب وتقييم نماذج التعلّم العميق في مختلف مهام الرؤية الحاسوبية، مثل تصنيف الصور واكتشاف الأجسام وتحديد مواقعها. تم تطوير بعض بنيات التعلّم العميق الشائعة، مثل AlexNet وVGG وResNet، وقياسها باستخدام مجموعة بيانات ImageNet.
الاستخدام
لتدريب نموذج تعلّم عميق على مجموعة بيانات ImageNet ل 100 حلقة تدريبية بحجم صورة 224 × 224، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالوسائط المتاحة، راجع صفحة تدريب النموذج.
مثال على القطار
عينة من الصور والتعليقات التوضيحية
تحتوي مجموعة بيانات ImageNet على صور عالية الدقة تغطي الآلاف من فئات الأجسام، مما يوفر مجموعة بيانات متنوعة وشاملة لتدريب نماذج الرؤية الحاسوبية وتقييمها. فيما يلي بعض الأمثلة لصور من مجموعة البيانات:
يعرض هذا المثال تنوع الصور وتعقيدها في مجموعة بيانات ImageNet، مما يسلط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج رؤية حاسوبية قوية.
الاستشهادات والشكر والتقدير
إذا كنت تستخدم مجموعة بيانات ImageNet في عملك البحثي أو التطويري، يُرجى الاستشهاد بالورقة البحثية التالية:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
نود أن نعرب عن تقديرنا لفريق ImageNet، بقيادة أولغا روساكوفسكي وجيا دينغ ولي فاي-فاي، لإنشاء مجموعة بيانات ImageNet وصيانتها كمصدر قيّم لمجتمع أبحاث التعلم الآلي والرؤية الحاسوبية. لمزيد من المعلومات حول مجموعة بيانات ImageNet ومنشئيها، يرجى زيارة موقع ImageNet على الويب.
الأسئلة الشائعة
ما هي مجموعة بيانات ImageNet وكيف يتم استخدامها في الرؤية الحاسوبية؟
مجموعة بيانات ImageNet عبارة عن قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام مجموعات مترادفات WordNet. تُستخدم على نطاق واسع في أبحاث التعرف على الكائنات المرئية، بما في ذلك تصنيف الصور واكتشاف الكائنات. توفر شروح مجموعة البيانات وحجمها الهائل موردًا ثريًا لتدريب نماذج التعلم العميق. والجدير بالذكر أنه تم تدريب نماذج مثل AlexNet وVGG وResNet وقياسها باستخدام ImageNet، مما يبرز دورها في تطوير الرؤية الحاسوبية.
كيف يمكنني استخدام نموذج YOLO المدرب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet؟
لاستخدام نموذج Ultralytics YOLO المدرب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet، اتبع الخطوات التالية:
مثال على القطار
لمزيد من التعليمات التدريبية المتعمقة، راجع صفحة التدريب لدينا.
لماذا يجب أن أستخدم النماذج التي تم تدريبها مسبقًا على Ultralytics YOLO11 لمشاريع مجموعة بيانات ImageNet الخاصة بي؟
Ultralytics YOLO11 تقدم النماذج المدربة مسبقًا أداءً متطورًا من حيث السرعة والدقة لمختلف مهام الرؤية الحاسوبية. على سبيل المثال، تم تحسين نموذج YOLO11n-cls، الذي تبلغ دقته القصوى 69.0% ودقة أعلى 5 دقة 88.3%، للتطبيقات في الوقت الحقيقي. تعمل النماذج المدربة مسبقًا على تقليل الموارد الحسابية المطلوبة للتدريب من الصفر وتسريع دورات التطوير. تعرف على المزيد حول مقاييس الأداء لنماذج YOLO11 في قسم نماذج ImageNet سابقة التدريب في قسم نماذج ImageNet سابقة التدريب.
كيف يتم تنظيم مجموعة بيانات ImageNet، ولماذا هي مهمة؟
يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي لشبكة WordNet، حيث تمثل كل عقدة في التسلسل الهرمي فئة موصوفة بواسطة مجموعة مترادفات (مجموعة من المصطلحات المترادفة). تسمح هذه البنية بوضع شروح مفصّلة، مما يجعلها مثالية لتدريب النماذج للتعرف على مجموعة واسعة من الكائنات. إن التنوع والثراء التوضيحي ل ImageNet يجعلها مجموعة بيانات قيّمة لتطوير نماذج تعلّم عميق قوية وقابلة للتعميم. يمكن الاطلاع على المزيد حول هذا التنظيم في قسم بنية مجموعة البيانات.
ما الدور الذي تلعبه مسابقة ImageNet للتعرف البصري على نطاق واسع (ILSVRC) في مجال الرؤية الحاسوبية؟
لعبت مسابقة ImageNet السنوية للتعرف على الصور على نطاق واسع (ILSVRC ) دورًا محوريًا في دفع عجلة التقدم في مجال الرؤية الحاسوبية من خلال توفير منصة تنافسية لتقييم الخوارزميات على مجموعة بيانات موحدة واسعة النطاق. ويوفر هذا التحدي مقاييس تقييم موحدة، مما يعزز الابتكار والتطوير في مجالات مثل تصنيف الصور واكتشاف الأجسام وتجزئة الصور. لقد دفع التحدي باستمرار حدود ما هو ممكن مع تقنيات التعلم العميق والرؤية الحاسوبية.