مجموعة بيانات ImageNet

ImageNet هي قاعدة بيانات واسعة النطاق من الصور المشروحة المصممة للاستخدام في أبحاث التعرف البصري على الأشياء. تحتوي على أكثر من 14 مليون صورة، حيث يتم شرح كل صورة باستخدام مجموعات مرادفات (synsets) من WordNet، مما يجعلها واحدة من أكثر الموارد شمولاً المتاحة لتدريب نماذج التعلم العميق في مهام الرؤية الحاسوبية.

نماذج ImageNet المدربة مسبقاً

النموذجالحجم
(بكسل)
دقة
top1
دقة
top5
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(B) عند 224
YOLO26n-cls22471.490.15.0 ± 0.31.1 ± 0.02.80.5
YOLO26s-cls22476.092.97.9 ± 0.21.3 ± 0.06.71.6
YOLO26m-cls22478.194.217.2 ± 0.42.0 ± 0.011.64.9
YOLO26l-cls22479.094.623.2 ± 0.32.8 ± 0.014.16.2
YOLO26x-cls22479.995.041.4 ± 0.93.8 ± 0.029.613.6

الميزات الرئيسية

  • تحتوي ImageNet على أكثر من 14 مليون صورة عالية الدقة تغطي آلاف فئات الأشياء.
  • يتم تنظيم مجموعة البيانات وفقاً لتسلسل WordNet الهرمي، حيث تمثل كل مجموعة مرادفات (synset) فئة معينة.
  • تُستخدم ImageNet على نطاق واسع للتدريب وقياس الأداء في مجال الرؤية الحاسوبية، وتحديداً في مهام تصنيف الصور وكشف الأشياء.
  • لعب تحدي التعرف البصري واسع النطاق السنوي الخاص بـ ImageNet والمعروف بـ (ILSVRC) دوراً فعالاً في دفع عجلة أبحاث الرؤية الحاسوبية.

هيكل مجموعة البيانات

يتم تنظيم مجموعة بيانات ImageNet باستخدام تسلسل WordNet الهرمي. يمثل كل عقدة في التسلسل فئة، ويتم وصف كل فئة بواسطة مجموعة مرادفات (synset) (مجموعة من المصطلحات المترادفة). يتم شرح الصور في ImageNet بواحدة أو أكثر من هذه المجموعات، مما يوفر مورداً غنياً لتدريب النماذج على التعرف على الأشياء المختلفة وعلاقاتها.

تحدي التعرف البصري واسع النطاق الخاص بـ ImageNet (ILSVRC)

كان تحدي التعرف البصري واسع النطاق الخاص بـ ImageNet (ILSVRC) حدثاً مهماً في مجال الرؤية الحاسوبية. فقد وفر منصة للباحثين والمطورين لتقييم خوارزمياتهم ونماذجهم على مجموعة بيانات واسعة النطاق باستخدام مقاييس تقييم موحدة. أدى ILSVRC إلى تقدم كبير في تطوير نماذج التعلم العميق لتصنيف الصور، وكشف الأشياء، ومهام الرؤية الحاسوبية الأخرى.

التطبيقات

تُستخدم مجموعة بيانات ImageNet على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مختلف مهام الرؤية الحاسوبية، مثل تصنيف الصور، وكشف الأشياء، وتحديد مواقع الأشياء. تم تطوير وقياس أداء بعض بنى التعلم العميق الشهيرة، مثل AlexNet وVGG وResNet، باستخدام مجموعة بيانات ImageNet.

الاستخدام

لتدريب نموذج تعلم عميق على مجموعة بيانات ImageNet لمدة 100 حقبة وبحجم صورة 224x224، يمكنك استخدام مقتطفات الكود التالية. للحصول على قائمة شاملة بالوسيطات المتاحة، ارجع إلى صفحة التدريب الخاصة بالنموذج.

مثال على التدريب
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

صور وعينات تعليقات توضيحية

تحتوي مجموعة بيانات ImageNet على صور عالية الدقة تغطي آلاف فئات الأشياء، مما يوفر مجموعة بيانات متنوعة وشاملة لتدريب وتقييم نماذج الرؤية الحاسوبية. فيما يلي بعض الأمثلة للصور من مجموعة البيانات:

صور عينة من مجموعة بيانات تصنيف ImageNet

يعرض هذا المثال تنوع وتعقيد الصور في مجموعة بيانات ImageNet، مما يسلط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج رؤية حاسوبية قوية.

الاقتباسات والشكر

إذا كنت تستخدم مجموعة بيانات ImageNet في أبحاثك أو عملك التطويري، يرجى الاستشهاد بالورقة البحثية التالية:

اقتباس
@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

نود أن نعرب عن تقديرنا لفريق ImageNet، بقيادة Olga Russakovsky وJia Deng وLi Fei-Fei، لإنشاء والحفاظ على مجموعة بيانات ImageNet كمورد قيم لمجتمع أبحاث التعلم الآلي والرؤية الحاسوبية. لمزيد من المعلومات حول مجموعة بيانات ImageNet ومبتكريها، تفضل بزيارة موقع ImageNet.

الأسئلة الشائعة

ما هي مجموعة بيانات ImageNet وكيف تُستخدم في الرؤية الحاسوبية؟

تُعد مجموعة بيانات ImageNet قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام مجموعات مرادفات (synsets) من WordNet. تُستخدم بشكل مكثف في أبحاث التعرف البصري، بما في ذلك تصنيف الصور وكشف الأشياء. توفر تعليقات مجموعة البيانات وحجمها الهائل مورداً غنياً لتدريب نماذج التعلم العميق. ومن الجدير بالذكر أنه تم تدريب وقياس أداء نماذج مثل AlexNet وVGG وResNet باستخدام ImageNet، مما يبرز دورها في تقدم الرؤية الحاسوبية.

كيف يمكنني استخدام نموذج YOLO مدرب مسبقاً لتصنيف الصور على مجموعة بيانات ImageNet؟

لاستخدام نموذج Ultralytics YOLO مدرب مسبقاً لتصنيف الصور على مجموعة بيانات ImageNet، اتبع الخطوات التالية:

مثال على التدريب
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

للحصول على تعليمات تدريب أكثر تفصيلاً، ارجع إلى صفحة التدريب الخاصة بنا.

لماذا يجب أن أستخدم نماذج Ultralytics YOLO26 المدربة مسبقاً لمشاريع مجموعة بيانات ImageNet الخاصة بي؟

توفر نماذج Ultralytics YOLO26 المدربة مسبقاً أداءً متطوراً من حيث السرعة والدقة لمختلف مهام الرؤية الحاسوبية. على سبيل المثال، تم تحسين نموذج YOLO26n-cls، بدقة top-1 تبلغ 70.0% ودقة top-5 تبلغ 89.4%، للتطبيقات في الوقت الفعلي. تقلل النماذج المدربة مسبقاً من الموارد الحسابية المطلوبة للتدريب من الصفر وتسرع دورات التطوير. تعرف على المزيد حول مقاييس أداء نماذج YOLO26 في قسم نماذج ImageNet المدربة مسبقاً.

كيف يتم تنظيم مجموعة بيانات ImageNet، ولماذا تعتبر مهمة؟

يتم تنظيم مجموعة بيانات ImageNet باستخدام تسلسل WordNet الهرمي، حيث تمثل كل عقدة في التسلسل فئة موصوفة بواسطة مجموعة مرادفات (synset) (مجموعة من المصطلحات المترادفة). يتيح هذا الهيكل إجراء تعليقات تفصيلية، مما يجعلها مثالية لتدريب النماذج على التعرف على مجموعة واسعة من الأشياء. إن تنوع ImageNet وثراء تعليقاتها يجعلها مجموعة بيانات قيمة لتطوير نماذج تعلم عميق قوية وقابلة للتعميم. يمكن العثور على مزيد من المعلومات حول هذا التنظيم في قسم هيكل مجموعة البيانات.

ما الدور الذي يلعبه تحدي التعرف البصري واسع النطاق الخاص بـ ImageNet (ILSVRC) في الرؤية الحاسوبية؟

لعب تحدي التعرف البصري واسع النطاق الخاص بـ ImageNet (ILSVRC) دوراً محورياً في دفع عجلة التقدم في الرؤية الحاسوبية من خلال توفير منصة تنافسية لتقييم الخوارزميات على مجموعة بيانات واسعة النطاق وموحدة. يوفر التحدي مقاييس تقييم موحدة، مما يعزز الابتكار والتطوير في مجالات مثل تصنيف الصور، وكشف الأشياء، وتجزئة الصور. لقد دفع التحدي باستمرار حدود ما هو ممكن باستخدام تقنيات التعلم العميق والرؤية الحاسوبية.

التعليقات