مجموعة بيانات ImageNet

Q: What is the ImageNet dataset and how is it used in computer vision?

مجموعة بيانات ImageNet هي قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام مجموعات WordNet المتشابهة. يتم استخدامه على نطاق واسع في أبحاث التعرف البصري على الكائنات، بما في ذلك تصنيف الصور واكتشاف الكائنات. توفر تعليقات توضيحية وحجم مجموعة البيانات موردًا غنيًا لتدريب نماذج التعلم العميق. والجدير بالذكر أن نماذج مثل AlexNet و VGG و ResNet تم تدريبها وقياسها باستخدام ImageNet، مما يدل على دورها في تطوير رؤية الكمبيوتر.

ImageNet هي قاعدة بيانات واسعة النطاق للصور المشروحة المصممة للاستخدام في أبحاث التعرف البصري على الكائنات. تحتوي على أكثر من 14 مليون صورة، مع شرح كل صورة باستخدام مجموعات WordNet المتشابهة، مما يجعلها واحدة من أكثر الموارد شمولاً المتاحة لتدريب نماذج التعلم العميق في مهام رؤية الكمبيوتر.

نماذج ImageNet المدربة مسبقًا

النموذج	الحجم ^{(بالبكسل)}	acc ^top1	acc ^top5	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^{(B) عند 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

الميزات الرئيسية

تحتوي ImageNet على أكثر من 14 مليون صورة عالية الدقة تغطي آلاف فئات الكائنات.
تم تنظيم مجموعة البيانات وفقًا لتسلسل WordNet الهرمي، حيث يمثل كل synset فئة.
تستخدم ImageNet على نطاق واسع للتدريب وقياس الأداء في مجال رؤية الكمبيوتر، خاصةً لمهام تصنيف الصور و الكشف عن الكائنات.
كانت مسابقة ImageNet Large Scale Visual Recognition Challenge السنوية (ILSVRC) فعالة في تطوير أبحاث رؤية الكمبيوتر.

هيكل مجموعة البيانات

تم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي WordNet. تمثل كل عقدة في التسلسل الهرمي فئة، ويتم وصف كل فئة بواسطة مجموعة متشابهة (مجموعة من المصطلحات المترادفة). يتم تزويد الصور في ImageNet بتعليقات توضيحية مع مجموعة متشابهة واحدة أو أكثر، مما يوفر موردًا غنيًا لتدريب النماذج على التعرف على الكائنات المختلفة وعلاقاتها.

تحدي ImageNet للتعرف البصري على نطاق واسع (ILSVRC)

كانت مسابقة ImageNet Large Scale Visual Recognition Challenge (ILSVRC) السنوية حدثًا مهمًا في مجال رؤية الكمبيوتر. لقد وفرت منصة للباحثين والمطورين لتقييم الخوارزميات والنماذج الخاصة بهم على مجموعة بيانات واسعة النطاق مع مقاييس تقييم موحدة. أدت ILSVRC إلى تطورات كبيرة في تطوير نماذج التعلم العميق لتصنيف الصور واكتشاف الكائنات ومهام رؤية الكمبيوتر الأخرى.

التطبيقات

تستخدم مجموعة بيانات ImageNet على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام رؤية الكمبيوتر المختلفة، مثل تصنيف الصور و object detection وتحديد موقع الكائنات. تم تطوير وقياس بعض هياكل التعلم العميق الشائعة، مثل AlexNet و VGG و ResNet، باستخدام مجموعة بيانات ImageNet.

الاستخدام

لتدريب نموذج تعلم عميق على مجموعة بيانات ImageNet لعدد 100 حقبة (epoch) بحجم صورة 224x224، يمكنك استخدام مقتطفات التعليمات البرمجية التالية. للحصول على قائمة شاملة بالحجج المتاحة، ارجع إلى صفحة تدريب النموذج.

مثال على التدريب

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

عينات من الصور والشروحات التوضيحية

تحتوي مجموعة بيانات ImageNet على صور عالية الدقة تغطي آلاف فئات الكائنات، مما يوفر مجموعة بيانات متنوعة وواسعة لتدريب وتقييم نماذج رؤية الكمبيوتر. فيما يلي بعض الأمثلة على الصور من مجموعة البيانات:

عينات من صور مجموعة بيانات ImageNet

يعرض المثال تنوع وتعقيد الصور في مجموعة بيانات ImageNet، مما يسلط الضوء على أهمية وجود مجموعة بيانات متنوعة لتدريب نماذج رؤية الكمبيوتر القوية.

الاقتباسات والإقرارات

إذا كنت تستخدم مجموعة بيانات ImageNet في بحثك أو عملك التطويري، فيرجى الاستشهاد بالورقة التالية:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

نود أن نتقدم بالشكر إلى فريق ImageNet، بقيادة أولغا روساكوفسكي وجيا دينغ ولي فاي-فاي، لإنشاء مجموعة بيانات ImageNet والحفاظ عليها كمورد قيم لمجتمع التعلم الآلي وأبحاث رؤية الكمبيوتر. لمزيد من المعلومات حول مجموعة بيانات ImageNet ومنشئيها، تفضل بزيارة موقع ImageNet.

الأسئلة الشائعة

ما هي مجموعة بيانات ImageNet وكيف يتم استخدامها في مجال رؤية الحاسوب؟

تعتبر مجموعة بيانات ImageNet قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام مجموعات WordNet المتشابهة. وهي تستخدم على نطاق واسع في أبحاث التعرف البصري على الكائنات، بما في ذلك تصنيف الصور واكتشاف الكائنات. توفر التعليقات التوضيحية لمجموعة البيانات وحجمها الهائل موردًا غنيًا لتدريب نماذج التعلم العميق. والجدير بالذكر أن نماذج مثل AlexNet و VGG و ResNet قد تم تدريبها وتقييمها باستخدام ImageNet، مما يدل على دورها في تطوير رؤية الكمبيوتر.

كيف يمكنني استخدام نموذج YOLO مُدرَّب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet؟

لاستخدام نموذج Ultralytics YOLO مُدرَّب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet، اتبع الخطوات التالية:

مثال على التدريب

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

للحصول على تعليمات تدريب أكثر تعمقًا، راجع صفحة التدريب الخاصة بنا.

لماذا يجب علي استخدام نماذج Ultralytics YOLO26 المدربة مسبقًا لمشاريعي التي تستخدم مجموعة بيانات ImageNet؟

توفر نماذج Ultralytics YOLO26 المدربة مسبقًا أداءً متطورًا من حيث السرعة والدقة لمختلف مهام رؤية الكمبيوتر. على سبيل المثال، تم تحسين نموذج YOLO26n-cls، بدقة أعلى-1 تبلغ 70.0% ودقة أعلى-5 تبلغ 89.4%، لتطبيقات الوقت الفعلي. تقلل النماذج المدربة مسبقًا من الموارد الحاسوبية المطلوبة للتدريب من الصفر وتسرع دورات التطوير. تعرف على المزيد حول مقاييس أداء نماذج YOLO26 في قسم نماذج ImageNet المدربة مسبقًا.

كيف يتم تنظيم مجموعة بيانات ImageNet، ولماذا هي مهمة؟

تم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي WordNet، حيث تمثل كل عقدة في التسلسل الهرمي فئة موصوفة بواسطة مجموعة متشابهة (مجموعة من المصطلحات المترادفة). يسمح هذا الهيكل بتعليقات توضيحية مفصلة، مما يجعله مثاليًا لتدريب النماذج على التعرف على مجموعة واسعة من الكائنات. إن تنوع وثراء التعليقات التوضيحية في ImageNet يجعله مجموعة بيانات قيمة لتطوير نماذج تعلم عميق قوية وقابلة للتعميم. يمكن العثور على مزيد من المعلومات حول هذا التنظيم في قسم هيكل مجموعة البيانات.

ما هو الدور الذي تلعبه مسابقة ImageNet Large Scale Visual Recognition Challenge (ILSVRC) في رؤية الحاسوب؟

كانت مسابقة ImageNet Large Scale Visual Recognition Challenge (ILSVRC) السنوية محورية في دفع التطورات في رؤية الكمبيوتر من خلال توفير منصة تنافسية لتقييم الخوارزميات على مجموعة بيانات موحدة واسعة النطاق. وهي تقدم مقاييس تقييم موحدة، مما يعزز الابتكار والتطوير في مجالات مثل تصنيف الصور واكتشاف الكائنات و تقسيم الصور. لقد دفعت المسابقة باستمرار حدود ما هو ممكن باستخدام تقنيات التعلم العميق ورؤية الكمبيوتر.

📅 تم الإنشاء قبل 2 سنوات ✏️ تم التحديث قبل 3 أشهر