انتقل إلى المحتوى

مجموعة بيانات ImageNet

ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.

نماذج ImageNet المدربة مسبقا

نموذج حجم
(بكسل)
لجنه التنسيق الاداريه
أعلى 1
لجنه التنسيق الاداريه
أعلى 5
السرعة
CPU ONNX
(مللي ثانية)
Speed
T4 TensorRT10
(ms)
المعلمات
(م)
يتخبط
(ب) عند 640
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 110.4

الميزات الرئيسية

  • يحتوي ImageNet على أكثر من 14 مليون صورة عالية الدقة تغطي آلاف فئات الكائنات.
  • يتم تنظيم مجموعة البيانات وفقا للتسلسل الهرمي ل WordNet ، حيث تمثل كل مجموعة توليفة فئة.
  • ImageNet is widely used for training and benchmarking in the field of computer vision, particularly for image classification and object detection tasks.
  • كان تحدي التعرف البصري على نطاق واسع ImageNet السنوي (ILSVRC) مفيدا في تطوير أبحاث رؤية الكمبيوتر.

هيكل مجموعة البيانات

يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي ل WordNet. تمثل كل عقدة في التسلسل الهرمي فئة ، ويتم وصف كل فئة بواسطة مجموعة توليفة (مجموعة من المصطلحات المترادفة). يتم شرح الصور في ImageNet بواحد أو أكثر من synsets ، مما يوفر موردا غنيا لنماذج التدريب للتعرف على الكائنات المختلفة وعلاقاتها.

تحدي التعرف البصري واسع النطاق من ImageNet (ILSVRC)

كان تحدي التعرف البصري على نطاق واسع ImageNet السنوي (ILSVRC) حدثا مهما في مجال رؤية الكمبيوتر. وقد وفرت منصة للباحثين والمطورين لتقييم خوارزمياتهم ونماذجهم على مجموعة بيانات واسعة النطاق مع مقاييس تقييم موحدة. أدى ILSVRC إلى تطورات كبيرة في تطوير نماذج التعلم العميق لتصنيف الصور واكتشاف الأشياء ومهام رؤية الكمبيوتر الأخرى.

التطبيقات

تستخدم مجموعة بيانات ImageNet على نطاق واسع لتدريب وتقييم نماذج التعلم العميق في مهام رؤية الكمبيوتر المختلفة ، مثل تصنيف الصور واكتشاف الكائنات وتوطين الكائنات. تم تطوير بعض معماريات التعلم العميق الشائعة ، مثل AlexNet و VGG و ResNet ، وقياسها باستخدام مجموعة بيانات ImageNet.

استخدام

To train a deep learning model on the ImageNet dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

عينة من الصور والتعليقات التوضيحية

تحتوي مجموعة بيانات ImageNet على صور عالية الدقة تغطي آلاف فئات الكائنات ، مما يوفر مجموعة بيانات متنوعة وشاملة للتدريب وتقييم نماذج رؤية الكمبيوتر. فيما يلي بعض الأمثلة على الصور من مجموعة البيانات:

صور عينة من مجموعة البيانات

يعرض المثال تنوع وتعقيد الصور في مجموعة بيانات ImageNet ، مما يسلط الضوء على أهمية مجموعة البيانات المتنوعة لتدريب نماذج رؤية الكمبيوتر القوية.

الاستشهادات والشكر

إذا كنت تستخدم مجموعة بيانات ImageNet في أعمال البحث أو التطوير الخاصة بك ، فيرجى الاستشهاد بالورقة التالية:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.

الأسئلة المتداولة

ما هي مجموعة بيانات ImageNet وكيف يتم استخدامها في الرؤية الحاسوبية؟

مجموعة بيانات ImageNet عبارة عن قاعدة بيانات واسعة النطاق تتكون من أكثر من 14 مليون صورة عالية الدقة مصنفة باستخدام مجموعات مترادفات WordNet. تُستخدم على نطاق واسع في أبحاث التعرف على الكائنات المرئية، بما في ذلك تصنيف الصور واكتشاف الكائنات. توفر شروح مجموعة البيانات وحجمها الهائل موردًا ثريًا لتدريب نماذج التعلم العميق. والجدير بالذكر أنه تم تدريب نماذج مثل AlexNet وVGG وResNet وقياسها باستخدام ImageNet، مما يبرز دورها في تطوير الرؤية الحاسوبية.

كيف يمكنني استخدام نموذج YOLO المدرب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet؟

لاستخدام نموذج Ultralytics YOLO المدرب مسبقًا لتصنيف الصور على مجموعة بيانات ImageNet، اتبع الخطوات التالية:

مثال القطار

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

لمزيد من التعليمات التدريبية المتعمقة، راجع صفحة التدريب لدينا.

Why should I use the Ultralytics YOLO11 pretrained models for my ImageNet dataset projects?

Ultralytics YOLO11 pretrained models offer state-of-the-art performance in terms of speed and accuracy for various computer vision tasks. For example, the YOLO11n-cls model, with a top-1 accuracy of 69.0% and a top-5 accuracy of 88.3%, is optimized for real-time applications. Pretrained models reduce the computational resources required for training from scratch and accelerate development cycles. Learn more about the performance metrics of YOLO11 models in the ImageNet Pretrained Models section.

كيف يتم تنظيم مجموعة بيانات ImageNet، ولماذا هي مهمة؟

يتم تنظيم مجموعة بيانات ImageNet باستخدام التسلسل الهرمي لشبكة WordNet، حيث تمثل كل عقدة في التسلسل الهرمي فئة موصوفة بواسطة مجموعة مترادفات (مجموعة من المصطلحات المترادفة). تسمح هذه البنية بوضع شروح مفصّلة، مما يجعلها مثالية لتدريب النماذج للتعرف على مجموعة واسعة من الكائنات. إن التنوع والثراء التوضيحي ل ImageNet يجعلها مجموعة بيانات قيّمة لتطوير نماذج تعلّم عميق قوية وقابلة للتعميم. يمكن الاطلاع على المزيد حول هذا التنظيم في قسم بنية مجموعة البيانات.

ما الدور الذي تلعبه مسابقة ImageNet للتعرف على المرئيات على نطاق واسع (ILSVRC) في مجال الرؤية الحاسوبية؟

The annual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) has been pivotal in driving advancements in computer vision by providing a competitive platform for evaluating algorithms on a large-scale, standardized dataset. It offers standardized evaluation metrics, fostering innovation and development in areas such as image classification, object detection, and image segmentation. The challenge has continuously pushed the boundaries of what is possible with deep learning and computer vision technologies.


📅 Created 11 months ago ✏️ Updated 8 days ago

التعليقات