تخطي إلى المحتوى

مقارنة فنية بين YOLOX و YOLOv7

يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا لأي مشروع رؤية حاسوبية، مما يؤثر بشكل مباشر على الأداء والسرعة وجدوى النشر. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين مؤثرين في عائلة YOLO: YOLOX و YOLOv7. سوف نستكشف الاختلافات المعمارية ومعايير الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير.

YOLOX: تميز بدون نقاط ارتكاز

تم تقديم YOLOX ككاشف خالٍ من المرساة عالي الأداء، بهدف تبسيط مسار الكشف مع تحسين الأداء مقارنة بإصدارات YOLO السابقة. تسد فلسفة تصميمه الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تبسيط عملية التدريب.

المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
المستندات: https://yolox.readthedocs.io/en/latest/

البنية والميزات الرئيسية

تبرز YOLOX بالعديد من الابتكارات المعمارية الرئيسية التي تميزها عن سابقاتها:

  • تصميم بدون مربعات ارتكاز (Anchor-Free): من خلال إلغاء مربعات الارتكاز المحددة مسبقًا، يقلل YOLOX من عدد معلمات التصميم والتعقيد المرتبط بضبط الارتكاز. وهذا يجعل النموذج أكثر مرونة وأفضل في التعميم على الكائنات ذات الأشكال والأحجام المتنوعة، خاصة على مجموعات البيانات مثل COCO.
  • Decoupled Head: على عكس الرؤوس المزدوجة التي تقوم بالتصنيف والتوطين في وقت واحد، تستخدم YOLOX رأسًا منفصلًا. لقد ثبت أن هذا الفصل يحل التعارض بين المهمتين، مما يؤدي إلى تقارب أسرع أثناء التدريب ودقة أعلى.
  • زيادة متقدمة للبيانات: يستفيد النموذج من تقنيات زيادة البيانات القوية، بما في ذلك MixUp و Mosaic، لتعزيز متانته ومنع التركيب الزائد. يمكنك معرفة المزيد حول هذه التقنيات في دليلنا حول زيادة البيانات.
  • تعيين تسمية SimOTA: تقدم YOLOX استراتيجية متقدمة لتعيين التسميات تسمى SimOTA (تعيين النقل الأمثل المبسط). تقوم بتعيين عينات إيجابية ديناميكيًا للتدريب، مما يحسن كفاءة التدريب ويساعد النموذج على تعلم ميزات أفضل.

نقاط القوة والضعف

نقاط القوة:

  • مسار مبسط: إن النهج الخالي من المرساة يبسط عملية التدريب والنشر عن طريق إزالة الحاجة إلى تجميع المرساة وضبطها.
  • تعميم قوي: يساعد الجمع بين التصميم الخالي من المرساة وتقوية البيانات القوية النموذج على التعميم بشكل جيد على المجالات ومجموعات البيانات الجديدة.
  • توازن أداء جيد: يوفر YOLOX مقايضة قوية بين السرعة والدقة عبر مقاييس النماذج المختلفة.

نقاط الضعف:

  • تجاوزته نماذج أحدث: على الرغم من كفاءة YOLOX، فقد تم تجاوزها في السرعة والدقة من خلال بنيات أحدث مثل YOLOv7 ونماذج Ultralytics اللاحقة.
  • قيود النظام البيئي: YOLOX ليس جزءًا من نظام بيئي متكامل مثل Ultralytics، مما قد يجعل النشر و MLOps أكثر صعوبة. يفتقر إلى التكامل السلس مع أدوات مثل Ultralytics HUB.

تعرف على المزيد حول YOLOX

YOLOv7: قمة السرعة والدقة

عند إطلاقه، وضع YOLOv7 معيارًا جديدًا لأحدث التقنيات في مجال كشف الأجسام في الوقت الفعلي، مما أظهر تحسينات ملحوظة في كل من السرعة والدقة. وقد حقق ذلك من خلال تقديم العديد من التحسينات المعمارية واستراتيجيات التدريب.

المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
المستندات: https://docs.ultralytics.com/models/yolov7/

البنية والميزات الرئيسية

يرجع الأداء المتفوق لـ YOLOv7 إلى مكوناتها المعمارية المتقدمة وتحسينات التدريب:

  • E-ELAN (شبكة تجميع الطبقات الفعالة الموسعة): تتيح هذه الوحدة الأساسية في العمود الفقري للشبكة تعلم المزيد من الميزات المتنوعة عن طريق التحكم في مسارات التدرج، مما يعزز التعلم دون تعطيل تدفق التدرج.
  • حقيبة الحيل المجانية القابلة للتدريب: يقدم YOLOv7 مجموعة من طرق التدريب التي تعزز الدقة دون زيادة تكلفة الاستنتاج. ويشمل ذلك تقنيات مثل التدريب الموجه من الخشن إلى الدقيق والرؤوس الإضافية التي توجه عملية التعلم.
  • توسيع النموذج: يقدم النموذج أساليب توسيع مركبة للعمق والعرض مُحسَّنة للهياكل القائمة على التسلسل، مما يضمن أداءً فعالاً عبر أحجام النماذج المختلفة.
  • التفافية مُعادة التهيئة: يستخدم YOLOv7 إعادة تهيئة النموذج لتحسين الأداء، وهي تقنية أصبحت شائعة منذ ذلك الحين في تصميم الشبكات الحديثة.

نقاط القوة والضعف

نقاط القوة:

  • مقايضة استثنائية بين السرعة والدقة: يوفر YOLOv7 توازنًا مذهلاً بين mAP العالي وسرعات الاستدلال السريعة، مما يجعله مثاليًا للتطبيقات في الوقت الفعلي.
  • كفاءة التدريب: يتيح له نهج "حقيبة الامتيازات المجانية" تحقيق دقة عالية مع تدريب فعال.
  • أداء مثبت: لقد وضع معيارًا جديدًا لكاشفات الكائنات في الوقت الفعلي على مجموعات البيانات القياسية.

نقاط الضعف:

  • التعقيد المعماري: إن الجمع بين E-ELAN والرؤوس الإضافية والميزات الأخرى يجعل الهندسة المعمارية أكثر تعقيدًا من النماذج الأبسط.
  • التدريب المكثف للموارد: قد يتطلب تدريب نماذج YOLOv7 الأكبر حجمًا موارد حسابية كبيرة وذاكرة GPU.
  • تنوع محدود: على الرغم من أن المستودع الرسمي يحتوي على ملحقات مدفوعة من المجتمع لمهام مثل تقدير الوضعية، إلا أنه ليس إطار عمل متعدد المهام بطبيعته مثل نماذج Ultralytics الأحدث.

تعرف على المزيد حول YOLOv7

مقارنة مباشرة للأداء: YOLOX ضد YOLOv7

عند مقارنة الأداء، يقدم كلا النموذجين مجموعة من الأحجام لتناسب الميزانيات الحسابية المختلفة. يوفر YOLOX عائلة قابلة للتطوير من Nano إلى X، بينما يركز YOLOv7 على تقديم أداء عالي المستوى مع متغيراته الأكبر.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

من الجدول، من الواضح أن نماذج YOLOv7 تحقق عمومًا درجات mAP أعلى. على سبيل المثال، تتفوق YOLOv7l على YOLOXx في الدقة (51.4٪ مقابل 51.1٪) مع عدد أقل بكثير من المعلمات (36.9 مليون مقابل 99.1 مليون) وعمليات الفلوبس (FLOPs) (104.7 مليار مقابل 281.9 مليار)، وهي أسرع بكثير على وحدة معالجة الرسوميات (GPU) T4. هذا يسلط الضوء على الكفاءة المعمارية الفائقة لـ YOLOv7.

لماذا نماذج Ultralytics YOLO هي الخيار المفضل

في حين أن YOLOX و YOLOv7 كانا تطورات كبيرة، فإن نماذج Ultralytics YOLO الأحدث مثل YOLOv8 و YOLO11 تقدم تجربة أكثر حداثة وتنوعًا وسهولة في الاستخدام.

  • سهولة الاستخدام: تم تصميم نماذج Ultralytics مع وضع المطور في الاعتبار، وتتميز بواجهة برمجة تطبيقات Python مبسطة و توثيق شامل و أوامر CLI بسيطة تجعل التدريب والتحقق والنشر أمرًا مباشرًا.
  • نظام بيئي مُدار بشكل جيد: استفد من نظام بيئي قوي مع تطوير نشط ومجتمع مفتوح المصدر كبير وتحديثات متكررة وتكامل سلس مع أدوات مثل Ultralytics HUB لـ MLOps الشامل.
  • تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي أطر عمل حقيقية متعددة المهام، تدعم اكتشاف الأجسام، والتقسيم، والتصنيف، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB) خارج الصندوق.
  • الأداء والكفاءة: توفر نماذج Ultralytics توازنًا ممتازًا بين السرعة والدقة، وهي مُحسَّنة للاستخدام الفعال للذاكرة، ومناسبة لمجموعة واسعة من الأجهزة من الأجهزة الطرفية إلى الخوادم السحابية.

الخلاصة

يعتبر كل من YOLOX و YOLOv7 من نماذج الكشف عن الأجسام القوية التي دفعت حدود الممكن في مجال رؤية الحاسوب. يُعد YOLOX جديرًا بالثناء لتصميمه المبتكر الخالي من الارتكاز، والذي يبسّط مسار الكشف. يتميز YOLOv7 بسرعته ودقته الاستثنائيتين، مما يجعله خيارًا قويًا للتطبيقات الصعبة في الوقت الفعلي.

ومع ذلك، بالنسبة للمطورين والباحثين اليوم، تمثل نماذج Ultralytics مثل YOLOv8 و YOLO11 الخطوة التالية إلى الأمام. إنها توفر أداءً فائقًا وتنوعًا أكبر ونظامًا بيئيًا أكثر شمولاً وسهولة في الاستخدام، مما يجعلها الخيار الموصى به لبناء حلول رؤية الذكاء الاصطناعي الحديثة عالية الأداء.

مقارنات النماذج الأخرى

للحصول على مزيد من الأفكار، استكشف مقارنات النماذج الأخرى:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات