YOLOv7 ضد YOLOX: مقارنة فنية مفصلة
يعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية لمشاريع رؤية الكمبيوتر. يعد فهم نقاط القوة والضعف المحددة للتصميمات المختلفة أمرًا أساسيًا لتحقيق أعلى أداء. تقدم هذه الصفحة مقارنة فنية بين نموذجين مؤثرين، YOLOv7 و YOLOX، مع تفصيل الفروق الدقيقة المعمارية ومعايير الأداء وسيناريوهات النشر المثالية.
YOLOv7: كشف عالي الدقة وفعال
وضعت YOLOv7، التي تم تقديمها في يوليو 2022، بسرعة معايير جديدة لكاشفات الكائنات في الوقت الفعلي من خلال تحسين كفاءة التدريب وسرعة الاستدلال. وهي تمثل خطوة كبيرة إلى الأمام في تحقيق التوازن بين السرعة والدقة للتطبيقات الصعبة.
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
قدم YOLOv7 العديد من الابتكارات المعمارية المفصلة في ورقته. المكون الرئيسي هو شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN)، والتي تعزز قدرة الشبكة على التعلم دون تعطيل مسار التدرج، مما يحسن استخلاص الميزات. يستخدم النموذج أيضًا تقنيات توسيع متقدمة مناسبة للنماذج القائمة على التسلسل ويستخدم "حقيبة التدريب المجانية القابلة للتدريب". هذه تحسينات للتدريب، مثل التفاف إعادة المعلمات المخطط له والخسارة المساعدة من الخشن إلى الدقيق، والتي تعمل على تحسين الدقة دون زيادة تكلفة الاستدلال. تسمح هذه الميزات لـ YOLOv7 بتحقيق أحدث النتائج في اكتشاف الكائنات بأحجام نماذج تنافسية.
الأداء وحالات الاستخدام
يتفوق YOLOv7 في السيناريوهات التي تتطلب كلاً من الاستدلال السريع والدقة العالية. إن مقاييس mAP والسرعة الرائعة تجعله خيارًا قويًا لتطبيقات مثل تحليل الفيديو في الوقت الفعلي و أنظمة القيادة الذاتية ومعالجة الصور عالية الدقة. في عمليات نشر المدن الذكية، يمكن استخدام YOLOv7 في إدارة حركة المرور أو تحسين الأنظمة الأمنية للكشف الفوري عن التهديدات.
نقاط القوة والضعف
- نقاط القوة: يوفر توازنًا قويًا بين دقة الكشف وسرعة الاستدلال. يستخدم تقنيات تدريب متقدمة ("حقيبة من الأشياء المجانية") لتحسين الأداء دون زيادة كبيرة في المتطلبات الحسابية أثناء الاستدلال. يشتمل التصميم على وحدات متطورة مثل E-ELAN.
- نقاط الضعف: يمكن أن تكون البنية وعملية التدريب أكثر تعقيدًا مقارنة بالنماذج الأبسط مثل YOLOv5. يتطلب تدريب نماذج YOLOv7 الأكبر حجمًا أيضًا موارد حسابية كبيرة، على الرغم من أن الاستدلال يظل سريعًا.
YOLOX: تميز بدون نقاط ارتكاز
يتميز YOLOX، الذي قدمته Megvii في عام 2021، بتصميمه الخالي من المرساة، مما يبسط عملية التدريب ويهدف إلى تعزيز التعميم. من خلال الابتعاد عن مربعات المرساة المحددة مسبقًا، يتوقع YOLOX مواقع الأجسام مباشرةً، مما يوفر نهجًا مختلفًا للكشف عن الأجسام.
المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
المستندات: https://yolox.readthedocs.io/en/latest/
البنية والميزات الرئيسية
يتبنى YOLOX العديد من الابتكارات المعمارية الرئيسية. يزيل نهجه الخالي من الارتكاز الحاجة إلى مربعات الارتكاز، مما يقلل من تعقيد التصميم والتكلفة الحسابية. وهذا يجعله أكثر قابلية للتكيف مع أحجام الكائنات ونسب العرض إلى الارتفاع المختلفة، مما قد يحسن الأداء على مجموعات البيانات المتنوعة مثل COCO. كما أنه يستخدم رأسًا منفصلاً للتصنيف والتوطين، مما يساهم في التقارب الأسرع وتحسين الدقة. يستخدم YOLOX تقنيات زيادة البيانات القوية مثل MixUp و Mosaic واستراتيجية متقدمة لتعيين التسميات تسمى SimOTA (تعيين النقل الأمثل المبسط) لزيادة تحسين كفاءة التدريب.
الأداء وحالات الاستخدام
يحقق YOLOX توازنًا جيدًا بين السرعة والدقة. طبيعته الخالية من الربط تجعله مناسبًا بشكل خاص للتطبيقات التي تختلف فيها مقاييس الكائنات بشكل كبير. إنه منافس قوي للمهام التي تتطلب كشفًا فعالًا ودقيقًا، كما هو الحال في الروبوتات وعمليات نشر الذكاء الاصطناعي على الحافة. على سبيل المثال، في التصنيع، يمكن استخدام YOLOX لفحص الجودة، والاستفادة من قوته في أشكال الكائنات المتنوعة للكشف عن العيوب.
نقاط القوة والضعف
- نقاط القوة: تصميم خالٍ من الارتكازات يبسط التنفيذ وخطوط تدفق التدريب. تعمل زيادة البيانات القوية ونهج عدم وجود الارتكازات على تحسين التعميم لمجموعات البيانات الجديدة. يساهم الرأس المنفصل وطبيعة عدم وجود الارتكازات في الاستدلال الفعال.
- نقاط الضعف: على الرغم من كفاءتها، قد لا تكون الأسرع بين جميع نماذج YOLO، خاصةً مقارنة بالإصدارات المحسّنة من YOLOv7 أو نماذج Ultralytics الأحدث مثل YOLOv8. علاوة على ذلك، فهي ليست جزءًا من نظام Ultralytics البيئي المتكامل، مما قد يؤدي إلى نقص التكامل السلس مع أدوات مثل Ultralytics HUB.
الأداء والمعايير: YOLOv7 ضد YOLOX
عند مقارنة النموذجين، يحقق YOLOv7 عمومًا دقة أعلى (mAP) لنماذجه الأكبر، مما يدفع بأحدث التقنيات للكشف في الوقت الفعلي وقت إصداره. من ناحية أخرى، يوفر YOLOX مجموعة واسعة من النماذج القابلة للتطوير، من YOLOX-Nano الصغير جدًا إلى YOLOX-X الكبير. يمكن أن يوفر تصميم YOLOX الخالي من المرساة مزايا في البساطة والتعميم، بينما يزيد نهج "حقيبة المكافآت المجانية" الخاص بـ YOLOv7 من الدقة دون إضافة حمل استدلالي.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
الخلاصة والتوصية
يعتبر كل من YOLOv7 و YOLOX من نماذج الكشف عن الأجسام القوية التي قدمت مساهمات كبيرة في هذا المجال. يعتبر YOLOv7 خيارًا ممتازًا للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة بسرعات في الوقت الفعلي هو الهدف الأساسي. بينما يقدم YOLOX بديلاً مقنعًا بدون نقاط ارتكاز يتفوق في التعميم ويوفر مجموعة قابلة للتطوير بدرجة كبيرة من النماذج المناسبة لمختلف الميزانيات الحسابية.
ومع ذلك، بالنسبة للمطورين والباحثين الذين يبحثون عن الإطار الأكثر حداثة وتنوعًا وسهولة في الاستخدام، غالبًا ما تقدم نماذج Ultralytics YOLO الأحدث مثل YOLOv8 و Ultralytics YOLO11 خيارًا أكثر إقناعًا. تقدم هذه النماذج العديد من المزايا الرئيسية:
- سهولة الاستخدام: تجربة مستخدم مبسطة مع واجهة برمجة تطبيقات Python بسيطة، و توثيق شامل، و أوامر CLI مباشرة.
- نظام بيئي مُدار جيدًا: تطوير نشط، ومجتمع مفتوح المصدر قوي، وتحديثات متكررة، وتكامل سلس مع أدوات مثل Ultralytics HUB لـ MLOps شامل.
- تنوع الاستخدامات: دعم مهام رؤية متعددة تتجاوز اكتشاف الكائنات، بما في ذلك التجزئة، و التصنيف، و تقدير الوضعية، و اكتشاف الكائنات الموجهة (OBB).
- موازنة الأداء: مقايضة ممتازة بين السرعة والدقة، ومناسبة لسيناريوهات العالم الحقيقي المتنوعة من الأجهزة الطرفية إلى الخوادم السحابية.
- كفاءة التدريب: عمليات تدريب فعالة، وأوزان مُدرَّبة مسبقًا متاحة بسهولة، وأوقات تقارب أسرع.
استكشف نماذج أخرى
للمزيد من الاستكشاف، ضع في اعتبارك هذه المقارنات التي تتضمن YOLOv7 و YOLOX ونماذج أخرى ذات صلة:
- YOLOv7 ضد YOLOv8
- YOLOv5 ضد YOLOX
- RT-DETR مقابل YOLOv7
- استكشف أحدث النماذج مثل YOLOv10 و YOLO11.