YOLOv7 ضد YOLOv9: مقارنة فنية مفصلة
عند اختيار نموذج YOLO لـ اكتشاف الكائنات، من الضروري فهم الفروق الدقيقة بين الإصدارات المختلفة. تقدم هذه الصفحة مقارنة فنية مفصلة بين YOLOv7 و YOLOv9، وهما نموذجان مهمان في سلسلة YOLO تم تطويرهما بواسطة باحثين في معهد علوم المعلومات، أكاديميا سينيكا، تايوان. سوف نستكشف الابتكارات المعمارية ومعايير الأداء والملاءمة للتطبيقات المختلفة لمساعدتك على اتخاذ قرار مستنير لمشروعك التالي في مجال الرؤية الحاسوبية.
YOLOv7: الكشف الفعال والسريع عن الأجسام
تم إصدار YOLOv7 في يوليو 2022، وكان نموذجًا بارزًا يهدف إلى تحسين السرعة والدقة بشكل كبير للكشف عن الكائنات في الوقت الفعلي، ووضع معايير جديدة للكفاءة في ذلك الوقت.
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
تتمحور فلسفة تصميم YOLOv7 حول زيادة سرعة الاستدلال إلى أقصى حد دون المساس بالدقة. قدمت العديد من العناصر المعمارية الرئيسية واستراتيجيات التدريب لتحقيق هذا التوازن:
- شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN): هذا المكون الأساسي للهيكل الأساسي يعزز قدرة الشبكة على التعلم من خلال إدارة تجميع الميزات بشكل أكثر كفاءة. كما هو مفصل في ورقة البحث، فإنه يسمح للنموذج بتعلم ميزات أكثر قوة دون زيادة كبيرة في التكلفة الحسابية.
- التحجيم النموذجي المركب: قدم YOLOv7 طرق تحجيم مركبة لعمق النموذج وعرضه، مما يتيح التحسين الفعال عبر مجموعة من أحجام النماذج لتناسب الميزانيات الحسابية المختلفة.
- حقيبة الحيل المجانية القابلة للتدريب: يتضمن هذا المفهوم دمج تقنيات تحسين متنوعة أثناء عملية التدريب، مثل زيادة البيانات المتقدمة واستراتيجيات تعيين التسميات. تعمل هذه الطرق على تحسين دقة النموذج النهائي دون إضافة أي أعباء على تكلفة الاستنتاج.
نقاط القوة والضعف
نقاط القوة
- سرعة استنتاج عالية: مُحسَّنة للتطبيقات في الوقت الفعلي، وغالبًا ما تقدم YOLOv7 استنتاجًا أسرع من العديد من النماذج اللاحقة في بعض تكوينات الأجهزة وأحجام الدُفعات.
- أداء قوي: يحقق درجات mAP تنافسية، مما يجعله خيارًا موثوقًا وقويًا للعديد من مهام الكشف.
- نموذج راسخ: نظرًا لكونه متاحًا لبعض الوقت، يستفيد YOLOv7 من اعتماد أوسع، وموارد مجتمعية واسعة النطاق، والعديد من أمثلة النشر المثبتة.
نقاط الضعف
- دقة قصوى أقل: بالمقارنة مع YOLOv9 الأحدث، قد يُظهر YOLOv7 دقة قصوى أقل قليلاً، خاصة في السيناريوهات المعقدة التي تحتوي على العديد من الكائنات الصغيرة أو المتداخلة.
- اكتشاف قائم على المرساة: يعتمد على مربعات مرساة محددة مسبقًا، والتي يمكن أن تكون في بعض الأحيان أقل مرونة من الأساليب الخالية من المرساة لاكتشاف الكائنات ذات نسب العرض إلى الارتفاع غير العادية أو شديدة التنوع.
حالات الاستخدام
يتناسب YOLOv7 بشكل جيد للغاية مع التطبيقات التي تكون فيها سرعة الاستدلال هي العامل الأكثر أهمية:
- أنظمة تحليل الفيديو والمراقبة الآنية.
- Edge AI عمليات النشر على الأجهزة ذات الموارد المحدودة، مثل تلك الموجودة في الروبوتات والطائرات بدون طيار.
- النماذج الأولية والتطوير السريع لأنظمة الكشف عن الأجسام حيث يكون الإنجاز السريع ضروريًا.
YOLOv9: معلومات التدرج القابلة للبرمجة لتحسين الدقة
تم تقديم YOLOv9 في فبراير 2024، وهو يمثل تطورًا معماريًا كبيرًا من خلال معالجة مشكلة فقدان المعلومات في الشبكات العصبية العميقة بشكل مباشر، مما يؤدي إلى مكاسب كبيرة في الدقة.
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
المستندات: https://docs.ultralytics.com/models/yolov9/
البنية والميزات الرئيسية
يقدم YOLOv9 مفاهيم جديدة مصممة لتحسين تدفق المعلومات عبر الشبكة، مما يؤدي إلى تعلم أكثر فعالية ودقة أعلى.
- معلومات التدرج القابلة للبرمجة (PGI): هذا هو حجر الزاوية في ابتكار YOLOv9. تعالج PGI مشكلة عنق الزجاجة المعلوماتي الكامنة في الشبكات العميقة عن طريق إنشاء تدرجات موثوقة من خلال فروع عكسية مساعدة. وهذا يضمن الحفاظ على المعلومات الهامة للتحديثات في الطبقات العميقة، مما يمنع فقدان التفاصيل الرئيسية اللازمة للاكتشاف الدقيق.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): بناءً على نجاحات بنيات مثل CSPNet (المستخدمة في YOLOv5)، GELAN هي بنية شبكة جديدة وعالية الكفاءة. إنها تعمل على تحسين استخدام المعلمات والكفاءة الحسابية، مما يسمح لـ YOLOv9 بتحقيق أداء أفضل بموارد أقل.
نقاط القوة والضعف
نقاط القوة
- دقة محسنة: يؤدي الجمع بين PGI و GELAN إلى استخلاص ميزات فائقة ونتائج mAP أعلى بشكل ملحوظ مقارنةً بـ YOLOv7، ويظهر ذلك بشكل خاص في متغيرات النموذج الأكبر.
- كفاءة محسّنة: تحقق YOLOv9 دقة أفضل مع عدد أقل من المعلمات والحسابات من النماذج السابقة. بالنسبة لمستوى معين من الدقة، غالبًا ما تكون YOLOv9 أكثر كفاءة من YOLOv7.
- ابتكارات هي الأحدث على مستوى التقنية: إنها تمثل أحدث التطورات من سلالة أبحاث YOLO الأصلية، مما يدفع حدود ما هو ممكن في اكتشاف الكائنات في الوقت الفعلي.
نقاط الضعف
- المتطلبات الحسابية: على الرغم من كفاءة البنية المتقدمة من حيث الدقة، إلا أنها لا تزال تتطلب موارد حسابية كبيرة للتدريب والنشر، خاصةً في المتغيرات الأكبر مثل YOLOv9e.
- نموذج أحدث: باعتباره إصدارًا أحدث، قد يكون دعم المجتمع والبرامج التعليمية الخاصة بنشر الطرف الثالث أقل شمولاً من نموذج راسخ مثل YOLOv7. ومع ذلك، فإن دمجه في نظام Ultralytics البيئي يساعد في التخفيف من ذلك من خلال توفير تجربة مستخدم مبسطة.
حالات الاستخدام
يعد YOLOv9 هو الخيار الأمثل للتطبيقات التي تتطلب أعلى مستويات الدقة والكفاءة:
- مهام اكتشاف معقدة في المركبات ذاتية القيادة وأنظمة مساعدة السائق المتقدمة.
- أنظمة أمنية عالية الدقة تتطلب تقليل الإيجابيات والسّلبيات الكاذبة.
- التطبيقات التي يكون فيها حجم النموذج والتكلفة الحسابية من القيود الحاسمة، ولكن لا يمكن التنازل عن الدقة العالية.
مقارنة وجهاً لوجه للأداء والكفاءة
عند مقارنة YOLOv7 و YOLOv9 مباشرة، يظهر اتجاه واضح: يوفر YOLOv9 توازنًا فائقًا بين الدقة والتكلفة الحسابية. على سبيل المثال، يحقق نموذج YOLOv9m نفس mAP بنسبة 51.4٪ مثل YOLOv7l ولكنه يفعل ذلك بنصف عدد المعلمات تقريبًا (20.0 مليون مقابل 36.9 مليون) وعدد أقل من FLOPs. وبالمثل، يقدم YOLOv9c أداءً مشابهًا لـ YOLOv7x (53.0٪ مقابل 53.1٪ mAP) مع كونه أكثر كفاءة بشكل ملحوظ، باستخدام 25.3 مليون معلمة فقط مقارنة بـ 71.3 مليون معلمة في YOLOv7x. هذه الزيادة في الكفاءة هي نتيجة مباشرة للتحسينات المعمارية في YOLOv9، وخاصة PGI و GELAN، التي تتيح تعلمًا أكثر فعالية.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv9t | 640 | 38.3 | - | 2.30 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
الخلاصة والتوصيات
يعتبر كل من YOLOv7 و YOLOv9 من نماذج الكشف عن الأجسام القوية، لكنهما يخدمان أولويات مختلفة قليلًا.
-
لا يزال YOLOv7 منافسًا قويًا، خاصة بالنسبة للتطبيقات التي تكون فيها سرعة الاستدلال الخام هي الشغل الشاغل، ويفضل استخدام بنية راسخة ومدعومة على نطاق واسع. إنه حصان عمل مثبت للعديد من الأنظمة في الوقت الفعلي.
-
YOLOv9 هو الخلف الواضح والخيار الموصى به للمشاريع الجديدة التي تتطلب أحدث دقة وكفاءة. تحل بنيته المبتكرة المشكلات الرئيسية في التعلم العميق، مما ينتج عنه نموذج أكثر دقة وأكثر كفاءة من الناحية الحسابية من سابقه.
في حين أن كلا النموذجين ممتازان، يجب على المطورين الذين يبحثون عن حل أكثر تكاملاً وتنوعًا أن يفكروا أيضًا في نماذج من نظام Ultralytics البيئي، مثل Ultralytics YOLOv8 وأحدث YOLO11. تقدم هذه النماذج تجربة مستخدم مبسطة و وثائق شاملة ودعمًا لمجموعة واسعة من المهام تتجاوز الاكتشاف، بما في ذلك تجزئة المثيلات و تقدير الوضعية والتصنيف، كل ذلك ضمن إطار عمل واحد تتم صيانته جيدًا.
استكشف نماذج أخرى
لإجراء المزيد من المقارنات واستكشاف أحدث النماذج، تحقق من هذه الصفحات الأخرى في وثائق Ultralytics:
- YOLOv5: معروف بتوازنه بين الأداء والاعتماد على نطاق واسع.
- YOLOv8: نموذج متعدد الاستخدامات وقوي يدعم مهام رؤية متعددة.
- YOLOv10: يركز على الكشف عن الأجسام في الوقت الفعلي ومن طرف إلى طرف عن طريق إلغاء الحاجة إلى NMS.
- YOLO11: أحدث نموذج متطور من Ultralytics، يقدم أداءً وكفاءة من الدرجة الأولى.
- RT-DETR: كاشف قائم على المحولات يقدم نهجًا معماريًا مختلفًا.