YOLOv9 مقابل DAMO-YOLO: مقارنة فنية
يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا يوازن بين الحاجة إلى الدقة وسرعة الاستدلال والكفاءة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: YOLOv9، المعروف بابتكاراته المعمارية، و DAMO-YOLO، المعترف به لسرعته. سوف نستكشف بنياتهما وقياسات الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشاريع الرؤية الحاسوبية الخاصة بك.
YOLOv9: تعلم متقدم مع معلومات التدرج القابلة للبرمجة
يمثل YOLOv9 قفزة كبيرة إلى الأمام في الكشف عن الأجسام، حيث يعالج التحديات الأساسية لفقدان المعلومات في الشبكات العصبية العميقة. إن دمجه في نظام Ultralytics البيئي يجعله ليس فقط قويًا ولكن أيضًا سهل الوصول إليه بشكل استثنائي.
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
التوثيق: https://docs.ultralytics.com/models/yolov9/
البنية والميزات الرئيسية
يقدم YOLOv9 مفهومين رائدين: معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تم تصميم PGI للحفاظ على معلومات الإدخال الكاملة لدالة الخسارة، مما يقلل من مشكلة عنق الزجاجة المعلوماتي التي غالبًا ما تقلل من أداء الشبكات العميقة. GELAN عبارة عن بنية شبكة جديدة وعالية الكفاءة تعمل على تحسين استخدام المعلمات والتكلفة الحسابية.
عند التنفيذ داخل إطار عمل Ultralytics، يتم دمج بنية YOLOv9 المتقدمة مع مجموعة من الميزات المصممة للمطورين:
- سهولة الاستخدام: تجربة مستخدم مبسطة مع واجهة برمجة تطبيقات Python بسيطة و CLI، مدعومة بـ توثيق شامل.
- نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، ودعم مجتمعي قوي، وتحديثات متكررة، والتكامل مع أدوات مثل Ultralytics HUB للتدريب والنشر بدون تعليمات برمجية.
- كفاءة التدريب: يوفر عمليات تدريب فعالة مع أوزان مُدرَّبة مسبقًا متاحة بسهولة ويتطلب عادةً ذاكرة أقل من العديد من النماذج المنافسة.
- تنوع الاستخدامات: في حين أن الورقة الأصلية تركز على الكشف عن الكائنات، فإن المستودع يلمح إلى إمكانيات تجزئة المثيلات والتجزئة الشاملة، بما يتماشى مع الطبيعة متعددة المهام لنماذج Ultralytics.
نقاط القوة
- دقة هي الأحدث: يحقق درجات mAP رائدة في مجموعة بيانات COCO، غالبًا ما يتفوق على النماذج الأخرى ذات المقاييس المماثلة.
- كفاءة فائقة في المعلمات: تتيح بنية GELAN لـ YOLOv9 تقديم دقة عالية مع عدد أقل بكثير من المعلمات و FLOPs مقارنة بالعديد من المنافسين.
- الحفاظ على المعلومات: يعالج PGI بشكل فعال مشكلة فقدان المعلومات، مما يتيح تدريبًا أكثر دقة للنماذج الأعمق والأكثر تعقيدًا.
- قوي ومدعوم: يضمن التكامل في نظام Ultralytics الموثوقية والتحسين المستمر والوصول إلى ثروة من الموارد.
نقاط الضعف
- نموذج أحدث: باعتباره إصدارًا حديثًا، قد يكون حجم أمثلة النشر التي ساهم بها المجتمع لا يزال في ازدياد، على الرغم من أن اعتماده يتسارع بسرعة بواسطة إطار عمل Ultralytics.
- احتياجات الموارد للنماذج الكبيرة: يتطلب أكبر متغير، YOLOv9-E، على الرغم من دقته العالية، موارد حسابية كبيرة للتدريب.
DAMO-YOLO: السرعة والدقة من خلال البحث عن البنية العصبية
DAMO-YOLO هو نموذج سريع ودقيق للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا. إنه يستفيد من العديد من التقنيات الحديثة لتحقيق توازن ممتاز بين السرعة والأداء، خاصةً على أجهزة GPU.
المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
البنية والميزات الرئيسية
تعتبر بنية DAMO-YOLO نتاجًا لمجموعة من التقنيات المتقدمة:
- البحث في الهندسة العصبية (NAS): يستخدم NAS لإنشاء شبكة عمود فقري فعالة (TinyNAS).
- تصميم رقبة فعال: يستخدم RepGFPN (شبكة هرم الميزات المعممة) فعالة لدمج الميزات.
- ZeroHead: رأس كشف مبسط وخفيف حسابيًا.
- AlignedOTA: استراتيجية محسّنة لتعيين التسميات لتدريب أكثر فعالية.
- التقطير: تستخدم تقطير المعرفة لتحسين أداء النماذج الأصغر.
نقاط القوة
- سرعة استدلال عالية: تم تحسين DAMO-YOLO بشكل كبير للاستدلال السريع على وحدات معالجة الرسوميات GPUs، مما يجعله مرشحًا قويًا لسيناريوهات الاستدلال في الوقت الفعلي.
- أداء قوي: يقدم موازنة تنافسية بين السرعة والدقة، خاصة بالنسبة للمتغيرات الأصغر.
- تقنيات مبتكرة: يتضمن أساليب حديثة مثل NAS وتعيين التسميات المتقدم لدفع حدود الأداء.
- بدون مرساة: باعتباره كاشفًا بدون مرساة، فإنه يبسط خط أنابيب الكشف عن طريق إزالة الحاجة إلى ضبط مربعات الإرساء.
نقاط الضعف
- تحديد المهمة: مُصمم بشكل أساسي لاكتشاف الأجسام، ويفتقر إلى المرونة المدمجة للمهام الأخرى مثل التجزئة أو تقدير الوضع أو التصنيف الموجودة في نماذج Ultralytics.
- النظام البيئي والدعم: كمشروع مدفوع بالبحث، فإنه يفتقر إلى النظام البيئي الشامل والوثائق الشاملة والدعم المجتمعي النشط الذي يميز نماذج Ultralytics. هذا يمكن أن يجعل التكامل واستكشاف الأخطاء وإصلاحها أكثر صعوبة.
- عدد أكبر من المعلمات: بالمقارنة مع YOLOv9، غالبًا ما يكون لنماذج DAMO-YOLO عدد أكبر من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs) لتحقيق مستويات دقة مماثلة أو أقل.
تحليل الأداء: YOLOv9 ضد DAMO-YOLO
عند مقارنة الأداء، يُظهر YOLOv9 ميزة واضحة في كل من الدقة وكفاءة المعلمات. يضع أكبر نموذج، YOLOv9-E، معيارًا جديدًا لأحدث التقنيات بنسبة 55.6% mAP على COCO. عبر جميع أحجام النماذج، يستخدم YOLOv9 باستمرار عددًا أقل من المعلمات، وفي كثير من الحالات، عددًا أقل من FLOPs مقارنة بنظيراته في DAMO-YOLO لتحقيق دقة أعلى.
في حين أن نماذج DAMO-YOLO تظهر سرعات استدلال سريعة جدًا على وحدات معالجة الرسومات NVIDIA T4، إلا أن YOLOv9 تظل تنافسية للغاية، خاصة عند النظر في دقتها وكفاءتها الفائقة. على سبيل المثال، YOLOv9-C أسرع قليلاً من DAMO-YOLO-L بينما يكون أكثر دقة بشكل ملحوظ (53.0 مقابل 50.8 mAP) ويستخدم عددًا أقل بكثير من المعلمات (25.3 مليون مقابل 42.1 مليون).
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
حالات الاستخدام المثالية
YOLOv9
يعد YOLOv9 هو الخيار الأمثل للتطبيقات التي تكون فيها الدقة والكفاءة أمرًا بالغ الأهمية. إن قدرته على تقديم أحدث النتائج بأقل عدد من المعلمات يجعله مثاليًا لـ:
- الأنظمة عالية الدقة: تطبيقات في القيادة الذاتية، و تحليل الصور الطبية، ومراقبة الجودة الصناعية.
- النشر في البيئات محدودة الموارد: تعتبر متغيرات YOLOv9 الأصغر ممتازة لأجهزة الذكاء الاصطناعي الطرفية حيث تكون الموارد الحسابية محدودة ولكن لا تزال هناك حاجة إلى أداء عالٍ.
- حلول المهام المتعددة: المشاريع التي قد تتوسع لتشمل التجزئة أو مهام رؤية أخرى تستفيد من الأساس متعدد الاستخدامات الذي يوفره نظام Ultralytics البيئي.
- البحث والتطوير: توفر بنيته المبتكرة أساسًا قويًا للباحثين الذين يستكشفون آفاقًا جديدة في التعلم العميق.
DAMO-YOLO
يتفوق DAMO-YOLO في السيناريوهات التي يكون فيها زيادة إنتاجية وحدة معالجة الرسومات (GPU) هو الهدف الأساسي ويركز التطبيق بشكل صارم على كشف الأجسام.
- تحليلات الفيديو ذات الإنتاجية العالية: الخدمات السحابية التي تعالج عددًا كبيرًا من تدفقات الفيديو في وقت واحد.
- تطبيقات GPU في الوقت الفعلي: الأنظمة التي تكون فيها سرعة الاستدلال الخام على وحدة معالجة الرسوميات GPU هي المقياس الأكثر أهمية، والمقايضات الطفيفة في الدقة مقبولة.
الخلاصة: لماذا YOLOv9 هو الخيار الموصى به
في حين أن DAMO-YOLO هو كاشف كائنات هائل بسرعات GPU مثيرة للإعجاب، تبرز Ultralytics YOLOv9 كخيار أفضل وأكثر عملية للغالبية العظمى من المطورين والباحثين.
لا يحقق YOLOv9 دقة أعلى فحسب، بل يفعل ذلك بكفاءة أكبر في استخدام المعلمات. وهذا يترجم إلى نماذج أصغر وأقل تكلفة من الناحية الحسابية وأسهل في النشر. ومع ذلك، فإن العامل الحقيقي الذي يميزه هو النظام البيئي Ultralytics. باختيار YOLOv9، يمكنك الوصول إلى نظام أساسي متكامل بالكامل يتم صيانته جيدًا ويبسط كل خطوة من خطوات دورة حياة MLOps — بدءًا من ترميز البيانات والتدريب وصولاً إلى النشر والمراقبة. إن الجمع بين الأداء المتميز وسهولة الاستخدام وتعدد استخدامات المهام المتعددة والدعم القوي يجعل YOLOv9 الحل الأكثر فعالية وموثوقية لبناء تطبيقات رؤية حاسوبية متقدمة.
استكشف نماذج أخرى
إذا كنت مهتمًا بمعرفة كيف تتم مقارنة DAMO-YOLO بالنماذج الحديثة الأخرى، فراجع هذه المقارنات الأخرى في وثائقنا:
- YOLOv8 ضد DAMO-YOLO
- YOLO11 ضد DAMO-YOLO
- RT-DETR مقابل DAMO-YOLO
- YOLOX ضد DAMO-YOLO
- YOLOv10 ضد DAMO-YOLO