تخطي إلى المحتوى

DAMO-YOLO مقابل YOLOv9: مقارنة فنية

يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين الحاجة إلى الدقة والسرعة والكفاءة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: DAMO-YOLO من مجموعة Alibaba و YOLOv9. سوف نستكشف ابتكاراتهما المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشاريع الرؤية الحاسوبية الخاصة بك. في حين أن كلا النموذجين يقدمان تطورات كبيرة، إلا أن YOLOv9، لا سيما داخل نظام Ultralytics البيئي، يقدم مزيجًا مقنعًا من الأداء المتطور والميزات سهلة الاستخدام للمطورين.

DAMO-YOLO: طريقة سريعة ودقيقة من علي بابا

المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO هو نموذج للكشف عن الأجسام تم تطويره بواسطة علي بابا ويركز على تحقيق توازن فائق بين السرعة والدقة. يقدم العديد من التقنيات المبتكرة لتحسين الأداء عبر مجموعة واسعة من الأجهزة، من الأجهزة الطرفية إلى وحدات معالجة الرسوميات السحابية (cloud GPUs). البنية هي نتيجة لمنهجية "مرة واحدة للجميع"، حيث يتم تدريب شبكة فائقة ثم يتم اشتقاق الشبكات الفرعية المتخصصة باستخدام البحث عن البنية العصبية (NAS) لتناسب القيود الحسابية المختلفة.

البنية والميزات الرئيسية

يتضمن هيكل DAMO-YOLO العديد من الابتكارات الرئيسية:

  • العمود الفقري الذي تم إنشاؤه بواسطة NAS: بدلاً من العمود الفقري المصمم يدويًا، يستخدم DAMO-YOLO أعمدة فقرية تم اكتشافها من خلال NAS، والتي تم تحسينها لكفاءة استخراج الميزات.
  • عنق RepGFPN الفعال: يستخدم عنقًا جديدًا لشبكة هرم الميزات، RepGFPN، المصمم لدمج الميزات بكفاءة ومتوافق مع تقنيات إعادة التهيئة لزيادة السرعة أثناء الاستدلال.
  • ZeroHead: رأس كشف مبسط وخفيف الوزن يقلل من النفقات الحسابية مع الحفاظ على الأداء العالي.
  • تعيين تصنيفات AlignedOTA: إستراتيجية محسنة لتعيين التصنيفات تعالج مشكلات عدم المواءمة بين مهام التصنيف والانحدار، مما يؤدي إلى تنبؤات أكثر دقة.
  • تحسين التقطير: يتم استخدام تقطير المعرفة لنقل المعرفة من نموذج معلم أكبر إلى نموذج طالب أصغر، مما يزيد من تحسين دقة النماذج المدمجة.

نقاط القوة

  • سرعة عالية لوحدة معالجة الرسوميات GPU: تم تحسين DAMO-YOLO بشكل كبير للاستدلال السريع على وحدات معالجة الرسوميات GPUs، مما يجعله مناسبًا لمعالجة الفيديو في الوقت الفعلي والتطبيقات الأخرى الحساسة لوقت الاستجابة.
  • نماذج قابلة للتطوير: يقدم مجموعة من النماذج (Tiny، Small، Medium، Large) التي توفر مقايضة واضحة بين السرعة والدقة، مما يسمح للمطورين باختيار الأنسب لأجهزتهم.
  • تقنيات مبتكرة: إن استخدام NAS وعنق فعال ومعين تسميات متقدم يدل على اتباع نهج حديث لتصميم الكاشف.

نقاط الضعف

  • تحديد المهمة: تم تصميم DAMO-YOLO بشكل أساسي لاكتشاف الأجسام ويفتقر إلى المرونة المدمجة للمهام الأخرى مثل تجزئة المثيلات أو تقدير الوضع الموجودة في الأطر الشاملة مثل Ultralytics.
  • النظام البيئي وسهولة الاستخدام: على الرغم من قوته، إلا أن نظامه البيئي أقل نضجًا من نظام Ultralytics. قد يجد المستخدمون أنه يتطلب المزيد من الجهد للتدريب والنشر والدمج في خطوط الإنتاج.
  • دعم المجتمع: قد يكون المجتمع والموارد المتاحة أصغر مقارنة بالنماذج الأكثر اعتمادًا على نطاق واسع مثل تلك الخاصة بسلسلة YOLO.

تعرف على المزيد حول DAMO-YOLO

YOLOv9: تعزيز الدقة والكفاءة

المؤلفون: Chien-Yao Wang, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
التوثيق: https://docs.ultralytics.com/models/yolov9/

YOLOv9 يمثل قفزة كبيرة إلى الأمام في الكشف عن الأجسام في الوقت الفعلي، حيث يقدم مفاهيم رائدة لمعالجة فقدان المعلومات في الشبكات العصبية العميقة. إن ابتكاراته الأساسية، معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN)، تمكنه من تحقيق دقة فائقة وكفاءة في المعلمات. عند دمجه في إطار Ultralytics، يجمع YOLOv9 بين هذا الأداء فائق التطور وتجربة مستخدم لا مثيل لها.

البنية والميزات الرئيسية

تكمن قوة YOLOv9 في مكوناتها المعمارية الجديدة:

  • معلومات التدرج القابلة للبرمجة (PGI): تساعد هذه الآلية في تخفيف مشكلة عنق الزجاجة المعلوماتي عن طريق توليد تدرجات موثوقة من خلال فرع عكسي مساعد، مما يضمن حصول الطبقات الأعمق على معلومات إدخال كاملة لإجراء تحديثات دقيقة.
  • شبكة تجميع الطبقات الفعالة المعممة (GELAN): بنية شبكة متقدمة تعتمد على مبادئ CSPNet و ELAN. تم تصميم GELAN لتحقيق الاستخدام الأمثل للمعلمات والكفاءة الحسابية، مما يجعلها قوية وسريعة.

نقاط القوة

  • دقة هي الأحدث على مستوى التقنية: تضع YOLOv9 معيارًا جديدًا للدقة في مجموعة بيانات COCO، متفوقةً على العديد من النماذج السابقة بتكاليف حسابية مماثلة أو أقل.
  • كفاءة فائقة: كما هو موضح في جدول الأداء، غالبًا ما تحقق نماذج YOLOv9 دقة أعلى مع عدد أقل من المعلمات و FLOPs مقارنة بالمنافسين، مما يجعلها مثالية للنشر على مجموعة من الأجهزة من الأجهزة الطرفية إلى الخوادم القوية.
  • نظام بيئي مُدار بشكل جيد: بفضل تكامله في نظام Ultralytics البيئي، يستفيد YOLOv9 من سهولة الاستخدام عبر Python API و CLI مبسطة، و توثيق شامل، ودعم مجتمعي نشط.
  • كفاءة التدريب: يضمن تطبيق Ultralytics عمليات تدريب فعالة مع أوزان مُدرَّبة مسبقًا متاحة بسهولة، ومتطلبات ذاكرة أقل، وتكامل سلس مع أدوات مثل Ultralytics HUB للتدريب بدون تعليمات برمجية وعمليات تعلم الآلة (MLOps).
  • تنوع الاستخدامات: في حين أن الورقة الأصلية تركز على الكشف، إلا أن بنية GELAN قابلة للتكيف بدرجة كبيرة. يوسع نظام Ultralytics البيئي قدراته ليشمل مهام رؤية أخرى، بما يتماشى مع دعم المهام المتعددة الموجود في نماذج مثل YOLOv8.

نقاط الضعف

  • نموذج أحدث: باعتباره بنية أحدث، لا يزال عدد البرامج التعليمية التي يساهم بها المجتمع وعمليات تكامل الطرف الثالث في ازدياد، على الرغم من أن إدراجه في مكتبة Ultralytics قد سرّع اعتماده بشكل كبير.
  • متطلبات الموارد: تتطلب متغيرات YOLOv9 الأكبر، مثل YOLOv9-E، موارد حسابية كبيرة للتدريب، على الرغم من أنها توفر دقة عالية المستوى لحجمها.

تعرف على المزيد حول YOLOv9

تحليل الأداء: الدقة والسرعة

عند مقارنة DAMO-YOLO و YOLOv9، من الواضح أن كلتا عائلتي النماذج تدفعان حدود الكشف عن الكائنات في الوقت الفعلي. ومع ذلك، فإن إلقاء نظرة فاحصة على المقاييس يكشف عن كفاءة YOLOv9 الفائقة.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT
(مللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

من الجدول، يمكننا استخلاص عدة استنتاجات:

  • الدقة: تحقق نماذج YOLOv9 باستمرار درجات mAP أعلى. على سبيل المثال، يتجاوز YOLOv9m نموذج DAMO-YOLOl بقيمة 51.4 mAP مقابل 50.8 mAP. يصل أكبر نموذج، YOLOv9-E، إلى 55.6 mAP مثير للإعجاب، مما يضع معيارًا جديدًا.
  • الكفاءة: يُظهر YOLOv9 كفاءة ملحوظة في المعلمات والحساب. يقدم YOLOv9m دقة أفضل من DAMO-YOLOl مع استخدام أقل من نصف عدد المعلمات (20.0 مليون مقابل 42.1 مليون) وعدد أقل من عمليات الفاصلة العائمة في الثانية (FLOPs) (76.3 مليار مقابل 97.3 مليار). هذا يجعل YOLOv9 خيارًا أكثر كفاءة لتحقيق أداء عالٍ.
  • سرعة الاستدلال: على وحدة معالجة الرسوميات T4، تكون سرعات الاستدلال تنافسية. على سبيل المثال، DAMO-YOLOs (3.45 مللي ثانية) و YOLOv9s (3.54 مللي ثانية) متقاربة جدًا في السرعة، ولكن YOLOv9s تحقق mAP أعلى (46.8 مقابل 46.0).

الخلاصة: أي نموذج يجب أن تختاره؟

يعد كل من DAMO-YOLO و YOLOv9 من أدوات الكشف عن الكائنات الممتازة بنقاط قوة فريدة. يوفر DAMO-YOLO حلاً سريعًا وقابلاً للتطوير بتقنيات مبتكرة مثل NAS وعنق RepGFPN فعال، مما يجعله خيارًا قويًا للتطبيقات التي تتطلب استدلال GPU عالي السرعة.

ومع ذلك، بالنسبة لمعظم المطورين والباحثين، يعد YOLOv9 الخيار الموصى به، خاصةً عند استخدامه داخل نظام Ultralytics البيئي. فهو لا يوفر فقط دقة حديثة وكفاءة فائقة، بل يوفر أيضًا مزايا كبيرة في سهولة الاستخدام والدعم. يعمل إطار Ultralytics على تجريد التعقيد، مما يوفر سير عمل مبسطًا من التدريب إلى النشر. يوفر الجمع بين PGI و GELAN في YOLOv9 بنية أكثر تقدمًا وكفاءة، بينما يضمن نظام Ultralytics البيئي القوي حصولك على الأدوات والوثائق والدعم المجتمعي اللازم لتحقيق النجاح.

استكشف نماذج أخرى

إذا كنت مهتمًا بمعرفة كيف تتم مقارنة DAMO-YOLO و YOLOv9 بالنماذج الرائدة الأخرى، فتأكد من مراجعة هذه المقارنات الأخرى في وثائق Ultralytics:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات