EfficientDet ضد DAMO-YOLO: مقارنة فنية
في مجال اكتشاف الأجسام، يواجه المطورون مجموعة واسعة من النماذج، لكل منها نقاط قوة فريدة. تقدم هذه الصفحة مقارنة فنية مفصلة بين بنيتين مؤثرتين: EfficientDet، التي طورتها Google، و DAMO-YOLO، من مجموعة علي بابا. في حين أن كلاهما كاشفات قوية أحادية المرحلة، إلا أنهما تتبعان فلسفات تصميم مختلفة. تعطي EfficientDet الأولوية للكفاءة الحسابية وكفاءة المعلمات من خلال التحجيم المنهجي، بينما تدفع DAMO-YOLO حدود المفاضلة بين السرعة والدقة باستخدام التقنيات الحديثة مثل البحث عن بنية عصبية (NAS).
ستتعمق هذه المقارنة في بنياتها ومقاييس أدائها وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج المناسب لمشروع الرؤية الحاسوبية الخاص بك.
EfficientDet: كشف الكائنات بكفاءة وقابلية للتوسع
تم تقديم EfficientDet بواسطة Google Research بهدف إنشاء عائلة من كاشفات الكائنات يمكنها التوسع بكفاءة عبر مختلف الميزانيات الحسابية. وهي تعتمد على EfficientNet backbone عالي الكفاءة وتقدم مكونات جديدة لدمج الميزات متعددة المقاييس وتوسيع نطاق النموذج.
تعرف على المزيد حول EfficientDet
تفاصيل تقنية
- المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
- المنظمة: Google
- التاريخ: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- المستندات: https://github.com/google/automl/tree/master/efficientdet#readme
البنية والميزات الرئيسية
- EfficientNet Backbone: تستخدم EfficientDet شبكة EfficientNet المدربة مسبقًا كعمود فقري لها، وهي مُحسَّنة بالفعل لتحقيق توازن قوي بين الدقة والكفاءة.
- BiFPN (شبكة الهرم المميز ثنائية الاتجاه): بدلاً من شبكة FPN القياسية، يقدم EfficientDet شبكة BiFPN، وهي طبقة دمج ميزات متعددة المقاييس أكثر كفاءة. تتيح BiFPN تدفق معلومات سهل وسريع عبر دقة خرائط الميزات المختلفة عن طريق دمج دمج الميزات المرجحة واتصالات من أعلى إلى أسفل/من أسفل إلى أعلى.
- التحجيم المركب: أحد الابتكارات الأساسية في EfficientDet هو طريقة التحجيم المركب الخاصة به. فهو يوسع نطاق العمق والعرض والدقة بشكل مشترك للعمود الفقري وشبكة الميزات ورؤوس التنبؤ باستخدام معامل مركب واحد. وهذا يضمن تخصيصًا متوازنًا للموارد عبر جميع أجزاء الشبكة، مما يؤدي إلى مكاسب كبيرة في الكفاءة.
- عائلة قابلة للتطوير: تسمح طريقة التحجيم المركب بإنشاء عائلة كاملة من النماذج (EfficientDet-D0 إلى D7)، مما يمكّن المطورين من تحديد نموذج يطابق تمامًا قيود الأجهزة الخاصة بهم، من الأجهزة المحمولة إلى الخوادم السحابية القوية.
نقاط القوة
- كفاءة عالية في المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs): يتفوق في السيناريوهات التي يكون فيها حجم النموذج والتكلفة الحسابية من القيود الحاسمة.
- قابلية التوسع: يقدم مجموعة واسعة من النماذج (D0-D7) التي توفر مقايضة واضحة بين الدقة واستخدام الموارد.
- دقة قوية: تحقق دقة تنافسية، خاصة عند النظر إلى عدد المعلمات و FLOPs المنخفض.
نقاط الضعف
- سرعة استدلال أبطأ: على الرغم من كفاءتها من حيث FLOPs، إلا أن زمن استجابة الاستدلال الخام على وحدات معالجة الرسوميات (GPUs) يمكن أن يكون أعلى من النماذج الحديثة والمحسّنة للغاية مثل DAMO-YOLO و Ultralytics YOLO.
- التعقيد: قد يؤدي استخدام BiFPN والتحجيم المركب، على الرغم من فعاليتهما، إلى جعل فهم وتعديل التصميم المعماري أكثر تعقيدًا مقارنةً بتصميمات YOLO الأبسط.
حالات الاستخدام المثالية
تعتبر EfficientDet مناسبة تمامًا للتطبيقات التي تكون فيها قيود الموارد مصدر قلق أساسي. إن قابليتها للتوسع تجعلها خيارًا متعدد الاستخدامات للنشر على أجهزة متنوعة، بما في ذلك أجهزة الذكاء الاصطناعي الطرفي (Edge AI) والأنظمة التي يكون فيها تقليل التكلفة الحسابية أمرًا ضروريًا لإدارة الطاقة أو الحرارة.
DAMO-YOLO: نسخة YOLO سريعة ودقيقة
DAMO-YOLO هو كاشف أجسام عالي الأداء من مجموعة علي بابا يعتمد على سلسلة YOLO ولكنه يتضمن العديد من التقنيات المتطورة لتحقيق توازن بين السرعة والدقة على أحدث طراز. إنه يستفيد من Neural Architecture Search (NAS) لتحسين المكونات الرئيسية للشبكة لأجهزة معينة.
تفاصيل تقنية
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
- العمود الفقري المدعوم من NAS: تستخدم DAMO-YOLO عمودًا فقريًا تم إنشاؤه بواسطة البحث عن بنية الشبكة العصبية (NAS)، والذي يجد تلقائيًا بنية شبكة مثالية، مما يؤدي إلى تحسين قدرات استخراج الميزات.
- عنق RepGFPN الفعال: يقدم تصميم عنق جديدًا يسمى RepGFPN، وهو مصمم ليكون فعالاً من حيث الأجهزة وفعالاً في دمج الميزات متعددة المقاييس.
- ZeroHead: يستخدم النموذج "ZeroHead" مبسطًا، وهو تصميم رأس مقترن يقلل من التعقيد المعماري والنفقات الحسابية دون التضحية بالأداء.
- تعيين تسميات AlignedOTA: يستخدم DAMO-YOLO نظام AlignedOTA، وهي استراتيجية متقدمة وديناميكية لتعيين التسميات تعمل على تحسين التدريب من خلال مواءمة أفضل بين أهداف التصنيف والانحدار.
- تحسين التقطير: يتم تحسين عملية التدريب باستخدام تقطير المعرفة لزيادة تعزيز أداء النماذج الأصغر في العائلة.
نقاط القوة
- سرعة GPU استثنائية: توفر سرعات استدلال فائقة السرعة على أجهزة GPU، مما يجعلها مثالية للاستدلال في الوقت الفعلي.
- دقة عالية: يحقق mAP عاليًا، مما يجعله منافسًا لأفضل النماذج في فئته.
- تصميم حديث: يتضمن العديد من التقنيات المتقدمة (NAS، وتعيين التسميات المتقدم) التي تمثل طليعة أبحاث الكشف عن الكائنات.
نقاط الضعف
- تعددية المهام محدودة: DAMO-YOLO متخصص في اكتشاف الكائنات ويفتقر إلى الدعم الأصلي للمهام الأخرى مثل تجزئة المثيلات أو تقدير الوضع.
- أداء وحدة المعالجة المركزية (CPU): يركز البحث والمستودع الأصليان بشكل أساسي على أداء وحدة معالجة الرسوميات (GPU)، مع تركيز أقل على تحسين وحدة المعالجة المركزية.
- النظام البيئي وسهولة الاستخدام: كنموذج يركز على البحث، قد يتطلب المزيد من الجهد الهندسي لدمجه ونشره مقارنة بالأطر المدعومة بالكامل مثل Ultralytics.
حالات الاستخدام المثالية
يُعد DAMO-YOLO خيارًا ممتازًا للتطبيقات التي تتطلب دقة عالية وزمن انتقال منخفض جدًا على أجهزة GPU. ويشمل ذلك مراقبة الفيديو في الوقت الفعلي، والروبوتات، والأنظمة ذاتية التشغيل حيث يكون اتخاذ القرارات السريعة أمرًا بالغ الأهمية.
تحليل الأداء: السرعة والدقة والكفاءة
يوفر الجدول أدناه مقارنة كمية لنماذج EfficientDet و DAMO-YOLO على مجموعة بيانات COCO. تسلط النتائج الضوء على المفاضلات المختلفة التي يقدمها كل نموذج.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
من خلال المقارنات المعيارية، يمكننا استخلاص عدة استنتاجات:
- سرعة وحدة معالجة الرسوميات GPU: DAMO-YOLO أسرع بشكل ملحوظ على وحدة معالجة الرسوميات T4 GPU. على سبيل المثال، يحقق DAMO-YOLOm قيمة 49.2 mAP بزمن وصول يبلغ 5.09 مللي ثانية فقط، في حين أن EfficientDet-d4 المماثل يصل إلى 49.7 mAP ولكن بزمن وصول أعلى بكثير يبلغ 33.55 مللي ثانية.
- كفاءة المعلمات: تُظهر EfficientDet كفاءة فائقة في المعلمات وعمليات النقطة العائمة في الثانية (FLOPs). يستخدم أصغر نموذج، EfficientDet-d0، 3.9 مليون معلمة و 2.54 مليار عملية FLOPs فقط.
- أداء وحدة المعالجة المركزية (CPU): يوفر EfficientDet معايير واضحة لوحدة المعالجة المركزية، مما يجعله خيارًا أكثر قابلية للتنبؤ لعمليات النشر المستندة إلى وحدة المعالجة المركزية. يعد نقص سرعات وحدة المعالجة المركزية الرسمية لـ DAMO-YOLO فجوة ملحوظة للمطورين الذين يستهدفون أجهزة غير GPU.
ميزة Ultralytics: الأداء وسهولة الاستخدام
في حين أن كلاً من EfficientDet و DAMO-YOLO يقدمان قدرات قوية، فإن نماذج Ultralytics YOLO مثل YOLOv8 وأحدث YOLO11 تقدم حلاً أكثر شمولية وسهولة في الاستخدام للمطورين.
تشمل المزايا الرئيسية لاستخدام نماذج Ultralytics ما يلي:
- سهولة الاستخدام: واجهة برمجة تطبيقات Python مبسطة، و توثيق شامل، و استخدام CLI مباشر يجعل البدء والتدريب ونشر النماذج بسيطًا بشكل لا يصدق.
- نظام بيئي مُدار بشكل جيد: توفر Ultralytics نظامًا بيئيًا قويًا مع تطوير نشط ودعم مجتمعي قوي على GitHub وتحديثات متكررة وتكامل سلس مع Ultralytics HUB لـ MLOps.
- موازنة الأداء: تم تحسين نماذج Ultralytics بشكل كبير لتحقيق توازن ممتاز بين السرعة والدقة على كل من أجهزة وحدات المعالجة المركزية CPU ووحدات معالجة الرسوميات GPU، مما يجعلها مناسبة لمجموعة واسعة من سيناريوهات النشر.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 متعددة المهام، تدعم اكتشاف الأجسام، والتقسيم، والتصنيف، وتقدير الوضعية، ومربعات الإحاطة الموجهة (OBB) ضمن إطار عمل واحد وموحد.
- كفاءة التدريب: استفد من أوقات التدريب السريعة، ومتطلبات الذاكرة المنخفضة، والأوزان المدربة مسبقًا المتاحة بسهولة.
الخلاصة
يعتبر كل من EfficientDet و DAMO-YOLO من نماذج الكشف عن الأجسام المقنعة. يتميز EfficientDet بكفاءته الاستثنائية في المعلمات و FLOP، مما يوفر مجموعة قابلة للتطوير من النماذج المناسبة لملفات تعريف الأجهزة المتنوعة. يتفوق DAMO-YOLO في تقديم دقة عالية بسرعات استدلال GPU سريعة جدًا من خلال الاستفادة من الابتكارات المعمارية الحديثة.
ومع ذلك، بالنسبة للمطورين والباحثين الذين يبحثون عن مزيج من الأداء العالي وسهولة الاستخدام ونظام بيئي قوي ومتعدد الاستخدامات، غالبًا ما تقدم نماذج Ultralytics YOLO مثل YOLOv8 و YOLO11 أقوى قيمة شاملة. إن توازنها بين السرعة والدقة ودعم المهام المتعددة وإطار عمل يركز على المطورين يجعلها خيارًا موصى به للغاية لمجموعة واسعة من تطبيقات العالم الحقيقي.
استكشف مقارنات النماذج الأخرى
للحصول على مزيد من الأفكار، استكشف كيف تتم مقارنة هذه النماذج بالبنى الحديثة الأخرى: