EfficientDet ضد DAMO-YOLO: مقارنة فنية
في المشهد سريع التطور في مجال الرؤية الحاسوبية، يُعد اختيار البنية الصحيحة لاكتشاف الأجسام أمراً بالغ الأهمية لنجاح التطبيق. هناك معماريتان بارزتان شكّلتا هذا المجال هما EfficientDet، التي طورتها Google Research، YOLO التي طورتها أكاديمية DAMO التابعة لشركة علي بابا. في حين أن كلاهما يهدفان إلى تحقيق أقصى قدر من الأداء، إلا أنهما يختلفان بشكل كبير في فلسفات التصميم الخاصة بهما: يركز أحدهما على كفاءة المعلمات وقابلية التوسع، بينما يستهدف الآخر الاستدلال في زمن انتقال منخفض على الأجهزة الصناعية.
يقدم هذا الدليل تحليلاً تقنيًا متعمقًا لهذين النموذجين، ويقارن بين بنيتيهما ومقاييس الأداء وحالات الاستخدام المثالية لمساعدة المطورين على اتخاذ قرارات مستنيرة.
تحليل الأداء: الكفاءة مقابل الكمون
توضح المعايير التالية المفاضلات المميزة بين EfficientDet و YOLO. تشتهر EfficientDet بانخفاض عدد متغيراتها وفلوباتها المنخفضة، مما يجعلها فعالة نظريًا، في حين أن YOLO مُحسَّن لسرعة الاستدلال في العالم الحقيقي على وحدات معالجة الرسومات.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
الوجبات السريعة المعيارية الرئيسية
من البيانات أعلاه، تظهر العديد من الفروق الهامة:
- هيمنة كمونGPU : يُظهر YOLO سرعات استنتاج أسرع بكثير على أجهزة GPU . على سبيل المثال، يحقق DAMO-YOLOm سرعة mAP تبلغ 49.2 مع زمن انتقال يبلغ 5.09 مللي ثانية فقط على GPU T4. في المقابل، يتطلب EfficientDet-d4 المماثل (49.7 mAP) 33.55 مللي ثانية - أي أبطأ ب 6 مرات تقريبًا.
- كفاءة المعلمة: يتفوق EfficientDet في مقاييس ضغط النماذج. يستخدم نموذج EfficientDet-d0 3.9 مليون معلمة فقط و2.54 مليار فلوب FLOP، مما يوفر بصمة خفيفة الوزن مثالية للأجهزة ذات التخزين المحدود.
- أداءCPU : يوفر EfficientDet معايير راسخة لأداء CPU ية، مما يجعله خيارًا يمكن التنبؤ به للأجهزة المتطورة غير المتسارعة. ومع ذلك، غالبًا ما تؤدي طبقات دمج الميزات المعقدة إلى إنتاجية أبطأ في العالم الحقيقي مقارنةً بالبنى الأبسط.
EfficientDet: قابل للتطوير وفعال
أحدث EfficientDet ثورة في اكتشاف الأجسام من خلال تقديم طريقة مبدئية لتوسيع نطاق أبعاد النموذج. وهو مبني على العمود الفقري EfficientNet، ويهدف إلى تحقيق دقة عالية مع تقليل التكلفة الحسابية النظرية (FLOPs).
تفاصيل EfficientDet:
- المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
- المنظمة:Google
- التاريخ: 2019-11-20
- اركسيف:https://arxiv.org/abs/1911.09070
- جيثبhttps://github.com/google/automl/tree/master/efficientdet
الملامح المعمارية البارزة
يكمن ابتكار EfficientDet الأساسي في عنصرين رئيسيين:
- BiFPPN (شبكة هرم السمات ثنائية الاتجاه): على عكس الشبكات الهرمية للسمات التقليدية التي تجمع ميزات من مقاييس مختلفة، تقدم الشبكة الهرمية الثنائية الاتجاه (BiFPPN) أوزانًا قابلة للتعلم لميزات المدخلات المختلفة وتسمح بتدفق المعلومات من أعلى إلى أسفل ومن أسفل إلى أعلى بشكل متكرر. يعمل هذا على تحسين دمج الميزات ولكنه يضيف تعقيدًا حسابيًا.
- التحجيم المركب: يقترح EfficientDet معاملًا مركبًا يعمل على توسيع نطاق العمود الفقري والشبكة الثنائية البُعدية والشبكة الثنائية البُعدية وشبكة الفصل/الصندوق ودقة الإدخال. يضمن ذلك نمو جميع أجزاء الشبكة بشكل متوازن، بدلًا من قياس بُعد واحد فقط (مثل العمق أو العرض) بشكل اعتباطي.
نقاط القوة والضعف
تكمن القوة الأساسية لـ EfficientDet في كفاءته النظرية. فهو يحقق أحدث ما توصلت إليه الدقة بمعلمات أقل بكثير من أجهزة الكشف السابقة مثل YOLOv3 أو RetinaNet. ومع ذلك، يمكن أن يؤدي استخدامه المكثف للالتفافات العميقة القابلة للفصل وأنماط الوصول المعقدة إلى الذاكرة في BiFPPN إلى استخدام أقل على وحدات معالجة الرسومات الحديثة، مما يؤدي إلى زمن انتقال أعلى على الرغم من انخفاض FLOPs.
اعتبارات النشر
على الرغم من أن EfficientDet يحتوي على وحدات FLOP منخفضة، إلا أن "وحدات FLOP المنخفضة" لا تعني دائمًا "الاستدلال السريع". على الأجهزة مثل وحدات معالجة الرسومات أو وحدات معالجة الرسومات، غالبًا ما يكون عرض النطاق الترددي للذاكرة ونفقات تشغيل النواة أكثر أهمية. يمكن أن تكون بنية الرسم البياني المعقدة ل EfficientDet في بعض الأحيان عنق الزجاجة في سيناريوهات الاستدلال في الوقت الحقيقي.
YOLO: الابتكار الموجه نحو السرعة
تم تصميم YOLO بهدف محدد: سد الفجوة بين الأداء العالي والكمون المنخفض على الأجهزة الصناعية. وهو يشتمل على أحدث تقنيات البحث في البنية العصبية (NAS) لإيجاد البنية المثلى لمهام الكشف.
YOLO التفاصيل:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
الملامح المعمارية البارزة
يقدم YOLO العديد من المكونات "التقنية الجديدة" لعائلة YOLO :
- العمود الفقري MAE-NAS: يستخدم نظام البحث عن البنية العصبية (NAS) مدفوعًا بالحد الأقصى للانتروبيا لاكتشاف العمود الفقري الفعال الذي يتعامل مع دقة المدخلات المتفاوتة بفعالية.
- RepGFPPN: يعد هذا تحسينًا على شبكة FPN المعممة القياسية، حيث يتضمن إعادة المعلمات لتبسيط كتلة الدمج، مما يزيد من استخدام الأجهزة إلى أقصى حد.
- ZeroHead & AlignedOTA: يقلل تصميم "ZeroHead" بشكل كبير من تعقيد رأس الكشف، بينما يوفر AlignedOTA (تعيين النقل الأمثل) استراتيجية تعيين تسمية قوية أثناء التدريب لحل مشكلة عدم التوافق بين التصنيف والانحدار.
نقاط القوة والضعف
تتفوق YOLO في السرعة الأولية. من خلال إعطاء الأولوية للهياكل الملائمة لتسريع الأجهزة (مثل TensorRT)، فإنه يحقق إنتاجية ملحوظة. ومع ذلك، فإن اعتماده على البنى المعقدة التي تم إنشاؤها بواسطة NAS يمكن أن يجعل من الصعب تعديلها أو ضبطها لأغراض بحثية مخصصة مقارنةً بالبنى الأبسط والمصممة يدوياً. بالإضافة إلى ذلك، فإنه يفتقر إلى الدعم المجتمعي الواسع وسهولة الاستخدام متعدد المنصات الموجودة في إصدارات YOLO الأكثر شيوعًا.
Ultralytics YOLO11: البديل الشامل
بينما يقدم EfficientDet كفاءة المعلمات ويقدم YOLO سرعة GPU , Ultralytics YOLO11 يوفر توازنًا فائقًا بين الاثنين معًا، مغلفًا في نظام بيئي ملائم للمطورين. بالنسبة لمعظم التطبيقات العملية - بدءًا من الذكاء الاصطناعي المتطور إلى عمليات YOLO11 السحابية - يمثل YOLO11 الخيار الأمثل.
لماذا تختار نماذج Ultralytics
- براعة لا مثيل لها: على عكس EfficientDet YOLO وهما كاشفان للكائنات في المقام الأول، يدعم Ultralytics YOLO11 أصلاً مجموعة واسعة من مهام الرؤية الحاسوبية بما في ذلك تجزئة المثيل وتقدير الوضع والمربعات المحدودة الموجهة (OBB) وتصنيف الصور. يتيح لك ذلك استخدام إطار عمل واحد لمتطلبات المشروع المتنوعة.
- توازن الأداء: يتخطى YOLO11 حدود الدقة والكمون. وغالباً ما يضاهي دقة النماذج الأثقل أو يتجاوزها مع الحفاظ على سرعات استدلال تنافسية مع النماذج المتخصصة في الوقت الحقيقي.
- سهولة الاستخدام والنظام البيئي: صُممت واجهة برمجة تطبيقات Ultralytics للبساطة. بفضل التوثيق الشامل والدعم المجتمعي، يمكن للمطورين الانتقال من التثبيت إلى التدريب في دقائق. يتضمن النظام البيئي عمليات تكامل سلسة للتعليق التوضيحي للبيانات، وتتبع التجارب، والتصدير بنقرة واحدة إلى تنسيقات مثل ONNX و TensorRT و CoreML و TFLite.
- كفاءة التدريب: تم تحسين نماذج Ultralytics من أجل التقارب السريع. فهي تستخدم استراتيجيات متقدمة لزيادة البيانات وأجهزة تحميل البيانات الفعالة، مما يقلل من الوقت والتكلفة المرتبطة بتدريب النماذج عالية الأداء.
- كفاءة الذاكرة: بالمقارنة مع النماذج القائمة على المحولات أو البنى الأقدم، يتطلب YOLO11 ذاكرة CUDA أقل بكثير للتدريب، مما يجعله متاحاً على وحدات معالجة الرسومات من فئة المستهلك.
مثال على الكود: البدء باستخدام YOLO11
يعد تنفيذ الكشف الحديث باستخدام Ultralytics أمرًا بسيطًا ومباشرًا. يوضح مقتطف التعليمات البرمجية التالية كيفية تحميل نموذج YOLO11 المدرب مسبقًا وتشغيل الاستدلال على صورة:
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on a local image or URL
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export the model to ONNX format for deployment
path = model.export(format="onnx")
التكامل السلس
تتكامل نماذج Ultralytics بسهولة مع أدوات MLOPS الشائعة. وسواء كنت تستخدم MLflow للتسجيل أو Ray Tune لتحسين المعلمة الفائقة، فإن الوظيفة مدمجة مباشرةً في المكتبة.
الخلاصة
في المقارنة بين EfficientDet و YOLO يعتمد الاختيار إلى حد كبير على قيود الأجهزة المحددة. يظل EfficientDet مرشحًا قويًا للكفاءة النظرية والسيناريوهات التي يكون فيها عدد المعلمات هو عنق الزجاجة الأساسي. يعد YOLO هو الفائز الواضح للتطبيقات عالية الإنتاجية التي تعمل على وحدات معالجة الرسومات الحديثة حيث يكون زمن الاستجابة أمرًا بالغ الأهمية.
ومع ذلك، بالنسبة للحل الذي يجمع بين أفضل ما في العالمين - الأداء العالي، وسهولة الاستخدام، والقدرة على القيام بمهام متعددة - فإنUltralytics YOLO11 يبرز باعتباره معيار الصناعة. يضمن نظامها البيئي القوي والتحسينات المستمرة حصول المطورين على الأدوات الأكثر موثوقية لبناء حلول رؤية حاسوبية قابلة للتطوير.
استكشف مقارنات أخرى
لمزيد من فهم مشهد نماذج اكتشاف الأجسام، استكشف هذه المقارنات الإضافية:
- YOLO11 ضد EfficientDet
- YOLOv8 ضد DAMO-YOLO
- RT-DETR مقابل DAMO-YOLO
- YOLO11 ضد RT-DETR
- YOLOX ضد EfficientDet