تخطي إلى المحتوى

DAMO-YOLO مقابل EfficientDet: مقارنة فنية

في المشهد سريع التطور في مجال الرؤية الحاسوبية، يُعد اختيار البنية الصحيحة لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح التطبيق. يقارن هذا التحليل الشامل بين نموذج YOLO وهو نموذج عالي الأداء من شركة علي بابا، ونموذج EfficientDet، وهو نموذج قابل للتطوير وفعال من Google. قدم كلا النموذجين ابتكارات مهمة في هذا المجال، حيث يعالج المفاضلة الأبدية بين السرعة والدقة والتكلفة الحسابية.

نظرات عامة على النموذج

قبل الخوض في مقاييس الأداء، من الضروري فهم الأصل والفلسفة المعمارية الكامنة وراء كل نموذج.

DAMO-YOLO

يركز DAMO-YOLO (YOLO المستند إلى البحث في البنية العصبية المحسّن بالتقطير) الذي طورته مجموعة Alibaba، على زيادة سرعة الاستدلال إلى أقصى حد دون المساس بالدقة. يقدم تقنيات مثل البحث في البنية العصبية (NAS) للشبكات الأساسية، وشبكة RepGFPN (شبكة هرم الميزات المعممة المعاد تحديدها) الفعالة، ورأس كشف خفيف الوزن يُعرف باسم ZeroHead.

تفاصيل DAMO-YOLO:

تعرف على المزيد حول DAMO-YOLO

EfficientDet

أحدث EfficientDet، الذي أنشأه فريق Google Brain، ثورة في الكشف عن الأجسام من خلال اقتراح طريقة تحجيم مركبة. يعمل هذا النهج على توسيع الدقة والعمق والعرض للعمود الفقري وشبكة الميزات وشبكات التنبؤ بشكل موحد. ويتميز بشبكة BiFPN (شبكة هرم الميزات ثنائية الاتجاه)، والتي تتيح دمج الميزات بسهولة وسرعة.

تفاصيل EfficientDet:

تعرف على المزيد حول EfficientDet

تحليل الأداء: السرعة والدقة والكفاءة

يوفر الرسم البياني والجدول التاليان مقارنة كمية لنماذج EfficientDet و DAMO-YOLO على مجموعة بيانات COCO. تُبرز هذه المعايير أهداف التحسين المتميزة لكل بنية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

النقاط الرئيسية

من البيانات، يمكننا ملاحظة نقاط قوة مميزة لكل عائلة نماذج:

  1. زمن انتقال وحدة معالجة الرسوميات GPU: تتفوق DAMO-YOLO في سرعة الاستدلال على وحدة المعالجة الرسومية GPU. على سبيل المثال، DAMO-YOLOm تحقق متوسط الدقة المتوسطةmAP بـ 49.2 مع زمن انتقال يبلغ 5.09 مللي ثانية فقط على وحدة معالجة الرسومات T4 GPU. في المقابل، EfficientDet-d4، مع mAP مماثل يبلغ 49.7، أبطأ بشكل ملحوظ حيث يستغرق 33.55 مللي ثانية.
  2. كفاءة المعلمات: EfficientDet خفيف الوزن للغاية من حيث المعلمات و عمليات الفاصلة العائمة (FLOPs). EfficientDet-d0 يستخدم فقط 3.9 مليون معامل، مما يجعله فعالاً للغاية من حيث تخزين البيانات، على الرغم من أن هذا لا يترجم دائمًا إلى استدلال أسرع على وحدات معالجة الرسومات الحديثة مقارنة بالنماذج المحسّنة من حيث البنية مثل DAMO-YOLO.
  3. أداء وحدة المعالجة المركزية (CPU Performance): يوفر EfficientDet معايير موثوقة لوحدة المعالجة المركزية (CPU)، مما يشير إلى أنه لا يزال خيارًا قابلاً للتطبيق للأجهزة القديمة حيث لا يتوفر تسريع وحدة معالجة الرسومات (GPU).

ملاحظة حول الهيكلة

ينبع تفوق DAMO-YOLO في السرعة من تحسينه المحدد لوقت استجابة الأجهزة باستخدام البحث عن بنية الشبكة العصبية (NAS)، في حين أن EfficientDet يحسن FLOPs النظري، والذي لا يرتبط دائمًا خطيًا بزمن الاستجابة الفعلي.

نظرة معمارية متعمقة

EfficientDet: قوة التحجيم المركب

تم تصميم EfficientDet على EfficientNet backbone، والذي يستخدم التواءات عنق الزجاجة المقلوبة المحمولة (MBConv). السمة المميزة له هي BiFPN، وهي شبكة هرمية للميزات ثنائية الاتجاه مرجحة. على عكس FPNs التقليدية التي تجمع الميزات من أعلى إلى أسفل فقط، يسمح BiFPN بتدفق المعلومات من أعلى إلى أسفل ومن أسفل إلى أعلى، ويعامل كل طبقة ميزات بأوزان قابلة للتعلم. يتيح ذلك للشبكة فهم أهمية ميزات الإدخال المختلفة.

يتوسع النموذج باستخدام معامل مركب، phi، والذي يزيد بشكل موحد من عرض الشبكة وعمقها ودقتها بحيث تكون النماذج الأكبر (مثل d7) تظل متوازنة عبر الدقة والكفاءة.

DAMO-YOLO: ابتكار مُوجَّه نحو السرعة

يتبع DAMO-YOLO نهجًا مختلفًا من خلال التركيز على زمن الوصول في الوقت الفعلي. وهو يستخدم MAE-NAS (طريقة أتمتة البحث عن البنية) للعثور على الهيكل الأساسي الأمثل في ظل قيود زمن الوصول المحددة.

تشمل الابتكارات الرئيسية ما يلي:

  • RepGFPN: تحسين على GFPN القياسي، مُحسَّن بإعادة التهيئة لتحسين مسارات feature fusion للسرعة.
  • ZeroHead: رأس detect مبسط يقلل من العبء الحسابي المرتبط عادةً بطبقات التوقع النهائية.
  • AlignedOTA: إستراتيجية لإسناد الملصقات تحل عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.

حالات الاستخدام والتطبيقات

تحدد الاختلافات المعمارية المجالات التي يتفوق فيها كل نموذج في سيناريوهات العالم الحقيقي.

  • EfficientDet مثالية للبيئات المقيدة بالتخزين أو التطبيقات التي تعتمد على استدلال وحدة المعالجة المركزية CPU حيث يكون تقليل FLOPs أمرًا بالغ الأهمية. غالبًا ما يتم استخدامه في تطبيقات الأجهزة المحمولة والأنظمة المدمجة حيث يكون عمر البطارية (المرتبط بـ FLOPs) مصدر قلق أساسي.
  • DAMO-YOLO يتفوق في التشغيل الآلي الصناعي، والقيادة الذاتية، والمراقبة الأمنية حيث يلزم الاستدلال في الوقت الفعلي على وحدات معالجة الرسومات (GPUs). يتيح زمن الوصول المنخفض معالجة تدفقات الفيديو ذات معدل الإطارات العالي دون إسقاط الإطارات.

ميزة Ultralytics

في حين أن DAMO-YOLO و EfficientDet هما نموذجان قادران، فإن نظام Ultralytics البيئي يقدم حلاً أكثر شمولاً لتطوير الذكاء الاصطناعي الحديث. توفر نماذج مثل YOLO11 الحديثة و YOLOv8 متعددة الاستخدامات مزايا كبيرة في سهولة الاستخدام والأداء ومجموعة الميزات.

تعرف على المزيد حول YOLO11

لماذا تختار Ultralytics؟

  • موازنة الأداء: تم تصميم نماذج Ultralytics لتوفير أفضل توازن بين السرعة والدقة. على سبيل المثال، يوفر YOLO11 قيم mAP فائقة مقارنةً بالأجيال السابقة مع الحفاظ على سرعات استدلال استثنائية على كل من وحدات المعالجة المركزية CPUs و وحدات معالجة الرسومات GPUs.
  • سهولة الاستخدام: مع فلسفة "البطاريات مشمولة"، توفر Ultralytics واجهة Python API بسيطة و واجهة سطر أوامر (CLI) قوية. يمكن للمطورين الانتقال من التثبيت إلى التدريب في دقائق.

    from ultralytics import YOLO
    
    # Load a pre-trained YOLO11 model
    model = YOLO("yolo11n.pt")
    
    # Run inference on an image
    results = model("path/to/image.jpg")
    
  • نظام بيئي مُدار بشكل جيد: على عكس العديد من النماذج البحثية التي يتم التخلي عنها بعد النشر، تحتفظ Ultralytics بمستودع نشط مع تحديثات متكررة وإصلاحات للأخطاء ودعم المجتمع عبر مشكلات GitHub والمناقشات.

  • تنوع الاستخدامات: لا تقتصر نماذج Ultralytics على الصناديق المحيطة. إنها تدعم أصليًا تقسيم المثيلات، و تقدير الوضعية، و تصنيف الصور، و الصناديق المحيطة الموجهة (OBB)، كل ذلك داخل إطار عمل موحد واحد.
  • كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتكون ذات كفاءة في استخدام الذاكرة أثناء التدريب. يتناقض هذا مع النماذج القائمة على المحولات أو البنى الأقدم، والتي غالبًا ما تتطلب ذاكرة CUDA كبيرة، مما يجعل نماذج Ultralytics في متناول الأجهزة الاستهلاكية.
  • كفاءة التدريب: يدعم الإطار ميزات مثل الدقة المختلطة التلقائية (AMP) والتدريب متعدد وحدات معالجة الرسوميات (multi-GPU) والتخزين المؤقت، مما يضمن أن تدريب مجموعات البيانات المخصصة سريع وفعال من حيث التكلفة.

الخلاصة

يمثل كل من DAMO-YOLO و EfficientDet علامات بارزة في تاريخ رؤية الكمبيوتر. أظهر EfficientDet قوة التحجيم المبدئي ودمج الميزات بكفاءة، بينما دفع DAMO-YOLO حدود البحث عن بنية واعية بزمن الوصول.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل جاهز للإنتاج يجمع بين الأداء العالي وتجربة مطور استثنائية، فإن Ultralytics YOLO11 هو الخيار الموصى به. إن تكامله في نظام بيئي قوي، ودعم مهام رؤية الكمبيوتر المتعددة، والتحسينات المستمرة تجعله الأداة الأكثر عملية لتحويل البيانات المرئية إلى رؤى قابلة للتنفيذ.

استكشف مقارنات النماذج الأخرى

لمزيد من المساعدة في عملية اختيار النموذج الخاص بك، استكشف هذه المقارنات ذات الصلة في وثائق Ultralytics:


تعليقات