تخطي إلى المحتوى

DAMO-YOLO مقابل EfficientDet: مقارنة فنية

في المشهد سريع التطور في مجال الرؤية الحاسوبية، يُعد اختيار البنية الصحيحة لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح التطبيق. يقارن هذا التحليل الشامل بين نموذج YOLO وهو نموذج عالي الأداء من شركة علي بابا، ونموذج EfficientDet، وهو نموذج قابل للتطوير وفعال من Google. قدم كلا النموذجين ابتكارات مهمة في هذا المجال، حيث يعالج المفاضلة الأبدية بين السرعة والدقة والتكلفة الحسابية.

نظرة عامة على الطرازات

قبل الغوص في مقاييس الأداء، من الضروري فهم النسب والفلسفة المعمارية الكامنة وراء كل نموذج.

DAMO-YOLO

تم تطويره من قبل مجموعة علي بابا، ويركز YOLO (البحث القائم على البنية العصبية المحسنة للتقطير القائم على البنية العصبية YOLO) على زيادة سرعة الاستدلال إلى أقصى حد دون المساس بالدقة. وهو يقدم تقنيات مثل البحث القائم على البنية العصبية (NAS) للعمود الفقري، وشبكة هرم السمات المعممة المعممة المعاد تحديدها (RepGFPN)، ورأس كشف خفيف الوزن يُعرف باسم ZeroHead.

YOLO التفاصيل:

تعرف على المزيد حول DAMO-YOLO

EfficientDet

أحدثت EfficientDet، التي أنشأها فريق Google Brain، ثورة في اكتشاف الأجسام من خلال اقتراح طريقة تحجيم مركّبة. يعمل هذا النهج على قياس دقة وعمق وعرض العمود الفقري وشبكة الميزات وشبكات التنبؤ بشكل موحد. وهو يتميز بـ BiFPPN (شبكة هرم الميزات ثنائية الاتجاه)، والتي تسمح بدمج الميزات بسهولة وسرعة.

تفاصيل EfficientDet:

تعرف على المزيد حول EfficientDet

تحليل الأداء: السرعة والدقة والكفاءة

يقدم المخطط والجدول التاليان مقارنة كمية بين نموذجي EfficientDet YOLO على مجموعة بياناتCOCO . تسلط هذه المعايير الضوء على أهداف التحسين المتميزة لكل بنية.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

النقاط الرئيسية

من البيانات، يمكننا ملاحظة نقاط القوة المميزة لكل عائلة من النماذج:

  1. زمن انتقال GPU : يهيمن YOLO على سرعة استدلال GPU . على سبيل المثال, DAMO-YOLOm يحقق متوسط الدقة المتوسطةmAP تبلغ 49.2 مع زمن انتقال يبلغ 5.09 مللي ثانية فقط على GPU T4. في المقابل EfficientDet-d4التي تبلغ 49.7 mAP أبطأ بكثير عند 33.55 مللي ثانية.
  2. كفاءة المعلمة: EfficientDet خفيف الوزن للغاية من حيث المعلمات و عمليات النقطة العائمة (FLOPs). EfficientDet-d0 تستخدم 3.9 مليون معلمة فقط، مما يجعلها ذات كفاءة تخزينية عالية، على الرغم من أن هذا لا يُترجم دائمًا إلى استدلال أسرع على وحدات معالجة الرسومات الحديثة مقارنةً بالنماذج المحسّنة من حيث البنية مثل YOLO.
  3. أداءCPU : يوفر EfficientDet معايير موثوقة لوحدة CPU ية، مما يشير إلى أنه لا يزال خياراً قابلاً للتطبيق للأجهزة القديمة حيث لا تتوفر تسريع GPU .

ملاحظة معمارية

تنبع ميزة السرعة في YOLO من تحسينها المحدد لزمن انتقال الأجهزة باستخدام البحث عن البنية العصبية (NAS)، بينما تعمل EfficientDet على تحسين عمليات FLOP النظرية، والتي لا ترتبط دائمًا بشكل خطي مع زمن الانتقال في العالم الحقيقي.

نظرة معمارية متعمقة

EfficientDet: قوة القياس المركب

بُنيت EfficientDet على العمود الفقري EfficientNet، الذي يستخدم التلافيف المقلوبة المتنقلة ذات عنق الزجاجة (MBConv). السمة المميزة لها هي شبكة BiFPPN، وهي شبكة هرمية ثنائية الاتجاه مرجحة. وعلى عكس الشبكات الهرمية للخصائص التقليدية التي تجمع الميزات من أعلى إلى أسفل فقط، تسمح الشبكة الهرمية ثنائية الاتجاه بتدفق المعلومات من أعلى إلى أسفل ومن أسفل إلى أعلى، وتعامل كل طبقة من الميزات بأوزان قابلة للتعلم. وهذا يسمح للشبكة بفهم أهمية ميزات المدخلات المختلفة.

يتدرج النموذج باستخدام معامل مركب، phi، والذي يزيد عرض الشبكة وعمقها ودقتها بشكل موحد، لذا فإن النماذج الأكبر (مثل d7) تظل متوازنة بين الدقة والكفاءة.

YOLO: الابتكار الموجه نحو السرعة

يتبع YOLO نهجًا مختلفًا من خلال التركيز على زمن الاستجابة في الوقت الحقيقي. فهو يستخدم MAE-NAS (طريقة أتمتة البحث المعماري) للعثور على البنية الأساسية المثلى في ظل قيود زمن انتقال محددة.

تشمل الابتكارات الرئيسية ما يلي:

  • RepGFPPN: تحسين على شبكة GFPN القياسية، تم تحسينه من خلال إعادة المعلمات لتحسين مسارات دمج الميزات من أجل السرعة.
  • ZeroHead: رأس كشف مبسط يقلل من العبء الحسابي المرتبط عادةً بطبقات التنبؤ النهائية.
  • AlignedOTA: استراتيجية تعيين التسمية التي تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.

حالات الاستخدام والتطبيقات

تحدد الاختلافات المعمارية المكان الذي يتفوق فيه كل نموذج في سيناريوهات العالم الحقيقي.

  • يُعد EfficientDet مثاليًا للبيئات ذات التخزين المحدود أو التطبيقات التي تعتمد على استدلال CPU حيث يكون تقليل عدد وحدات العمليات التشغيل الثابتة أمرًا بالغ الأهمية. وغالبًا ما يُستخدم في تطبيقات الأجهزة المحمولة والأنظمة المدمجة حيث يكون عمر البطارية (المرتبط بالعمليات التشغيلية المتقطعة) مصدر قلق أساسي.
  • تتفوق YOLO في مجال الأتمتة الصناعية والقيادة الذاتية والمراقبة الأمنية حيث يتطلب الأمر الاستدلال في الوقت الحقيقي على وحدات معالجة الرسومات. يسمح زمن انتقاله المنخفض بمعالجة تدفقات الفيديو ذات معدل الإطارات العالي دون إسقاط الإطارات.

ميزة Ultralytics

على الرغم من أن YOLO وEfficientDet من النماذج القادرة، فإن Ultralytics يوفر حلاً أكثر شمولاً لتطوير الذكاء الاصطناعي الحديث. نماذج مثل نموذج YOLO11 و YOLOv8 مزايا كبيرة في سهولة الاستخدام والأداء ومجموعة الميزات.

تعرف على المزيد حول YOLO11

لماذا تختار Ultralytics

  • توازن الأداء: تم تصميم نماذج Ultralytics لتوفير أفضل مفاضلة بين السرعة والدقة. يوفر YOLO11 على سبيل المثال، سرعة فائقة mAP مقارنةً بالأجيال السابقة مع الحفاظ على سرعات استدلال استثنائية على كل من وحدات المعالجة المركزية ووحدات معالجة الرسومات.
  • سهولة الاستخدام: من خلال فلسفة "البطاريات المضمنة"، يوفر Ultralytics واجهة برمجة تطبيقات Python بسيطة وواجهة سطر أوامر (CLI) قوية. يمكن للمطورين الانتقال من التثبيت إلى التدريب في دقائق.

    from ultralytics import YOLO
    
    # Load a pre-trained YOLO11 model
    model = YOLO("yolo11n.pt")
    
    # Run inference on an image
    results = model("path/to/image.jpg")
    
  • نظام بيئي جيد الصيانة: على عكس العديد من النماذج البحثية التي يتم التخلي عنها بعد النشر، تحتفظ Ultralytics بمستودع نشط مع تحديثات متكررة وإصلاحات للأخطاء ودعم المجتمع عبر مشكلات GitHub والمناقشات.

  • تعدد الاستخدامات: لا تقتصر نماذج Ultralytics على المربعات المحدودة. فهي تدعم في الأصل تجزئة النماذج، وتقدير الوضع، وتصنيف الصور، والصناديق المحدودة الموجهة (OBB)، وكل ذلك في إطار عمل واحد موحد.
  • كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتكون فعالة من حيث الذاكرة أثناء التدريب. يتناقض هذا مع النماذج القائمة على المحولات أو البنى الأقدم، والتي غالباً ما تتطلب ذاكرة CUDA كبيرة، مما يجعل نماذج Ultralytics متاحة على أجهزة من فئة المستهلك.
  • كفاءة التدريب: يدعم إطار العمل ميزات مثل الدقة التلقائية المختلطة (AMP)، والتدريب متعدد GPU معالجة الرسومات، والتخزين المؤقت، مما يضمن أن يكون تدريب مجموعات البيانات المخصصة سريعًا وفعالاً من حيث التكلفة.

الخلاصة

يمثّل كل من YOLO و EfficientDet معلمين هامين في تاريخ الرؤية الحاسوبية. فقد أظهر EfficientDet قوة التحجيم المبدئي ودمج الميزات بكفاءة، بينما دفع YOLO حدود البحث المعماري المدرك لوقت الاستجابة.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل جاهز للإنتاج يجمع بين الأداء العالي وتجربة استثنائية للمطورين, Ultralytics YOLO11 هو الخيار الموصى به. إن تكامله في نظام بيئي قوي، ودعمه لمهام الرؤية الحاسوبية المتعددة، والتحسينات المستمرة التي يجريها يجعل منه الأداة الأكثر عملية لتحويل البيانات المرئية إلى رؤى قابلة للتنفيذ.

استكشف مقارنات النماذج الأخرى

لمزيد من المساعدة في عملية اختيار النموذج، استكشف هذه المقارنات ذات الصلة في وثائق Ultralytics :


تعليقات