تخطي إلى المحتوى

YOLO EfficientDet: نظرة متعمقة على بنى الكشف عن الكائنات

يعد اختيار بنية الرؤية الحاسوبية المثلى قرارًا محوريًا يؤثر على كل شيء بدءًا من زمن الاستدلال وحتى تكاليف الأجهزة. في هذه المقارنة الفنية، نقوم بتحليل نموذجين مؤثرين: YOLO من Alibaba و EfficientDet Google. في حين قدم EfficientDet مفهوم الكفاءة القابلة للتطوير، فإنYOLO حدود الأداء في الوقت الفعلي باستخدام تقنيات تقطير مبتكرة.

يقدم هذا الدليل تحليلاً دقيقاً لهيكلها ومقاييس أدائها ومدى ملاءمتها للاستخدام الحديث، كما يستكشف كيف تضع حلول الجيل التالي مثل Ultralytics معايير جديدة لسهولة الاستخدام وكفاءة الحافة.

نظرة عامة على DAMO-YOLO

YOLO إطار عمل عالي الأداء للكشف عن الأشياء طورته مجموعة Alibaba Group. ويولي الأولوية للتوازن بين السرعة والدقة، مستفيدًا من تقنيات مثل البحث عن البنية العصبية (NAS) وإعادة المعادلة الكثيفة. وهو مصمم في المقام الأول للتطبيقات الصناعية، ويهدف إلى تقليل زمن الاستجابة دون المساس بجودة الكشف.

المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة:مجموعة Alibaba
التاريخ: 23 نوفمبر 2022
Arxiv:YOLO
GitHub:YOLO
YOLO :YOLO

الميزات المعمارية الرئيسية

  • MAE-NAS Backbone: يستخدم بحثًا في البنية العصبية القائم على التشفير التلقائي المقنع (MAE) لاكتشاف هياكل أساسية فعالة.
  • RepGFPN الفعال: تصميم ثقيل يستخدم إعادة المعلمات (مشابه لـ YOLOv6) لدمج الميزات بفعالية مع الحفاظ على سرعة الاستدلال.
  • ZeroHead: رأس كشف خفيف الوزن يقلل من الحمل الحسابي خلال مرحلة التنبؤ النهائية.
  • AlignedOTA: استراتيجية محسّنة لتخصيص التسميات تحل مشاكل عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.

نظرة عامة على EfficientDet

قدم EfficientDet، الذي طوره فريق Google نهجًا منهجيًا لتوسيع نطاق النموذج. من خلال توسيع نطاق الهيكل الأساسي والدقة والعمق بشكل مشترك، يحقق EfficientDet كفاءة ملحوظة. يعتمد على الهيكل الأساسي EfficientNet ويقدم BiFPN (شبكة هرمية ثنائية الاتجاه للميزات) لدمج الميزات المعقدة.

المؤلفون: Mingxing Tan و Ruoming Pang و Quoc V. Le
المنظمة:Google
التاريخ: 20 نوفمبر 2019
Arxiv:EfficientDet Paper
GitHub:google
المستندات:EfficientDet README

الميزات المعمارية الرئيسية

  • التحجيم المركب: طريقة لتحجيم عرض الشبكة وعمقها ودقتها بشكل موحد باستخدام معامل مركب بسيط (phi).
  • BiFPN: شبكة هرمية ثنائية الاتجاه مرجحة تسمح بدمج السمات متعددة المقاييس بسهولة وسرعة.
  • EfficientNet Backbone: يستفيد من بنية EfficientNet القوية لاستخراج الميزات.

مقارنة الأداء

يُقارن الجدول التالي أداء متغيراتYOLO EfficientDet. يوفرYOLO نسب سرعة إلى دقة فائقة، لا سيما على GPU حيث تبرز كتلته المعاد معايرتها. على الرغم من دقة EfficientDet، إلا أنه غالبًا ما يعاني من زمن انتقال أعلى بسبب اتصالات BiFPN المعقدة ووظائف التنشيط الأبطأ.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

تحليل النتائج

  • الكمون: يتفوقYOLO على EfficientDet في TensorRT . على سبيل المثال، يحقق DAMO-YOLOl 50.8 mAP ~7ms، بينما يتطلب EfficientDet-d4 ~33ms للحصول على دقة مماثلة.
  • كفاءة الهندسة المعمارية: عدد المعلمات المنخفض في EfficientDet (على سبيل المثال، d0 يحتوي على 3.9 مليون معلمة فقط) يجعله سهل التخزين، ولكن هيكله البياني المعقد (BiFPN) غالبًا ما يؤدي إلى سرعات استدلال فعلية أبطأ مقارنة بالهياكل المبسطة للنماذج YOLO.
  • استخدام الموارد:YOLO "تحسين التقطير" أثناء التدريب، مما يسمح للنماذج الطلابية الأصغر حجماً بالتعلم من النماذج التعليمية الأكبر حجماً، مما يعزز الأداء دون زيادة تكلفة الاستدلال.

شرح إعادة تحديد المعلمات

YOLO تقنيات إعادة المعلمات، على غرار RepVGG. أثناء التدريب، يستخدم النموذج كتل متعددة الفروع معقدة لتعلم ميزات غنية. قبل الاستدلال، يتم دمج هذه الفروع رياضيًا في تلافيف واحد، مما يزيد السرعة بشكل كبير دون فقدان الدقة.

حالات الاستخدام والتطبيقات

فهم المجالات التي يتفوق فيها كل نموذج يساعد في اختيار الأداة المناسبة للمهمة.

متى تستخدم DAMO-YOLO

  • الفحص الصناعي: مثالي لخطوط الإنتاج حيث يكون زمن الاستجابة الذي يقاس بالميلي ثانية عاملاً حاسماً في الكشف عن العيوب على الناقلات سريعة الحركة.
  • مراقبة المدن الذكية: تسمح قدرتها العالية على معالجة البيانات بمعالجة عدة تدفقات فيديو على GPU واحدة.
  • الروبوتات: مناسبة للملاحة الذاتية التي تتطلب ردود فعل سريعة لتجنب العوائق.

متى تستخدم EfficientDet

  • البحث الأكاديمي: قواعد التدرج المنهجية تجعله أساسًا ممتازًا لدراسة نظريات كفاءة النماذج.
  • البيئات ذات سعة التخزين المحدودة: يعد العدد المنخفض للغاية لمعلمات متغيرات d0/d1 مفيدًا إذا كانت مساحة القرص هي العائق الرئيسي، على الرغم من أن استخدام ذاكرة الوصول العشوائي (RAM) CPU قد يظلان أعلى من YOLO المماثلة.
  • التطبيقات المحمولة (القديمة): استخدمت عمليات النشر المحمولة المبكرة إصدارات EfficientDet TFLite، على الرغم من أن البنى الحديثة مثل YOLO11 قد حلت محلها إلى حد كبير.

ميزة Ultralytics: تقديم YOLO26

في حين أنYOLO EfficientDet كانا بمثابة معالم بارزة، إلا أن هذا المجال قد تطور. يمثل Ultralytics أحدث ما توصلت إليه التكنولوجيا في الوقت الحالي، حيث يعالج قيود البنى السابقة من خلال تصميم شامل وتحسين فائق.

تعرف على المزيد حول YOLO26

لماذا يفضل المطورون Ultralytics؟

  1. سهولة الاستخدام والنظام البيئي: Ultralytics تجربة سلسة "من الصفر إلى القمة". على عكس ملفات التكوين المعقدة التي تتطلبها غالبًا مستودعات الأبحاث، Ultralytics لك Ultralytics بدء التدريب ببضع أسطر من Python. يشمل النظام البيئي Ultralytics لإدارة مجموعات البيانات والتدريب السحابي بسهولة.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset
    results = model.train(data="coco8.yaml", epochs=100)
    
  2. توازن الأداء: تم تصميم YOLO26 ليهيمن على حدود باريتو. فهو يوفر CPU أسرع CPU تصل إلى 43% مقارنة بالأجيال السابقة، مما يجعله قوة دافعة لتطبيقات الذكاء الاصطناعي المتطورة حيث لا تتوفر وحدات CPU الرسومات.

  3. NMS من البداية إلى النهاية: واحدة من أكبر المشاكل في نشر أجهزة الكشف عن الأجسام هي عدم القمع الأقصى (NMS). تعتمدYOLO EfficientDet على NMS مما يعقد المعالجة اللاحقة ويؤدي إلى تباين في زمن الاستجابة. YOLO26 هي أداة شاملة من البداية إلى النهاية، مما يلغي NMS من أجل استنتاج حتمي وأسرع.

  4. كفاءة التدريب و MuSGD: يدمج YOLO26 محرك MuSGD Optimizer، وهو مزيج من SGD Muon. تضمن هذه الابتكار، المستوحى من تدريب LLM، تقاربًا مستقرًا ويقلل من الحاجة إلى ضبط المعلمات الفائقة بشكل مكثف. وبالاقتران مع متطلبات ذاكرة أقل أثناء التدريب، يتيح للمستخدمين تدريب أحجام دفعات أكبر على أجهزة المستهلكين مقارنةً بالمحولات الهجينة التي تستهلك الكثير من الذاكرة مثل RT-DETR.

  5. التنوع: بينماYOLO EfficientDet وYOLO بشكل أساسي على المربعات المحددة، تدعم Ultralytics بشكل أساسي مجموعة واسعة من المهام بما في ذلك تقسيم الحالات وتقدير الوضع و OBB والتصنيف، كل ذلك ضمن واجهة برمجة تطبيقات موحدة واحدة.

ملخص المقارنة

ميزةEfficientDetDAMO-YOLOUltralytics YOLO26
البنيةقائم على المرساة، BiFPNبدون مرساة، RepGFPNمن طرف إلى طرف، NMS
سرعة الاستدلالبطيء (رسم بياني معقد)سريع (GPU )SOTA (CPU GPU)
النشرمعقد (NMS )معتدل (NMS )بسيط (NMS)
تدريب الذاكرةعاليمعتدلمنخفض (محسّن)
دعم المهاماكتشافاكتشافالكشف، Seg، Pose، OBB

الخلاصة

ساهم كل منYOLO EfficientDet بشكل كبير في تاريخ الرؤية الحاسوبية. أظهر EfficientDet قوة التوسع المركب، بينماYOLO فعالية إعادة المعلمات والتقطير. ومع ذلك، بالنسبة للمطورين الذين يبدأون مشاريع جديدة في عام 2026، يقدم Ultralytics ميزة جذابة.

إن إزالة NMS عمليات النشر، ويقوم مُحسّن MuSGD بتسريع التدريب، وتوفر بنيته المُحسّنة سرعة فائقة على كل من وحدات المعالجة المركزية الطرفية ووحدات معالجة الرسومات القوية. سواء كنت تقوم ببناء نظام كاميرات ذكي أو منصة تحليل فيديو قائمة على السحابة، Ultralytics النظام البيئي القوي وأداء Ultralytics الخيار الموصى به.

لمزيد من الاستكشاف، قد تكون مهتمًا أيضًا بمقارنة YOLO26 مع YOLOv10 أو فهم مزايا YOLO11 للدعم القديم.


تعليقات