DAMO-YOLO في مقابل EfficientDet: نظرة تقنية متعمقة في كشف الكائنات الحديث
لقد أدى تطور رؤية الحاسوب إلى إنتاج مجموعة من البنى القوية المصممة لتلبية متطلبات واقعية متنوعة. فبينما تعطي بعض الأطر الأولوية لقابلية التوسع الهائلة، تركز أخرى بشكل كبير على سرعة الاستدلال في الوقت الفعلي. في هذه المقارنة التقنية، نستكشف DAMO-YOLO و EfficientDet، وهما نموذجان مؤثران للغاية يوضحان نهجين متميزين لحل مشكلة كشف الكائنات. سنقوم بتحليل بنيتهما، ومقارنة أداء معاييرهما، واستكشاف السبب وراء كون Ultralytics YOLO26 الذي تم إصداره حديثًا يمثل الخيار الأمثل لعمليات النشر الإنتاجية الحديثة.
نظرة عامة على البنية
تم تصميم كلا النموذجين لمعالجة المقايضة بين الكفاءة والدقة، لكنهما يعتمدان على آليات مختلفة جذريًا لتحقيق أهدافهما.
DAMO-YOLO: السرعة من خلال البحث في بنية الشبكة العصبية
تم تطوير DAMO-YOLO لدفع حدود الكشف في الوقت الفعلي، حيث يستفيد من تقنيات البحث الآلي لبناء شبكات عالية الكفاءة مصممة للبيئات ذات زمن الانتقال المنخفض.
تفاصيل DAMO-YOLO:
المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المؤسسة: Alibaba Group
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
تم بناء DAMO-YOLO حول هيكل البحث في بنية الشبكة العصبية (NAS) الذي يعمل على تحسين كل من السرعة والدقة. وهو يقدم RepGFPN (شبكة هرم ميزات عامة معاد تكوين معاملاتها)، والتي تعزز دمج الميزات مع الحفاظ على سرعات استدلال عالية. علاوة على ذلك، يقلل تصميم ZeroHead الخاص به من العبء الحسابي المرتبط عادةً برؤوس الكشف. يستفيد النموذج أيضًا من AlignedOTA (تخصيص النقل الأمثل الموائم) وتعزيز التقطير، مما يضمن أن حتى أصغر المتغيرات تتعلم تمثيلات غنية من النماذج الأكبر.
EfficientDet: قابلية التوسع من خلال التوسع المركب
على النقيض من النهج الذي يضع السرعة في المقام الأول، يركز EfficientDet على قابلية التوسع المنهجي عبر ميزانيات حوسبة متنوعة.
تفاصيل EfficientDet:
المؤلفون: Mingxing Tan, Ruoming Pang, and Quoc V. Le
المؤسسة: Google Brain
التاريخ: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
يقدم EfficientDet تقنية BiFPN (شبكة هرم ميزات ثنائية الاتجاه)، والتي تسمح بدمج ميزات متعددة المقاييس بسهولة وسرعة. وعلى عكس الأساليب التقليدية التي توسع البنى عن طريق إضافة طبقات أو قنوات بشكل تعسفي، يستخدم EfficientDet طريقة توسيع مركبة تعمل على توسيع الدقة والعمق والعرض للشبكة الأساسية وشبكة الميزات وشبكات التنبؤ بالمربع/الفئة بشكل موحد في وقت واحد. يسمح له هذا بتحقيق دقة متطورة على الأجهزة المتطورة مع تقديم متغيرات أصغر للبيئات المحدودة.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج جنبًا إلى جنب، تصبح المقايضة بين الدقة المطلقة وسرعة الاستدلال واضحة. يوضح الجدول أدناه مقاييس الأداء الرئيسية، مع تسليط الضوء على كيفية توافق قدرات استدلال DAMO-YOLO مع عائلة نموذج EfficientDet.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
كما رأينا أعلاه، يحقق EfficientDet-d7 أعلى دقة إجمالية، مما يجعله مناسبًا للتطبيقات القائمة على السحابة الصارمة. في المقابل، توفر سلسلة DAMO-YOLO دقة تنافسية للغاية مع زمن انتقال أقل بكثير على أجهزة GPU، مما يجعلها مرشحًا أقوى لعمليات النشر على الحافة في الوقت الفعلي.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO و EfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
يعد DAMO-YOLO خياراً قوياً لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
متى تختار EfficientDet
يوصى باستخدام EfficientDet لـ:
- خطوط أنابيب Google Cloud وTPU: الأنظمة المتكاملة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو البنية التحتية لـ TPU حيث يتمتع EfficientDet بتحسين أصلي.
- أبحاث التحجيم المركب: قياس الأداء الأكاديمي الذي يركز على دراسة تأثيرات التوازن في عمق الشبكة، وعرضها، وتحجيم الدقة.
- النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
البديل الحديث: Ultralytics YOLO26
بينما يمثل كل من DAMO-YOLO و EfficientDet علامات فارقة أكاديمية مهمة، غالبًا ما يتطلب النشر الواقعي نهجًا أكثر توازناً وغنى بالميزات وصديقاً للمطورين. وهنا يضع Ultralytics YOLO26 معيارًا صناعيًا جديدًا.
تم إطلاق YOLO26 في يناير 2026، وهو يبني على إرث سابقيه، بما في ذلك Ultralytics YOLO11 و YOLOv8، مما يوفر تحولاً جذرياً في كيفية تعاملنا مع كشف الكائنات.
يتميز YOLO26 بتصميم أصلي End-to-End NMS-Free Design. من خلال التخلص من قمع غير الحد الأقصى (NMS) أثناء المعالجة اللاحقة—وهو عنق زجاجة عانت منه أجهزة كشف الكائنات لسنوات—يوفر YOLO26 خط أنابيب نشر أبسط وأسرع بكثير، خاصة على أجهزة الحافة.
أداء وتنوع لا مثيل لهما
لا يقتصر تحسين YOLO26 على السرعة فحسب؛ بل يعيد تعريف استقرار التدريب ودقته. وهو يقدم MuSGD Optimizer، وهو مزيج من SGD و Muon مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM)، مما يؤدي إلى معدلات تقارب أسرع بشكل كبير وكفاءة تدريب متفوقة. على عكس البدائل الثقيلة القائمة على Transformer مثل RT-DETR، يحافظ YOLO26 على متطلبات ذاكرة منخفضة بشكل لا يصدق، مما يضمن إمكانية تدريبه على الأجهزة الاستهلاكية.
علاوة على ذلك، يدمج YOLO26 تقنية ProgLoss + STAL، مما يحسن بشكل كبير من التعرف على الكائنات الصغيرة وهو أمر حيوي لحالات الاستخدام مثل الصور الجوية للطائرات بدون طيار والروبوتات. لتحسين الأداء للأجهزة منخفضة الطاقة، قام YOLO26 بإزالة Distribution Focal Loss (DFL)، مما أدى إلى استدلال أسرع على CPU بنسبة تصل إلى 43% مقارنة بالأجيال السابقة.
النظام البيئي وسهولة الاستخدام
واحدة من أكبر العقبات في نماذج مثل EfficientDet هي عملية التكامل المعقدة. في المقابل، تقدم Ultralytics Platform نظامًا بيئيًا متكاملاً ومُصانًا جيدًا من البداية إلى النهاية. باستخدام واجهة برمجة تطبيقات موحدة، يمكن للمستخدمين التبديل بسهولة بين الكشف، و تجزئة المثيلات، و تقدير الوضع، و تصنيف الصور، و مربعات الإحاطة الموجهة (OBB).
إليك مدى بساطة التدريب وتشغيل الاستدلال باستخدام YOLO26 عبر حزمة Ultralytics Python:
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")خاتمة
بينما يوفر استكشاف DAMO-YOLO vs EfficientDet رؤى ممتازة حول المقايضات بين البحث في بنية الشبكة العصبية والتوسع المركب، يحتاج المطورون المعاصرون إلى أدوات تسد الفجوة بين البحث الأكاديمي وواقع الإنتاج.
بالنسبة للمطورين الذين يعطون الأولوية لسهولة الاستخدام، ومجتمع مفتوح المصدر نشط، وتوازن لا يضاهى بين السرعة والدقة، فإن Ultralytics YOLO26 هو الخيار الحاسم. بنيته الخالية من NMS، وانخفاض عبء التدريب، والتكامل السلس مع نظام Ultralytics البيئي الشامل تجعله الإطار النهائي لمشروع رؤية الحاسوب القادم الخاص بك.