DAMO-YOLO مقابل EfficientDet: تحليل تقني معمق في الكشف الحديث عن الكائنات
أدى تطور الرؤية الحاسوبية إلى ظهور مجموعة من البنى القوية المصممة خصيصًا لتلبية متطلبات العالم الواقعي المتنوعة. في حين تركز بعض الأطر على قابلية التوسع الهائلة، تركز أطر أخرى بشكل كبير على سرعة الاستدلال في الوقت الفعلي. في هذه المقارنة الفنية، نستكشف YOLO و EfficientDet، وهما نموذجان مؤثران للغاية يقدمان نهجين متميزين لحل مشكلة اكتشاف الكائنات. سنقوم بتحليل هندستهما، ومقارنة أدائهما المعياري، وفي النهاية استكشاف سبب كون Ultralytics الذي تم إصداره مؤخرًا هو الخيار الأمثل لنشر الإنتاج الحديث.
نظرة عامة معمارية
تم تصميم كلا النموذجين لمعالجة مفاضلة الكفاءة والدقة، لكنهما يعتمدان على آليات مختلفة جوهريًا لتحقيق أهدافهما.
DAMO-YOLO: تسريع الأداء عبر بحث البنية العصبية
تم تطويرYOLO لتوسيع حدود الكشف في الوقت الفعلي،YOLO تقنيات البحث الآلي لبناء شبكات عالية الكفاءة مصممة خصيصًا للبيئات منخفضة التأخير.
تفاصيل DAMO-YOLO:
المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المنظمة: مجموعة Alibaba
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
تم بناء DAMO-YOLO حول عمود فقري للبحث عن البنية العصبية (NAS) يحسن السرعة والدقة. يقدم RepGFPN (شبكة هرمية للميزات المعممة ذات المعلمات المعاد تعريفها)، التي تعزز دمج الميزات مع الحفاظ على سرعات استدلال عالية. علاوة على ذلك، يقلل تصميم ZeroHead الخاص به من العبء الحسابي المرتبط عادةً برؤوس الكشف. يستفيد النموذج أيضًا من AlignedOTA (تعيين النقل الأمثل المحاذي) وتعزيز التقطير، مما يضمن أن أصغر المتغيرات تتعلم تمثيلات غنية من النماذج الأكبر.
EfficientDet: قابلية التوسع من خلال التوسع المركب
على عكس النهج الذي يركز على السرعة أولاً، يركز EfficientDet على قابلية التوسع المنهجية عبر ميزانيات الحوسبة المختلفة.
تفاصيل EfficientDet:
المؤلفون: Mingxing Tan, Ruoming Pang, and Quoc V. Le
المنظمة: Google Brain
التاريخ: 2019-11-20
أرشيف: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
يقدم EfficientDet شبكة BiFPN (شبكة هرمية ثنائية الاتجاه للميزات)، والتي تتيح دمج الميزات متعددة المستويات بسهولة وسرعة. على عكس الطرق التقليدية التي تعمل على توسيع نطاق البنى عن طريق إضافة طبقات أو قنوات بشكل عشوائي، تستخدم EfficientDet طريقة توسيع نطاق مركبة تعمل على توسيع نطاق الدقة والعمق والعرض للبنية الأساسية وشبكة الميزات وشبكات التنبؤ بالصناديق/الفئات بشكل موحد في وقت واحد. وهذا يتيح لها تحقيق دقة متطورة على الأجهزة المتطورة مع توفير متغيرات أصغر للبيئات المقيدة.
تعرف على المزيد حول EfficientDet
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج جنبًا إلى جنب، يتضح التوازن بين الدقة المطلقة وسرعة الاستدلال. يوضح الجدول أدناه مقاييس الأداء الرئيسية، ويسلط الضوء على كيفية مقارنة قدرات الاستدلالYOLO مع عائلة نماذج EfficientDet.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
كما هو موضح أعلاه، يحقق EfficientDet-d7 أعلى دقة إجمالية، مما يجعله مناسبًا للتطبيقات السحابية الصارمة. على النقيض من ذلك، توفر سلسلة DAMO-YOLO دقة تنافسية للغاية مع زمن انتقال أقل بكثير على أجهزة GPU، مما يجعلها مرشحًا أقوى لعمليات النشر الطرفية في الوقت الفعلي.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO وEfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
DAMO-YOLO خيار قوي لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.
متى تختار EfficientDet
يوصى باستخدام EfficientDet في الحالات التالية:
- خطوط أنابيب Google Cloud و TPU: الأنظمة المدمجة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
- بحث التحجيم المركب: قياس الأداء الأكاديمي الذي يركز على دراسة تأثيرات تحجيم عمق الشبكة وعرضها ودقتها المتوازن.
- النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
البديل الحديث: Ultralytics
في حين أن كل منYOLO EfficientDet يمثلان إنجازين أكاديميين مهمين، فإن التطبيق العملي في العالم الحقيقي غالبًا ما يتطلب نهجًا أكثر توازنًا وغنيًا بالميزات وسهل الاستخدام للمطورين. وهنا يأتي دور Ultralytics ليضع معيارًا جديدًا في هذا المجال.
صدر YOLO26 في يناير 2026، وهو يعتمد على إرث سابقيه، بما في ذلك Ultralytics YOLO11 و YOLOv8، مما أدى إلى تحول جذري في طريقة تعاملنا مع اكتشاف الأجسام.
بساطة من البداية إلى النهاية
يتميز YOLO26 بتصميم أصلي من طرف إلى طرف NMS. من خلال التخلص من Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة — وهو عنق الزجاجة الذي عانى منه كاشفات الأجسام لسنوات — يوفر YOLO26 خط أنابيب نشر أبسط وأسرع بكثير، خاصة على الأجهزة المتطورة.
أداء لا مثيل له وتعدد الاستخدامات
لا يقتصر دور YOLO26 على تحسين السرعة فحسب، بل إنه يعيد تعريف استقرار التدريب ودقته. فهو يقدم MuSGD Optimizer، وهو مزيج من SGD Muon مستوحى من ابتكارات تدريب LLM، مما يؤدي إلى معدلات تقارب أسرع بشكل كبير وكفاءة تدريب فائقة. على عكس البدائل الثقيلة القائمة على المحولات مثل RT-DETR، يحافظ YOLO26 على متطلبات ذاكرة منخفضة للغاية، مما يضمن إمكانية تدريبه على أجهزة من فئة المستهلكين.
علاوة على ذلك، يدمج YOLO26 ProgLoss + STAL، مما يحسن بشكل كبير التعرف على الأجسام الصغيرة، وهو أمر حيوي لحالات الاستخدام مثل الصور الجوية للطائرات بدون طيار والروبوتات. من أجل تحسين الأجهزة منخفضة الطاقة، أزال YOLO26 Distribution Focal Loss (DFL)، مما أدى إلى زيادة سرعة CPU بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة.
النظام البيئي وسهولة الاستخدام
تعد عملية التكامل المعقدة واحدة من أكبر العقبات التي تواجه نماذج مثل EfficientDet. في المقابل، توفر Ultralytics نظامًا بيئيًا متكاملًا ومُحكمًا. بفضل واجهة برمجة التطبيقات الموحدة، يمكن للمستخدمين التنقل بسهولة بين الكشف وتقسيم الحالات وتقدير الوضع وتصنيف الصور ومربعات الحدود الموجهة (OBB).
إليك مدى سهولة التدريب وتشغيل الاستدلال باستخدام YOLO26 باستخدامPython Ultralytics Python :
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")
الخلاصة
بينما يوفر استكشاف YOLO EfficientDet رؤى ممتازة حول المفاضلات بين البحث في الهندسة العصبية والتوسع المركب، يحتاج المطورون المعاصرون إلى أدوات تسد الفجوة بين البحث الأكاديمي وواقع الإنتاج.
بالنسبة للمطورين الذين يولون الأولوية لسهولة الاستخدام ومجتمع مفتوح المصدر نشط وتوازن لا مثيل له بين السرعة والدقة، فإن Ultralytics هو الخيار الأمثل. إن بنيته NMS وتكاليف التدريب المنخفضة والتكامل السلس مع Ultralytics الشامل يجعله الإطار المثالي لمشروع الرؤية الحاسوبية التالي.