DAMO-YOLO في مقابل PP-YOLOE+: مقارنة فنية مفصلة
في المشهد التنافسي للغاية لرؤية الحاسوب في الوقت الفعلي، يعد اختيار البنية المثالية لاحتياجات النشر الخاصة بك أمرًا بالغ الأهمية. يقدم هذا الدليل مقارنة فنية شاملة بين DAMO-YOLO و PP-YOLOE+، مع الغوص بعمق في تصميمات بنيتهما، ومنهجيات التدريب، ومقاييس الأداء. سنفحص أيضًا كيفية مقارنة هذه النماذج بالحلول المتطورة مثل نموذج Ultralytics YOLO26 الذي تم إصداره حديثًا.
نظرة عامة على النماذج
ظهر كلا الإطارين في عام 2022 كبدائل قوية للتطبيقات الصناعية، مستفيدين من تقنيات متطورة لدفع حدود الدقة وسرعة الاستدلال.
DAMO-YOLO
قدم نموذج DAMO-YOLO، الذي طورته Alibaba Group، العديد من التقنيات الجديدة لتحسين التوازن بين زمن الاستجابة والدقة، مع الاعتماد بشكل كبير على تقنيات البحث الآلي ودمج الميزات المتقدم.
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المنظمة: Alibaba Group
- التاريخ: 2022-11-23
- Arxiv: DAMO-YOLO: تقرير عن تصميم كشف الكائنات في الوقت الفعلي
- GitHub: tinyvision/DAMO-YOLO
- الوثائق: DAMO-YOLO README
يستخدم DAMO-YOLO بحثًا في بنية متعددة المقاييس (MAE-NAS) لتصميم هياكل أساسية (backbones) مُحسّنة تلقائيًا لكفاءة الأجهزة. كما يتميز بهيكل RepGFPN (شبكة هرمية للميزات العامة مُعاد تحديد معلماتها) لدمج ميزات الرقبة، وتصميم "ZeroHead" خفيف الوزن. علاوة على ذلك، فإنه يعتمد بشكل كبير على تقنيات التقطير أثناء التدريب لتعزيز قوة تمثيل نموذج الطالب.
PP-YOLOE+
من فريق Baidu PaddlePaddle، يُعد PP-YOLOE+ ترقية تدريجية لبنية PP-YOLOE. وهو يركز على التدريب المسبق واسع النطاق ووظائف الخسارة المحسنة لتقديم mAP عالٍ، خاصة ضمن إطار عمل التعلم العميق الأصلي الخاص به.
- المؤلفون: مؤلفو PaddlePaddle
- المنظمة: Baidu
- التاريخ: 2022-04-02
- Arxiv: PP-YOLOE: نسخة متطورة من YOLO
- GitHub: PaddlePaddle/PaddleDetection
- الوثائق: PP-YOLOE+ Configs
يستخدم PP-YOLOE+ بنية CSPRepResNet ورأس ET-head (رأس مواءمة المهام الفعال). تقدم نسخة "plus" استراتيجية قوية للتدريب المسبق على مجموعة بيانات Objects365، مما يعزز بشكل كبير قدرته على التعميم عبر بيئات العالم الحقيقي المتنوعة.
مقارنة معمارية
يؤثر الاختلاف في فلسفة التصميم بين هذين النموذجين بشكل كبير على حالات الاستخدام المثالية وتوافق الأجهزة.
دمج الميزات والهياكل الأساسية (Backbones)
الهياكل الأساسية الناتجة عن MAE-NAS في DAMO-YOLO مصممة خصيصًا للأجهزة الطرفية (edge devices)، وغالبًا ما توفر نسبة مواتية بين السرعة والمعلمات. ومع ذلك، يمكن أن تكون هذه البنى المخصصة جامدة ومعقدة للتكيف مع المهام الجديدة مثل تجزئة المثيلات. تعمل رقبة RepGFPN على تحسين دمج الميزات متعددة المقاييس ولكنها تضيف تعقيدًا أثناء مرحلة تصدير إعادة تحديد المعلمات.
يعتمد PP-YOLOE+ على بنية CSPRepResNet الأكثر تقليدية وفعالية عالية. في حين أن هذا الهيكل الأساسي يتطلب بصمة معلمات أكبر من DAMO-YOLO للحصول على دقة مماثلة، إلا أنه مستقر للغاية في التدريب وأسهل في الدمج في خطوط الأنابيب الحالية. يتعامل رأس ET-head الخاص به بكفاءة مع التصنيف والانحدار، لكنه لا يزال يتطلب خطوات معالجة لاحقة مثل NMS (كبت غير الحد الأقصى).
يتطلب كل من DAMO-YOLO و PP-YOLOE+ استخدام NMS لمعالجة مربعات الإحاطة لاحقًا. إذا كان زمن استجابة الاستدلال أمرًا بالغ الأهمية، ففكر في استخدام Ultralytics YOLO26، الذي يتميز بتصميم أصلي End-to-End NMS-Free. يلغي هذا النهج الرائد المعالجة اللاحقة بواسطة NMS للحصول على خط أنابيب نشر أسرع وأبسط.
تحليل الأداء والمقاييس
عند تقييم هذه النماذج للإنتاج، يعد التوازن بين الدقة (mAP)، وسرعة الاستدلال، وحجم المعلمات أمرًا بالغ الأهمية. فيما يلي مقارنة مباشرة لمتغيراتها الأساسية.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
كما يوضح الجدول، يحقق DAMO-YOLO عمومًا زمن استجابة أقل على المقاييس الصغيرة (s) والصغيرة جدًا (t)، بفضل الهياكل الأساسية المحسنة بواسطة NAS. ومع ذلك، يتوسع PP-YOLOE+ بشكل جيد للغاية في الفئات المتوسطة (m) والكبيرة (l)، حيث يتميز بنقاط mAP أعلى بكثير، وإن كان ذلك بتكلفة طفيفة لسرعة T4 TensorRT.
متطلبات الذاكرة وكفاءة التدريب
يعني اعتماد DAMO-YOLO على التقطير أنك تحتاج غالبًا إلى تدريب نموذج معلم أكبر بكثير قبل تدريب نموذج الطالب الأصغر. هذا يزيد بشكل كبير من متطلبات ذاكرة CUDA وميزانية الحساب الإجمالية. يبسط PP-YOLOE+ هذا من خلال التدريب القياسي أحادي المرحلة ولكنه يظل مرتبطًا بشكل وثيق بإطار عمل PaddlePaddle، مما قد يحد من المرونة للفرق المعتادة على PyTorch.
على النقيض من ذلك، يحل نموذج Ultralytics YOLO26 الحديث هذه الاختناقات. باستخدام MuSGD Optimizer الجديد — وهو مزيج من SGD و Muon مستوحى من ابتكارات تدريب LLM — يحقق YOLO26 تقاربًا أسرع وتدريبًا مستقرًا للغاية دون الحاجة إلى خطوط أنابيب تقطير معقدة. بالإضافة إلى ذلك، تتطلب نماذج YOLO عادةً ذاكرة CUDA أقل بكثير أثناء التدريب مقارنة بالكواشف القائمة على المحولات (transformer-based) مثل RT-DETR.
التطبيقات الواقعية وحالات الاستخدام المثالية
متى تستخدم DAMO-YOLO
يعد DAMO-YOLO مثاليًا للاستدلال الطرفي عالي الإنتاجية حيث يكون زمن الاستجابة هو الاختناق النهائي. تتفوق متغيراته الصغيرة في بيئات مثل أنظمة إدارة المرور أو المراقبة الأساسية بالطائرات بدون طيار، بشرط أن يكون لدى فريق الهندسة لديك النطاق الترددي لإدارة عمليات التقطير وإعادة تحديد المعلمات المعقدة.
متى تستخدم PP-YOLOE+
يتألق PP-YOLOE+ عندما تكون مستثمرًا بالفعل بعمق في نظام Baidu البيئي أو تدير عمليات نشر خوادم واسعة النطاق. تجعله نقاط mAP المثيرة للإعجاب مناسبًا لـ تحليل الصور الطبية المعقد أو كشف عيوب التصنيع المكثف.
ميزة Ultralytics
بينما يقدم كل من DAMO-YOLO و PP-YOLOE+ مزايا محلية محددة، فإن المطورين الذين يسعون إلى تحقيق أقصى قدر من التنوع والسرعة وسهولة الاستخدام يتجهون باستمرار إلى Ultralytics Platform.
عند ترقية خط أنابيب رؤية الحاسوب الخاص بك، يوفر Ultralytics YOLO26 تجربة مطور لا مثيل لها:
- سرعة استدلال على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43%: مع الإزالة الكاملة لـ Distribution Focal Loss (DFL)، يعد YOLO26 سريعًا بشكل ملحوظ على وحدات المعالجة المركزية الطرفية وأجهزة IoT منخفضة الطاقة.
- تحسين كشف الكائنات الصغيرة: يوفر دمج وظائف ProgLoss و STAL تحسينات كبيرة في التعرف على الكائنات الصغيرة، وهو أمر حيوي لـ الصور الجوية.
- تنوع واسع: على عكس PP-YOLOE+ الذي يركز فقط على الكشف، يتعامل YOLO26 بسلاسة مع تقدير الوضعية، و مربعات الإحاطة الموجهة (OBB)، والتجزئة الدلالية مع تحسينات معمارية خاصة بالمهمة.
خاتمة
يمثل DAMO-YOLO و PP-YOLOE+ معالم مهمة في تطور كشف الكائنات بدون نقاط ارتكاز (anchor-free). دفع DAMO-YOLO حدود بحث البنية العصبية لزمن الاستجابة الطرفي، بينما أثبت PP-YOLOE+ قوة التدريب المسبق واسع النطاق.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين السرعة والدقة وبساطة النشر، فإن نموذج Ultralytics YOLO26 هو الخيار النهائي. تضمن بنيته الخالية من NMS، وواجهة برمجة تطبيقات Python القوية، والدمج السلس مع أدوات مثل Weights & Biases و TensorRT انتقال مشاريعك بسلاسة من النموذج الأولي إلى الإنتاج.
هل أنت مستعد للبدء؟ استكشف دليل البدء السريع لـ Ultralytics أو قارن المزيد من النماذج في نظرتنا العامة YOLO11 في مقابل DAMO-YOLO.