DAMO-YOLO مقابل PP-YOLOE+: مقارنة فنية
يُعد اختيار بنية الكشف عن العناصر المثالية قرارًا محوريًا يؤثر على كفاءة ودقة وقابلية توسع مشاريع الرؤية الحاسوبية. تحلل هذه المقارنة الشاملة نموذجين بارزين: DAMO-YOLO، وهو كاشف يركز على السرعة من Alibaba، و PP-YOLOE+، وهو نموذج عالي الدقة من نظام PaddlePaddle البيئي الخاص بـ Baidu. نتعمق في بنياتهما الفريدة ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدة المطورين على اتخاذ خيارات مستنيرة.
DAMO-YOLO: ابتكار مُوجَّه نحو السرعة من Alibaba
يمثل DAMO-YOLO، الذي طورته مجموعة Alibaba، قفزة كبيرة في الكشف الفعال عن الأجسام. إنه يعطي الأولوية للمفاضلة الفائقة بين السرعة والدقة، والاستفادة من التقنيات المتقدمة مثل البحث في الهندسة المعمارية العصبية (NAS) لتحسين الأداء على الأجهزة ذات الموارد المحدودة.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
- الوثائق:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تتميز DAMO-YOLO بفلسفة تصميم модульная التي تدمج العديد من التقنيات المتطورة:
- العمود الفقري MAE-NAS: بخلاف النماذج التقليدية التي تستخدم أعمدة فقرية قياسية مثل ResNet، تستخدم DAMO-YOLO عمودًا فقريًا تم اكتشافه عبر البحث في بنية الشبكة العصبية (NAS). ينتج عن هذا هيكل مُحسَّن رياضيًا لكفاءة استخراج الميزات.
- RepGFPN الفعال: يستخدم النموذج شبكة هرم الميزات المعممة (GFPN) المحسّنة بتقنيات إعادة التهيئة (Rep). تعمل بنية "الرقبة" هذه على تحسين دمج الميزات عبر مقاييس مختلفة مع تقليل زمن الانتقال أثناء الاستدلال.
- ZeroHead Technology: إحدى الميزات البارزة هي تصميم "ZeroHead"، الذي يقلل بشكل كبير من العبء الحسابي لـ رأس الكشف. من خلال فصل مهام classify والانحدار بشكل أكثر فعالية، فإنه يوفر المعلمات دون التضحية بالدقة.
- إسناد الملصقات AlignedOTA: أثناء التدريب، يستخدم DAMO-YOLO AlignedOTA، وهي إستراتيجية ديناميكية لإسناد الملصقات تضمن توافقًا أفضل بين أهداف التصنيف والانحدار، مما يؤدي إلى تقارب أسرع.
التقطير للنماذج المدمجة
تستخدم DAMO-YOLO بشكل كبير تقطير المعرفة لمتغيراتها الأصغر (Tiny، Small). من خلال نقل المعرفة من نموذج "معلم" أكبر إلى نموذج "طالب" أصغر، فإنها تحقق دقة أعلى مما يمكن تحقيقه عادةً لمثل هذه البنى خفيفة الوزن.
PP-YOLOE+: هندسة دقيقة ضمن PaddlePaddle
PP-YOLOE+ هو تطور سلسلة PP-YOLO، التي طورها باحثو Baidu. وهو كاشف من مرحلة واحدة وخالي من المرساة ومصمم لدفع حدود الدقة على المعايير القياسية مثل مجموعة بيانات COCO، وهو مُحسَّن خصيصًا لإطار عمل التعلم العميق PaddlePaddle.
تفاصيل فنية:
- المؤلفون: مؤلفو PaddlePaddle
- المؤسسة:بايدو
- التاريخ: 2022-04-02
- Arxiv:https://arxiv.org/abs/2203.16250
- GitHub:https://github.com/PaddlePaddle/PaddleDetection/
- الوثائق:https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
البنية والميزات الرئيسية
يركز PP-YOLOE+ على التحسين والمكونات عالية الدقة:
- آلية خالية من المرتكزات (Anchor-Free Mechanism): من خلال اعتماد نهج خالٍ من المرتكزات، يبسط PP-YOLOE+ مشهد المعلمات الفائقة، مما يلغي الحاجة إلى تصميم مربعات الارتكاز يدويًا.
- CSPRepResNet: يجمع العمود الفقري بين شبكات Cross Stage Partial (CSPNet) وكتل متبقية معاد تحديدها، مما يوفر مستخرج ميزات قويًا يوازن بين تدفق التدرج والتكلفة الحسابية.
- تعلم محاذاة المهام (TAL): تقوم هذه الطريقة بمحاذاة درجة التصنيف بشكل صريح مع جودة تحديد الموقع (IoU)، مما يضمن أن الاكتشافات عالية الثقة لديها أيضًا مربعات إحاطة عالية الجودة.
- ET-Head: تعمل Efficient Task-aligned Head (ET-Head) على زيادة تحسين الفصل بين مهام classify وتحديد الموقع، مما يساهم في تحقيق النموذج لنتائج mAP عالية.
تحليل الأداء: المقاييس والكفاءة
عند مقارنة DAMO-YOLO و PP-YOLOE+، يكمن التعادل عادةً بين سرعة الاستدلال الخالصة والدقة المطلقة. تم تصميم DAMO-YOLO ليكون أسرع على أجهزة GPU، بينما يهدف PP-YOLOE+ إلى تحقيق دقة عالية المستوى، غالبًا على حساب زيادة حجم النموذج و FLOPs.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
نقاط القوة والضعف
DAMO-YOLO:
- نقاط القوة: سرعات استدلال في الوقت الفعلي استثنائية، مما يجعله مثاليًا لمعالجة الفيديو وعمليات النشر المتطورة حيث يكون زمن الوصول أمرًا بالغ الأهمية. تضمن البنية القائمة على NAS استخدامًا فعالًا للموارد.
- نقاط الضعف: يرتبط التنفيذ بعمق بقواعد التعليمات البرمجية البحثية المحددة، والتي قد يكون من الصعب دمجها في خطوط الإنتاج القياسية مقارنة بالمكتبات الأكثر رسوخًا.
PP-YOLOE+:
- نقاط القوة: سقوف دقة عالية جدًا، خاصة مع المتغير 'x' (كبير جدًا). يوفر التكامل مع النظام البيئي PaddlePaddle مجموعة شاملة من الأدوات للمستخدمين الموجودين بالفعل داخل تلك البيئة.
- نقاط الضعف: يمكن أن يكون الاعتماد الأكبر على إطار عمل PaddlePaddle حاجزًا أمام الفرق الموحدة على PyTorch. يتطلب عمومًا المزيد من المعلمات لسرعات استدلال مماثلة مقارنة بـ DAMO-YOLO.
حالات الاستخدام والتطبيقات
تحدد الاختلافات المعمارية حالات الاستخدام المثالية لكل نموذج:
- DAMO-YOLO يتفوق في الذكاء الاصطناعي الطرفي (Edge AI) و الروبوتات. إن زمن الوصول المنخفض مثالي للطائرات بدون طيار أو الروبوتات المتنقلة المستقلة (AMRs) التي تحتاج إلى معالجة البيانات المرئية على الفور للتنقل في البيئات أو تجنب العقبات.
- PP-YOLOE+ مناسب تمامًا للتفتيش الصناعي و التحليلات التفصيلية. في سيناريوهات مثل التحكم في جودة التصنيع أو تحليل الصور الطبية، حيث يكون فقدان عيب صغير أكثر تكلفة من وقت استدلال أبطأ قليلاً، فإن mAP الأعلى لـ PP-YOLOE+ ذو قيمة.
ميزة Ultralytics: لماذا تختار YOLO11؟
في حين أن كلاً من DAMO-YOLO و PP-YOLOE+ يقدمان فوائد محددة، فإن Ultralytics YOLO11 يوفر حلاً شاملاً يوازن بين الأداء وسهولة الاستخدام ودعم النظام البيئي. بالنسبة لمعظم المطورين، يمثل YOLO11 الخيار الأكثر عملية وقوة لتقديم رؤية الكمبيوتر للإنتاج.
تنوع ونظام بيئي لا مثيل لهما
على عكس أجهزة الـ detect المتخصصة، فإن YOLO11 هي قوة متعددة الوسائط. وهو يدعم مجموعة واسعة من المهام بما في ذلك object detection، و instance segmentation، و pose estimation، و classification، و oriented bounding box (OBB) detection - كل ذلك ضمن إطار عمل موحد واحد.
- سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطور من خلال Python API بسيط وبديهي. يمكنك تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من التعليمات البرمجية، مما يقلل بشكل كبير من وقت التطوير مقارنةً بالتكوينات المعقدة التي تتطلبها غالبًا النماذج الموجهة نحو البحث.
- موازنة الأداء: يحقق YOLO11 دقة حديثة مع سرعة ملحوظة. تم تحسينه ليعمل بكفاءة على أجهزة متنوعة، من وحدات معالجة الرسومات السحابية القوية إلى الأجهزة الطرفية مثل NVIDIA Jetson، باستخدام ذاكرة أقل من العديد من البدائل القائمة على المحولات.
- كفاءة التدريب: يتضمن الإطار إجراءات تدريب محسّنة ومكتبة واسعة من الأوزان المدربة مسبقًا. يتيح ذلك الضبط الدقيق السريع على مجموعات البيانات المخصصة، مما يوفر في تكاليف الحوسبة والوقت.
سير عمل مبسط
تم تصميم النظام البيئي لـ Ultralytics من أجل عمليات انتقال سلسة من البحث إلى الإنتاج. بفضل الصيانة النشطة والتحديثات المتكررة والتكامل مع أدوات مثل TensorRT و OpenVINO، يمكن للمطورين نشر النماذج بثقة.
مثال: تشغيل YOLO11 باستخدام Python
إن البدء في استخدام YOLO11 أمر واضح ومباشر. توضح مقتطفة التعليمات البرمجية التالية كيفية تحميل نموذج مُدرَّب مسبقًا وتشغيل الاستدلال على صورة:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on a local image source
results = model("path/to/image.jpg")
# Display the inference results
results[0].show()
هذا البساطة، جنبًا إلى جنب مع الأداء القوي، يجعل Ultralytics YOLO11 الخيار المفضل للمطورين الذين يتطلعون إلى بناء حلول ذكاء اصطناعي قابلة للتطوير والصيانة.
الخلاصة
ساهم كل من DAMO-YOLO و PP-YOLOE+ بشكل كبير في مجال رؤية الحاسوب. يوضح DAMO-YOLO قوة البحث عن البنية العصبية لتحقيق الكفاءة، بينما يسلط PP-YOLOE+ الضوء على الدقة الممكنة مع التصميمات الخالية من المرساة في نظام PaddlePaddle البيئي.
ومع ذلك، للحصول على حل متعدد الاستخدامات وجاهز للإنتاج يوفر توازنًا مثاليًا بين السرعة والدقة وسهولة الاستخدام، يظل Ultralytics YOLO11 هو التوصية الأفضل. إن دعمه الشامل لمهام الرؤية المتعددة، وتقليل مساحة الذاكرة، والوثائق الشاملة يمكّن المطورين من الابتكار بشكل أسرع وأكثر فعالية.