تخطي إلى المحتوى

PP-YOLOE+ مقابل YOLOX: مقارنة بين الكشف عن الأجسام الخالية من المرساة المتقدمة

يتطلب اختيار البنية المثلى للكشف عن الأجسام فهماً عميقاً للمفاضلة بين الدقة وسرعة الاستدلال وتعقيد النشر. يقدم هذا الدليل مقارنة تقنية بين PP-YOLOE+، وهو كاشف من الدرجة الصناعية من Baidu، و YOLOX، وهو نموذج عالي الأداء خالٍ من الارتكاز من Megvii. وتمثل كلتا البنيتين علامة فارقة في التحول نحو أجهزة الكشف الخالية من الارتكاز، حيث تقدمان حلولاً قوية لمهندسي الرؤية الحاسوبية.

PP-YOLOE+: التميز الصناعي من بايدو

PP-YOLOE+ هي نسخة مطورة من PP-YOLOE، طورها مؤلفوPaddlePaddle في بايدو. تم إصداره في أبريل 2022، وهو جزء من مجموعة PaddleDetection الشاملة. صُمم PP-YOLOE+ خصيصًا للتطبيقات الصناعية، وهو يعمل على تحسين التوازن بين كفاءة التدريب ودقة الاستدلال، مستفيدًا من قدرات إطار عمل PaddlePaddle .

تفاصيل فنية:

البنية والميزات الرئيسية

يتميّز PP-YOLOE+ من خلال العديد من الابتكارات المعمارية التي تهدف إلى تحقيق أقصى قدر من الأداء على أجهزة متنوعة:

  • عمود فقري قابل للتطوير: تستخدم شبكة CSPRepResResNet، وهي عمود فقري يجمع بين قوة استخراج الميزة للشبكات المتبقية وكفاءة الاتصالات الجزئية عبر المراحل (CSP).
  • تعلُّم محاذاة المهام (TAL): من الابتكارات المهمة استخدام TAL، وهي دالة خسارة متخصصة تعمل على مواءمة مهام التصنيف والتوطين بشكل ديناميكي، مما يضمن أن أعلى درجات الثقة تتوافق مع المربعات المحدودة الأكثر دقة.
  • الرأس الفعال المحاذي للمهام (ET-Head): يستخدم هذا النموذج رأسًا خاليًا من المرساة يعمل على تبسيط تصميم رأس الكشف، مما يقلل من النفقات الحسابية مع الحفاظ على دقة عالية.

نقاط القوة والضعف

يعد PP-YOLOE+ قوة لسيناريوهات نشر محددة ولكنه يأتي مع قيود النظام البيئي.

نقاط القوة:

  • أحدث دقة: حقق النموذج نتائج استثنائية على مجموعة بياناتCOCO حيث وصل متغير PP-YOLOE+x إلى mAP 54.7% من الدقة mAP مما يجعله مناسبًا للمهام عالية الدقة مثل اكتشاف العيوب.
  • كفاءة الاستدلال: من خلال التحسينات مثل دمج المشغل في إطار عمل PaddlePaddle فإنه يوفر سرعات تنافسية على أجهزة GPU خاصةً بالنسبة لأحجام النماذج الأكبر.

نقاط الضعف:

  • تبعية الإطار: الاعتماد الأساسي على PaddlePaddle يمكن أن يشكّل عائقًا أمام الفرق التي تعتمد على نظام PyTorch أو TensorFlow.
  • تعقيد النشر: غالبًا ما يتطلب نقل هذه النماذج إلى محركات استدلالية أخرى (مثل ONNX Runtime أو TensorRT) أدوات تحويل محددة قد لا تدعم جميع المشغلات المخصصة خارج الصندوق.

تعرف على المزيد حول PP-YOLOE+

يولوكس: الرائد الخالي من المرساة

تم تقديم YOLOX في عام 2021 من قبل الباحثين في ميجفي. وقد حظيت باهتمام فوري لفصلها رأس الكشف وإزالة المراسي - وهي خطوة سهّلت بشكل كبير خط أنابيب التدريب مقارنةً بتكرارات YOLO السابقة. سدت YOLOX الفجوة بين البحث الأكاديمي والتطبيق الصناعي العملي، مما أثر على العديد من البنى اللاحقة للكشف عن الأجسام.

تفاصيل فنية:

البنية والميزات الرئيسية

أدخلت YOLOX فلسفة التصميم "المؤيدة لفلسفة التصميم "الخالية من المرساة" إلى عائلة YOLO :

  • الرأس المنفصل: على عكس رؤوس YOLO التقليدية التي تقوم بالتصنيف والتوطين في فروع مقترنة، يفصل YOLOX بين هذه المهام. يعمل هذا الفصل على تحسين سرعة التقارب والدقة النهائية.
  • تعيين التسمية SimOTA: تستخدم YOLOX استراتيجية SimOTA (تعيين النقل الأمثل المبسط)، وهي استراتيجية تعيين التسمية الديناميكية التي تختار تلقائيًا أفضل العينات الإيجابية لكل كائن من الحقيقة الأرضية، مما يقلل من الحاجة إلى ضبط المعلمات الفائقة المعقدة.
  • آلية خالية من المرساة: من خلال التخلص من مربعات الارتكاز المحددة مسبقًا، يقلل YOLOX من عدد معلمات التصميم ويحسن التعميم عبر أشكال الأجسام، خاصةً تلك التي لها نسب أبعاد قصوى.

نقاط القوة والضعف

نقاط القوة:

  • بساطة التنفيذ: إن إزالة نقاط الارتكاز واستخدام عمليات PyTorch القياسية تجعل قاعدة الشيفرة سهلة الفهم والتعديل نسبيًا لأغراض البحث.
  • خط أساس قوي: إنه بمثابة خط أساس ممتاز للبحث الأكاديمي في تقنيات التدريب المتقدمة والتعديلات المعمارية.

نقاط الضعف:

  • تقادم الأداء: على الرغم من أنها كانت ثورية في عام 2021، إلا أن مقاييس أدائها الخام (مفاضلة السرعة/الدقة) قد تجاوزتها الطرز الأحدث مثل YOLOv8 و YOLO11.
  • كثافة موارد التدريب: يمكن أن تؤدي استراتيجيات التعيين المتقدمة مثل SimOTA إلى زيادة العبء الحسابي أثناء مرحلة التدريب مقارنةً بأساليب التعيين الثابتة الأبسط.

دعم الإرث

على الرغم من أن YOLOX لا يزال يُستخدم على نطاق واسع في الأبحاث، إلا أن المطورين الذين يبحثون عن دعم طويل الأجل وتحديثات نشطة قد يجدون البنى الأحدث أكثر فائدة لبيئات الإنتاج.

تعرف على المزيد حول YOLOX

مقارنة الأداء الفني

عند الاختيار بين PP-YOLOE+ و YOLOX، توفر مقاييس الأداء على المعايير القياسية الأساس الأكثر موضوعية لاتخاذ القرار. تبرز البيانات التالية أداءهما على مجموعة التحقق من صحة COCO .

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

التحليل

  • هيمنة الدقة: يتفوق نموذج PP-YOLOE+x باستمرار على نموذج YOLOX عبر أحجام النماذج المماثلة. ويحقق نموذج PP-YOLOE+x mAP تصل إلى 54.7% من الدقة mAP وهو ما يمثل تحسنًا كبيرًا مقارنةً بنسبة 51.1% لنموذج YOLOX-x.
  • الكفاءة: يُظهر PP-YOLOE+ كفاءة فائقة في المعلمات. على سبيل المثال، فإن s يحقق المتغير دقة أعلى (43.7% مقابل 40.5%) مع استخدام عدد أقل من المعلمات (7.93 مليون مقابل 9.0 مليون) وعمليات التكرار.
  • سرعة الاستدلال: بينما يظل YOLOX منافسًا في الأحجام الأصغر، فإن PP-YOLOE+ يتوسع بشكل أفضل على أجهزة GPU (T4 TensorRT)، مما يوفر سرعات أعلى لنماذجها الكبيرة والكبيرة جدًا على الرغم من الدقة الأعلى.

Ultralytics YOLO11: المعيار الحديث

على الرغم من أن PP-YOLOE+ و YOLOX كاشفان قادران على الكشف، إلا أن مشهد الرؤية الحاسوبية يتطور بسرعة. للمطورين الذين يبحثون عن المزيج الأمثل من الأداء وسهولة الاستخدام ودعم النظام البيئي, Ultralytics YOLO11 يمثل أحدث الخيارات.

لماذا تختار Ultralytics YOLO11؟

  • سهولة الاستخدام: على عكس الإعداد المعقد الذي غالبًا ما يكون مطلوبًا لمستودعات البحث أو الأدوات الخاصة بإطار العمل، يقدم YOLO11 واجهة برمجة تطبيقاتPython وواجهة برمجة تطبيقات مبسطة CLI. يمكنك الانتقال من التثبيت إلى الاستدلال في ثوانٍ.
  • نظام بيئي جيد الصيانة: نماذج Ultralytics مدعومة بنظام بيئي قوي يتضمن تحديثات متكررة، ووثائق شاملة، وتكامل سلس مع أدوات MLOPS.
  • توازن الأداء: صُمم YOLO11 لتوفير مفاضلة مواتية بين السرعة والدقة، وغالباً ما يتفوق على الأجيال السابقة مع انخفاض متطلبات الذاكرة أثناء التدريب والاستدلال.
  • تعدد الاستخدامات: بينما يركز كل من PP-YOLOE+ و YOLOX بشكل أساسي على اكتشاف الصندوق المحيطي، يدعم YOLO11 في الأصل تجزئة النماذج وتقدير الوضعيات والصناديق المحيطية الموجهة (OBB) والتصنيف في إطار عمل واحد.
  • كفاءة التدريب: تم تحسين نماذج Ultralytics من أجل التدريب الفعّال، وذلك باستخدام عمليات تعزيز متقدمة وأوزان متوفرة مسبقًا ومتاحة بسهولة لتقليل الوقت وموارد الحوسبة اللازمة للوصول إلى التقارب.

مثال من العالم الحقيقي

يعد تنفيذ اكتشاف الأجسام باستخدام YOLO11 أمرًا بديهيًا. يوضح المثال التالي كيفية تحميل نموذج مدرب مسبقًا وإجراء الاستدلال على صورة:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

تتناقض هذه البساطة بشكل حاد مع التكوين متعدد الخطوات الذي غالبًا ما يكون مطلوبًا في البنى الأخرى، مما يسمح للمطورين بالتركيز على حل مشاكل الأعمال بدلاً من المصارعة مع التعليمات البرمجية.

الخلاصة

قدم كل من PP-YOLOE+ و YOLOX مساهمات كبيرة في مجال رؤية الكمبيوتر. يعد PP-YOLOE+ خيارًا ممتازًا لأولئك المندمجين بعمق في نظام Baidu PaddlePaddle الذي يتطلب دقة صناعية عالية. لا يزال YOLOX خط أساس محترم للباحثين الذين يبحثون في المنهجيات الخالية من الارتكاز.

ومع ذلك، بالنسبة لغالبية المشاريع الجديدة Ultralytics YOLO11 الحزمة الأكثر إقناعًا. فهي تجمع بين الأداء المتطور، والاستخدام المنخفض للذاكرة، وتجربة المطورين التي لا مثيل لها، مما يجعلها الخيار الأفضل لنشر حلول الاستدلال في الوقت الحقيقي القابلة للتطوير.

تعرف على المزيد حول YOLO11


تعليقات