تخطي إلى المحتوى

PP-YOLOE+ ضد YOLOX: مقارنة متقدمة في الكشف عن الأجسام بدون مرساة

يتطلب اختيار بنية الكشف عن الكائنات المثالية فهمًا عميقًا للمفاضلات بين الدقة وسرعة الاستدلال وتعقيد النشر. يقدم هذا الدليل مقارنة فنية بين PP-YOLOE+، وهو كاشف من الدرجة الصناعية من Baidu، و YOLOX، وهو نموذج عالي الأداء بدون مرساة من Megvii. سجلت كلتا البنيتين علامات بارزة في التحول نحو الكاشفات الخالية من المرساة، حيث قدمتا حلولًا قوية لمهندسي رؤية الحاسوب.

PP-YOLOE+: التميز الصناعي من Baidu

PP-YOLOE+ هو نسخة متطورة من PP-YOLOE، تم تطويرها بواسطة مؤلفي PaddlePaddle في Baidu. تم إصداره في أبريل 2022، وهو جزء من مجموعة PaddleDetection الشاملة. تم تصميم PP-YOLOE+ خصيصًا للتطبيقات الصناعية، وهو يحسن التوازن بين كفاءة التدريب ودقة الاستدلال، والاستفادة من قدرات إطار عمل PaddlePaddle.

تفاصيل فنية:

البنية والميزات الرئيسية

يتميز PP-YOLOE+ بالعديد من الابتكارات المعمارية التي تهدف إلى زيادة الأداء إلى أقصى حد على الأجهزة المختلفة:

  • عمود فقري قابل للتطوير: تستخدم شبكة CSPRepResResNet، وهي عمود فقري يجمع بين قوة استخراج الميزة للشبكات المتبقية وكفاءة الاتصالات الجزئية عبر المراحل (CSP).
  • تعلم محاذاة المهام (TAL): الابتكار الحاسم هو استخدام TAL، وهي دالة خسارة متخصصة تعمل على محاذاة مهام التصنيف وتحديد الموقع ديناميكيًا، مما يضمن أن أعلى درجات الثقة تتوافق مع مربعات الإحاطة الأكثر دقة.
  • رأس فعال مُحاذي للمهام (ET-Head): يستخدم النموذج رأسًا خاليًا من المرساة يبسط تصميم رأس الاكتشاف، مما يقلل من النفقات الحسابية مع الحفاظ على دقة عالية.

نقاط القوة والضعف

يعد PP-YOLOE+ قوة كبيرة لسيناريوهات نشر محددة ولكنه يأتي مع قيود على النظام البيئي.

نقاط القوة:

  • دقة متطورة: يحقق النموذج نتائج استثنائية على مجموعة بيانات COCO، حيث يصل متغير PP-YOLOE+x إلى 54.7٪ mAP، مما يجعله مناسبًا للمهام عالية الدقة مثل الكشف عن العيوب.
  • كفاءة الاستدلال: من خلال التحسينات مثل دمج المشغل في إطار عمل PaddlePaddle، فإنه يوفر سرعات تنافسية على أجهزة GPU، خاصةً لأحجام النماذج الأكبر.

نقاط الضعف:

  • الاعتماد على الإطار: يمكن أن يكون الاعتماد الأساسي على نظام PaddlePaddle البيئي عائقًا أمام الفرق الموحدة على PyTorch أو TensorFlow.
  • تعقيد النشر: غالبًا ما يتطلب نقل هذه النماذج إلى محركات استدلال أخرى (مثل ONNX Runtime أو TensorRT) أدوات تحويل محددة قد لا تدعم جميع العمليات المخصصة خارج الصندوق.

تعرف على المزيد حول PP-YOLOE+

YOLOX: الرائد الخالي من الـ Anchor

تم تقديم YOLOX في عام 2021 من قبل باحثين في Megvii. اكتسبت اهتمامًا فوريًا لفصل رأس الكشف وإزالة الارتكازات - وهي خطوة أدت إلى تبسيط مسار التدريب بشكل كبير مقارنة بتكرارات YOLO السابقة. سدت YOLOX الفجوة بين البحث الأكاديمي والتطبيق الصناعي العملي، مما أثر على العديد من بنى الكشف عن الكائنات اللاحقة.

تفاصيل فنية:

البنية والميزات الرئيسية

قدم YOLOX فلسفة تصميم "احترافي وخالي من الارتكاز" لعائلة YOLO:

  • رأس غير مقترن: على عكس رؤوس YOLO التقليدية التي تجري التصنيف والتوطين في فروع مقترنة، يفصل YOLOX هذه المهام. يؤدي هذا الفصل إلى تحسين سرعة التقارب والدقة النهائية.
  • تعيين تسمية SimOTA: تستخدم YOLOX SimOTA (تعيين النقل الأمثل المبسط)، وهي استراتيجية تعيين تسمية ديناميكية تحدد تلقائيًا أفضل العينات الإيجابية لكل كائن حقيقة أساسية، مما يقلل الحاجة إلى الضبط المعقد للمعلمات الفائقة.
  • آلية خالية من المرتكزات (Anchor-Free Mechanism): من خلال إلغاء مربعات الارتكاز المحددة مسبقًا، يقلل YOLOX من عدد معلمات التصميم ويحسن التعميم عبر أشكال الكائنات، خاصةً تلك ذات نسب العرض إلى الارتفاع القصوى.

نقاط القوة والضعف

نقاط القوة:

  • بساطة التنفيذ: إن إزالة المراسي واستخدام عمليات PyTorch القياسية يجعلان قاعدة التعليمات البرمجية سهلة الفهم والتعديل نسبياً لأغراض البحث.
  • خط أساس قوي: إنه بمثابة خط أساس ممتاز للبحث الأكاديمي في تقنيات التدريب المتقدمة والتعديلات المعمارية.

نقاط الضعف:

  • أداء التقادم: على الرغم من كونه ثوريًا في عام 2021، إلا أن مقاييس الأداء الخام (المفاضلة بين السرعة/الدقة) قد تجاوزتها نماذج أحدث مثل YOLOv8 و YOLO11.
  • حدة موارد التدريب: يمكن لاستراتيجيات التعيين المتقدمة مثل SimOTA أن تزيد من الحمل الحسابي خلال مرحلة التدريب مقارنةً بطرق التعيين الثابتة الأبسط.

دعم الأنظمة القديمة

في حين أن YOLOX لا يزال يستخدم على نطاق واسع في البحث، إلا أن المطورين الذين يبحثون عن دعم طويل الأجل وتحديثات نشطة قد يجدون أن البنيات الأحدث أكثر فائدة لبيئات الإنتاج.

تعرف على المزيد حول YOLOX

مقارنة الأداء الفني

عند الاختيار بين PP-YOLOE+ و YOLOX، توفر مقاييس الأداء على المعايير القياسية الأساس الأكثر موضوعية لاتخاذ القرار. تسلط البيانات التالية الضوء على أدائها في مجموعة التحقق COCO.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

التحليل

  • هيمنة الدقة: يتفوق PP-YOLOE+ باستمرار على YOLOX عبر أحجام النماذج المماثلة. يحقق نموذج PP-YOLOE+x قيمة 54.7% mAP، وهو تحسن كبير مقارنة بنسبة 51.1% لـ YOLOX-x.
  • الكفاءة: يُظهر PP-YOLOE+ كفاءة فائقة في استخدام المعلمات. على سبيل المثال، s يحقق المتغير دقة أعلى (43.7٪ مقابل 40.5٪) مع استخدام عدد أقل من المعلمات (7.93 مليون مقابل 9.0 مليون) و FLOPs.
  • سرعة الاستدلال: بينما يظل YOLOX منافسًا في الأحجام الصغيرة، يتوسع PP-YOLOE+ بشكل أفضل على أجهزة GPU (T4 TensorRT)، مما يوفر سرعات أعلى لنماذجه الكبيرة والكبيرة جدًا على الرغم من الدقة الأعلى.

Ultralytics YOLO11: المعيار الحديث

بينما يعد PP-YOLOE+ و YOLOX كاشفات قادرة، فإن مشهد رؤية الكمبيوتر يتطور بسرعة. بالنسبة للمطورين الذين يبحثون عن المزيج الأمثل من الأداء وسهولة الاستخدام ودعم النظام البيئي، يمثل Ultralytics YOLO11 الخيار الأحدث.

لماذا تختار Ultralytics YOLO11؟

  • سهولة الاستخدام: على عكس الإعداد المعقد المطلوب غالبًا لمستودعات الأبحاث أو الأدوات الخاصة بالإطار، يقدم YOLO11 واجهة Python API و CLI مبسطة. يمكنك الانتقال من التثبيت إلى الاستدلال في ثوانٍ.
  • نظام بيئي مُدار بشكل جيد: يتم دعم نماذج Ultralytics بواسطة نظام بيئي قوي يتضمن تحديثات متكررة و وثائق شاملة وتكامل سلس مع أدوات MLOps.
  • موازنة الأداء: تم تصميم YOLO11 لتوفير توازنًا مناسبًا بين السرعة والدقة، وغالبًا ما يتفوق على الأجيال السابقة مع متطلبات ذاكرة أقل أثناء التدريب والاستدلال.
  • تعدد الاستخدامات: بينما يركز PP-YOLOE+ و YOLOX بشكل أساسي على اكتشاف المربعات المحيطة، يدعم YOLO11 أصلاً instance segmentation و pose estimation و oriented bounding boxes (OBB) و classification ضمن إطار عمل واحد.
  • كفاءة التدريب: تم تحسين نماذج Ultralytics للتدريب الفعال، باستخدام عمليات زيادة متقدمة وأوزان مدربة مسبقًا متاحة بسهولة لتقليل الوقت وموارد الحوسبة اللازمة للوصول إلى التقارب.

مثال من العالم الحقيقي

يعد تطبيق الكشف عن الكائنات باستخدام YOLO11 أمرًا بديهيًا. يوضح المثال التالي كيفية تحميل نموذج مُدرَّب مسبقًا وإجراء استدلال على صورة:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Perform inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

يتناقض هذا البساطة بشكل حاد مع التكوين متعدد الخطوات المطلوب غالبًا للهياكل الأخرى، مما يسمح للمطورين بالتركيز على حل مشكلات الأعمال بدلاً من المصارعة مع التعليمات البرمجية.

الخلاصة

قدم كل من PP-YOLOE+ و YOLOX مساهمات كبيرة في مجال رؤية الكمبيوتر. يُعد PP-YOLOE+ خيارًا ممتازًا لأولئك المدمجين بعمق في نظام Baidu PaddlePaddle البيئي الذين يحتاجون إلى دقة صناعية عالية. يظل YOLOX خط أساس محترم للباحثين الذين يبحثون في منهجيات خالية من المرساة.

ومع ذلك، بالنسبة لغالبية المشاريع الجديدة، يقدم Ultralytics YOLO11 الحزمة الأكثر إقناعًا. إن جمعه بين الأداء المتطور واستخدام الذاكرة المنخفض وتجربة المطور التي لا مثيل لها يجعله الخيار الأفضل لنشر حلول الاستدلال في الوقت الفعلي القابلة للتطوير.

تعرف على المزيد حول YOLO11


تعليقات