PP-YOLOE+ مقابل RTDETRv2: مقارنة فنية
يتضمن اختيار نموذج الكشف عن الأجسام الصحيح مفاضلة حاسمة بين الدقة وسرعة الاستدلال والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين تم تطويرهما بواسطة Baidu: PP-YOLOE+، وهو كاشف عالي الكفاءة يعتمد على CNN، و RTDETRv2، وهو نموذج حديث قائم على المحولات. في حين أن كلاهما ينشأ من نفس المؤسسة، إلا أنهما يمثلان فلسفات معمارية مختلفة ومناسبان لاحتياجات تطبيق متميزة.
ستستكشف هذه المقارنة بنياتها الأساسية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشاريع الرؤية الحاسوبية الخاصة بك. سنناقش أيضًا كيف غالبًا ما توفر النماذج من سلسلة Ultralytics YOLO بديلاً أكثر توازناً وسهولة في الاستخدام.
PP-YOLOE+: كشف فعال يعتمد على الشبكات العصبونية التلافيفية
PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) هو أداة عالية الأداء للكشف عن الكائنات أحادية المرحلة تم تطويرها بواسطة Baidu كجزء من إطار عمل PaddleDetection الخاص بهم. تم تصميمه لتقديم توازن قوي بين الدقة والكفاءة، بالاعتماد على بنية YOLO الراسخة مع العديد من التحسينات الرئيسية.
- المؤلفون: مؤلفو PaddlePaddle
- المنظمة: بايدو
- التاريخ: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: https://github.com/PaddlePaddle/PaddleDetection/
- المستندات: https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
البنية والميزات الرئيسية
PP-YOLOE+ هو كاشف خالٍ من المرساة، مما يبسط مسار الاكتشاف عن طريق إزالة الحاجة إلى مربعات مرساة محددة مسبقًا وتقليل ضبط المعلمات الفائقة. تعتمد بنيته على الشبكات العصبية الالتفافية (CNNs) وتتضمن العديد من المكونات الحديثة:
- عمود فقري ورقبة فعالان: يستخدم عادةً عمودًا فقريًا من نوع ResNet أو CSPRepResNet لاستخراج الميزات وشبكة تجميع المسار (PAN) لدمج الميزات بشكل فعال عبر نطاقات متعددة.
- Decoupled Head: يفصل النموذج مهام التصنيف والانحدار في رأس detection head، وهي تقنية معروفة بتحسين الدقة عن طريق منع التداخل بين المهمتين.
- تعلم محاذاة المهام (TAL): يستخدم PP-YOLOE+ دالة فقدان متخصصة تسمى تعلم محاذاة المهام لتحسين مواءمة درجات التصنيف ودقة التوطين، مما يؤدي إلى عمليات كشف أكثر دقة.
نقاط القوة والضعف
نقاط القوة:
- توازن ممتاز بين السرعة والدقة: يوفر توازنًا تنافسيًا بين الأداء وسرعة الاستدلال، مما يجعله مناسبًا للعديد من تطبيقات العالم الحقيقي.
- بساطة بدون مرساة: يقلل التصميم الخالي من الإرساء من تعقيد النموذج ويبسط عملية التدريب.
- نظام PaddlePaddle البيئي: مدمج ومحسن بعمق لإطار عمل التعلم العميق PaddlePaddle.
نقاط الضعف:
- الاعتماد على إطار عمل: يمكن أن يؤدي تحسينه الأساسي لـ PaddlePaddle إلى خلق تحديات في التكامل للمطورين الذين يعملون مع أطر عمل أكثر شيوعًا مثل PyTorch.
- تعددية المهام محدودة: PP-YOLOE+ هو في الأساس أداة لاكتشاف الكائنات ويفتقر إلى الدعم المدمج لمهام الرؤية الأخرى مثل التجزئة أو تقدير الوضع الموجود في أطر عمل مثل Ultralytics.
RTDETRv2: دقة عالية مع نواة Transformer
RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) هو نموذج متطور آخر من Baidu، ولكنه يتبع نهجًا معماريًا مختلفًا من خلال دمج محول الرؤية (ViT). ويهدف إلى تجاوز حدود الدقة مع الحفاظ على الأداء في الوقت الفعلي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (RT-DETR الأصلي)، 2024-07-17 (RT-DETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يتميز RTDETRv2 بهندسة معمارية هجينة تجمع بين نقاط القوة في الشبكات العصبية التلافيفية (CNN) والمحولات. يتيح له هذا التصميم التقاط كل من الميزات المحلية والسياق العام بشكل فعال.
- العمود الفقري الهجين: يستخدم النموذج عمود CNN فقري لاستخراج خرائط الميزات الأولية، والتي يتم تغذيتها بعد ذلك في وحدة ترميز Transformer.
- مشفر المحوّل: تتيح آلية الانتباه الذاتي في طبقات المحوّل للنموذج فهم التبعيات والعلاقات طويلة المدى بين الكائنات في الصورة، مما يؤدي إلى فهم سياقي فائق.
- استعلامات بدون مرساة: على غرار النماذج المستندة إلى DETR، فإنه يستخدم مجموعة من استعلامات الكائنات القابلة للتعلم للكشف عن الكائنات، مما يلغي الحاجة إلى خطوات معالجة لاحقة معقدة مثل تثبيط غير الأقصى (NMS) أثناء الاستدلال.
نقاط القوة والضعف
نقاط القوة:
- دقة هي الأحدث على مستوى التقنية: تسمح بنية المحولات باستخلاص ميزات استثنائية، مما يؤدي غالبًا إلى نتائج mAP أعلى، خاصةً في المشاهد المعقدة التي تحتوي على العديد من الكائنات.
- فهم سياقي فائق: يتفوق في اكتشاف الكائنات في البيئات المزدحمة حيث يكون السياق العالمي أمرًا بالغ الأهمية.
- التحسين في الوقت الفعلي: على الرغم من تعقيده، تم تحسين RTDETRv2 لتحقيق التوازن بين دقته العالية وسرعات الاستدلال في الوقت الفعلي.
نقاط الضعف:
- التعقيد الحسابي: النماذج القائمة على المحولات أكثر تعقيدًا وتتطلب موارد مكثفة بطبيعتها مقارنة بنظيراتها من CNN.
- استخدام عالٍ للذاكرة: يتطلب تدريب RTDETRv2 عادةً ذاكرة CUDA أكبر بكثير وأوقات تدريب أطول مقارنة بنماذج CNN الفعالة مثل سلسلة Ultralytics YOLO.
مقارنة أداء مباشرة: الدقة مقابل السرعة
عند مقارنة PP-YOLOE+ و RTDETRv2، فإن المفاضلة الأساسية هي بين الكفاءة المتوازنة لتصميم CNN النقي والدقة القصوى لبنية المحولات الهجينة.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
من الجدول، يمكننا ملاحظة:
- الدقة: تحقق نماذج RTDETRv2 عمومًا درجات mAP أعلى من نماذج PP-YOLOE+ ذات الحجم المماثل (على سبيل المثال، RTDETRv2-l عند 53.4 mAP مقابل PP-YOLOE+l عند 52.9 mAP). يتفوق نموذج PP-YOLOE+x الأكبر قليلاً على RTDETRv2-x، ولكن مع عدد معلمات أعلى.
- السرعة: تُظهر نماذج PP-YOLOE+، وخاصة المتغيرات الأصغر، سرعات استدلال أسرع. على سبيل المثال، PP-YOLOE+s أسرع بكثير من أي نموذج RTDETRv2.
- الكفاءة: غالبًا ما تحقق نماذج PP-YOLOE+ أداءها مع عدد أقل من المعلمات والعمليات الحسابية، مما يجعلها أكثر كفاءة للنشر على الأجهزة ذات الموارد المحدودة.
ميزة Ultralytics: ما وراء المقارنة
في حين أن كلاً من PP-YOLOE+ و RTDETRv2 قويان، غالبًا ما يحتاج المطورون إلى أكثر من مجرد نموذج - فهم يحتاجون إلى نظام بيئي شامل وسهل الاستخدام. هذا هو المكان الذي تتفوق فيه نماذج Ultralytics مثل YOLOv8 وأحدث YOLO11.
- سهولة الاستخدام: توفر Ultralytics واجهة Python API مبسطة، و توثيق شامل، و أوامر CLI بسيطة، مما يجعل تدريب النماذج والتحقق منها ونشرها في غاية السهولة.
- نظام بيئي مُدار بشكل جيد: يتم تطوير إطار عمل Ultralytics بنشاط مع دعم مجتمعي قوي على GitHub والتكامل مع أدوات مثل Ultralytics HUB لـ MLOps سلس.
- موازنة الأداء: تشتهر نماذج Ultralytics YOLO بتوازنها الاستثنائي بين السرعة والدقة، مما يجعلها مناسبة لكل شيء بدءًا من الأجهزة الطرفية إلى خوادم الحوسبة السحابية.
- كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتكون فعالة من حيث الذاكرة، وعادةً ما تتطلب ذاكرة CUDA أقل للتدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2.
- تنوع الاستخدامات: على عكس PP-YOLOE+ و RTDETRv2، اللذين يركزان على الكشف، تدعم نماذج مثل YOLO11 مهام متعددة خارج الصندوق، بما في ذلك تجزئة المثيلات، والتصنيف، وتقدير الوضعية، والكشف عن الكائنات الموجهة.
- كفاءة التدريب: بفضل الأوزان المُدرَّبة مسبقًا المتاحة بسهولة وعمليات التدريب الفعالة، يمكن للمطورين تحقيق نتائج متطورة بشكل أسرع.
الخلاصة: ما هو النموذج المناسب لك؟
يعتمد الاختيار بين PP-YOLOE+ و RTDETRv2 بشكل كبير على أولويات مشروعك المحددة.
-
اختر PP-YOLOE+ إذا كنت تعمل ضمن نظام PaddlePaddle البيئي وتحتاج إلى كاشف فعال ومتوازن للغاية يعتمد على CNN لمهام الكشف عن الكائنات للأغراض العامة حيث السرعة عامل رئيسي. إنه ممتاز لتطبيقات مثل البيع بالتجزئة الذكي و الأتمتة الصناعية.
-
اختر RTDETRv2 إذا كان هدفك الأساسي هو تحقيق أقصى قدر من الدقة، خاصة في المشاهد المرئية المعقدة، ولديك الموارد الحسابية للتعامل مع بنيته الأكثر تطلبًا. إنه مناسب تمامًا للتطبيقات الهامة مثل المركبات ذاتية القيادة والروبوتات المتقدمة.
ومع ذلك، بالنسبة لمعظم المطورين والباحثين، تقدم نماذج Ultralytics YOLO مثل YOLO11 الخيار الأكثر إقناعًا. إنها توفر مزيجًا فائقًا من الأداء والتنوع وسهولة الاستخدام، وكلها مدعومة بنظام بيئي قوي ويتم صيانته بنشاط يسرع دورة حياة التطوير بأكملها.
استكشف مقارنات النماذج الأخرى
- YOLO11 مقابل RT-DETR
- YOLO11 مقابل PP-YOLOE+
- YOLOv10 مقابل RT-DETR
- YOLOv8 مقابل RT-DETR
- PP-YOLOE+ مقابل YOLOv8