RTDETRv2 مقابل PP-YOLOE+: مقارنة تقنية بين نماذج الكشف عن الأجسام
أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور نُهج معمارية متنوعة لحل التحديات المعقدة المرتبطة بالكشف عن الأجسام في الوقت الفعلي. ومن بين أبرز التطورات الحديثة في هذا المجال نجد RTDETRv2 و PP-YOLOE+، وهما نموذجان قويان يتعاملان مع التعرف البصري من منطلق فلسفتين تصميميتين مختلفتين تمامًا. ورغم أن كلا النموذجين يهدفان إلى توفير كشف عالي الأداء، فإن آلياتهما الأساسية ونماذج التدريب وسيناريوهات النشر المثالية تختلف بشكل كبير.
يتعمق هذا الدليل الشامل في الفروق الفنية بين كلا النموذجين، ويقارن بين هياكلهما ومقاييس أدائهما ودعمهما للنظام البيئي لمساعدة المطورين والباحثين على اختيار الحل الأمثل لاحتياجاتهم الخاصة في مجال النشر.
نظرات عامة على النموذج
قبل تحليل بيانات الأداء، من المهم فهم أصول وأهداف هندسة كل نموذج. كلاهما منشأهما فرق بحثية في Baidu، لكنهما يمثلان فروعًا مختلفة من شجرة عائلة الكشف عن الكائنات.
RTDETRv2
يمثل RTDETRv2 قفزة كبيرة في هياكل الرؤية القائمة على المحولات. بناءً على محول الكشف في الوقت الحقيقي الأصلي، فإنه يستفيد من محول رؤية مرن مقترن بمشفّر هجين فعال. وتتمثل أكثر خصائصه تميزًا في قدرته على التنبؤ من البداية إلى النهاية، مما يلغي تمامًا الحاجة إلى قمع غير أقصى (NMS) أثناء المعالجة اللاحقة.
المؤلف: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: 2407.17140
GitHub: RT-DETR
PP-YOLOE+
PP-YOLOE+ هو إصدار متطور من YOLO تم تحسينه بشكل كبير للتطبيقات الصناعية عالية الأداء. يتميز بهيكل CNN قابل للتطوير مع رأس كشف بدون مرساة. صُمم لتوفير توازن استثنائي بين السرعة والدقة، ويقدم تقنيات قوية مثل ET-head ووظيفة فقدان بؤري عامة لتحسين كشف الأجسام الصغيرة.
المؤلف: PaddlePaddle
المنظمة: Baidu
التاريخ: 2022-04-02
Arxiv: 2203.16250
GitHub: PaddleDetection Repository
تكامل النظام الإيكولوجي
على الرغم من أن كلا النموذجين لهما مستودعات بحث مستقلة، يمكنك بسهولة تجربة RTDETRv2 مباشرةً داخل Python والاستفادة من واجهة برمجة تطبيقات موحدة وخيارات تصدير مبسطة.
الاختلافات المعمارية
يكمن الاختلاف الأساسي بين هذين النموذجين في كيفية معالجتهما للسياق البصري وتوليد التوقعات.
يستخدم PP-YOLOE+ شبكة عصبية تلافيفية (CNN) تقليدية ولكنها محسّنة للغاية. يعتمد على الحقول الاستقبالية المحلية لاستخراج الميزات، مما يجعله سريعًا وفعالًا للغاية للنشر القياسي. ومع ذلك، لا يزال يتطلب NMS قياسية NMS لتصفية المربعات المتداخلة، مما قد يؤدي إلى حدوث اختناقات في زمن الاستجابة في المشاهد المكتظة.
على العكس من ذلك، يستخدم RTDETRv2 مشفرًا هجينًا ومفككًا محولًا. وهذا يسمح للنموذج بالتقاط السياق العام عبر الصورة بأكملها في وقت واحد. تفهم آليات الانتباه بطبيعتها العلاقات بين الكائنات، مما يمكّن النموذج من إخراج مربعات الحدود النهائية مباشرةً دون NMS. يضمن هذا النهج الشامل استقرار زمن الاستدلال بغض النظر عن عدد الكائنات المكتشفة.
مقاييس الأداء والمقارنة
عند تقييم مقاييسYOLO من الضروري تحقيق التوازن بين الدقة (mAP) والتكلفة الحسابية (FLOPs) وسرعة الاستدلال. يوضح الجدول أدناه أداء كلا النموذجين عبر أحجام مختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
بينما يحقق PP-YOLOE+x معدلدقة متوسط (mAPval) أعلى قليلاً بنسبة 54.7٪ على COCO توفر نماذج RTDETRv2 عمومًا دقة تنافسية مع ميزة إضافية تتمثل في زمن انتقال ثابت بفضل تصميمها NMS. ومع ذلك، يحافظ PP-YOLOE+ على ميزة واضحة في عدد المعلمات وعمليات FLOPs للنماذج الأصغر حجمًا، مما يجعله عالي الكفاءة في عمليات النشر الطرفية.
ميزة Ultralytics: تقديم YOLO26
في حين أن RTDETRv2 و PP-YOLOE+ هما تقنيتان رائعتان بحد ذاتها، إلا أن أحدث التقنيات استمرت في التطور. بالنسبة للمطورين الذين يبحثون عن التوازن المثالي بين السرعة والدقة ودعم النظام البيئي، تمثل Ultralytics المعيار الصناعي الجديد.
يجمع YOLO26 بين أفضل جوانب كل من CNNs و Transformers. وهو يعتمد تصميم End-to-End NMS الذي ابتكرته البنى الحديثة، مما يزيل بشكل فعال اختناقات ما بعد المعالجة. علاوة على ذلك، يقدم محسن MuSGD الثوري، وهو نهج هجين مستوحى من ابتكارات تدريب LLM التي تضمن تدريبًا عالي الاستقرار وتقاربًا سريعًا.
مُحسّن للحافة
على عكس نماذج المحولات الثقيلة التي تتطلب CUDA كبيرة، يتميز YOLO26 بإزالة DFL (توزيع الخسارة البؤرية) وهو مُحسّن خصيصًا للحوسبة الطرفية، مما يوفر CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة.
بالإضافة إلى ذلك، لا يقتصر YOLO26 على الكشف البسيط عن الكائنات. فهو متعدد الاستخدامات بطبيعته، ويدعم تقسيم المثيلات وتقدير الوضع والمربعات المحددة الاتجاه (OBB) بشكل فوري، في حين يركز PP-YOLOE+ بشكل أساسي على الكشف عن المربعات المحددة.
منهجيات التدريب والنظام البيئي
تتميز Ultralytics بفعالية التدريب وسهولة الاستخدام مقارنة بمستودعات الأبحاث المستقلة. في حين يعتمد PP-YOLOE+ على PaddlePaddle ويتطلب RTDETRv2 غالبًا إعدادات بيئة معقدة، فإن دمج النماذج من خلال Ultralytics تجربة سلسة.
مع Ultralytics ، يمكنك الاستفادة من متطلبات ذاكرة أقل أثناء التدريب، ومعالجة مجموعات البيانات تلقائيًا، وضبط المعلمات الفائقة بشكل مبسط. علاوة على ذلك، يمكنك نشر النماذج إلى تنسيقات الإنتاج مثل ONNX أو TensorRT يمكن تحقيقه بأمر واحد.
مثال على الكود: الاستدلال المبسط
فيما يلي عرض توضيحي لكيفية استخدام RTDETRv2 بسهولة جنبًا إلى جنب مع نموذج YOLO26 الموصى به باستخدامPython Ultralytics Python :
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")
التطبيقات الحقيقية وحالات الاستخدام
غالبًا ما يعتمد الاختيار بين هذه البنى على متطلبات الأجهزة والتطبيقات المحددة.
- يتفوق RTDETRv2 في بيئات جانب الخادم وفهم المشاهد المعقدة. آلية الانتباه الشاملة التي يتمتع بها تجعله فعالاً للغاية في إدارة الحشود وتحليل الصور الطبية الكثيفة، حيث تتسبب الأجسام المتداخلة عادةً في فشل NMS القياسية.
- PP-YOLOE+ مناسب للغاية للفحص الصناعي عالي السرعة والبيئات التي تستثمر بكثافة في نظام PaddlePaddle . إن عدد معلماته المنخفض على النطاقات الأصغر يجعله قابلاً للتطبيق في بعض تطبيقات الروبوتات.
- Ultralytics هو الحل الموصى به عالميًا للنشر التجاري الشامل. بفضل وظائف ProgLoss + STAL المحسّنة، فإنه يحسّن بشكل كبير التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لعمليات الطائرات بدون طيار ومراقبة حركة المرور في المدن الذكية.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR PP-YOLOE+ على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار PP-YOLOE+
يوصى باستخدام PP-YOLOE+ في الحالات التالية:
- تكاملPaddlePaddle : المؤسسات التي تمتلك بنية تحتية قائمة مبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
- نشر Paddle Lite Edge: النشر على الأجهزة باستخدام نوى استدلال محسّنة للغاية خصيصًا لمحرك الاستدلال Paddle Lite أو Paddle.
- الكشف عالي الدقة من جانب الخادم: سيناريوهات تعطي الأولوية لأقصى دقة في الكشف على GPU قوية حيث لا تشكل تبعية إطار العمل مشكلة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
الخلاصة
لقد دفع كل من RTDETRv2 و PP-YOLOE+ حدود ما هو ممكن في مجال الرؤية الحاسوبية، مما يثبت جدوى كل من بنى المحولات وبنى CNN عالية التحسين. ومع ذلك، فإن تعقيد نشر قواعد بيانات البحوث المجزأة يمكن أن يعيق جداول الإنتاج.
بالنسبة لمهندسي الذكاء الاصطناعي المعاصرين، يوفر الاستفادة من Ultralytics ميزة لا مثيل لها. من خلال الانتقال إلى نماذج متكاملة بسلاسة مثل YOLO11 أو YOLO26 المتطورة، يمكن للفرق تحقيق أعلى نسب دقة إلى سرعة ممكنة مع تقليل متطلبات الذاكرة وتكاليف التطوير بشكل كبير.