RTDETRv2 مقابل PP-YOLOE+: مقارنة تقنية لنماذج اكتشاف الكائنات
لقد أنتج مجال الرؤية الحاسوبية سريع التطور نهجاً معمارية متنوعة لحل تحديات اكتشاف الكائنات في الوقت الفعلي المعقدة. ومن بين أبرز التطورات الأخيرة RTDETRv2 و PP-YOLOE+، وهما نموذجان قويان يتعاملان مع التعرف البصري من فلسفات تصميم مختلفة تماماً. وبينما يهدف كلا النموذجين إلى توفير اكتشاف عالي الأداء، فإن آلياتهما الأساسية ونماذج التدريب وسيناريوهات النشر المثالية تختلف بشكل كبير.
يتعمق هذا الدليل الشامل في الفروق التقنية لكلا النموذجين، ويقارن بين معمارياتهما ومقاييس الأداء ودعم النظام البيئي لمساعدة المطورين والباحثين على اختيار الحل الأمثل لاحتياجات النشر الخاصة بهم.
نظرة عامة على النماذج
قبل تحليل بيانات الأداء، من المهم فهم أصول وأهداف كل نموذج معمارية. كلاهما نشأ من فرق بحثية في Baidu، ومع ذلك فهما يمثلان فروعاً مختلفة في شجرة عائلة اكتشاف الكائنات.
RTDETRv2
يمثل RTDETRv2 قفزة كبيرة في معمارية الرؤية القائمة على Transformer. وبالبناء على Real-Time Detection Transformer الأصلي، فإنه يستفيد من عمود فقري مرن لـ vision transformer مقترن بمشفر هجين فعال. وتتمثل خاصيته الأكثر تحديداً في قدرته الأصلية على التنبؤ من البداية إلى النهاية، مما يلغي تماماً الحاجة إلى Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة.
المؤلف: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu المؤسسة: Baidu التاريخ: 2024-07-24 Arxiv: 2407.17140 GitHub: RT-DETR Repository
PP-YOLOE+
PP-YOLOE+ هو تكرار متقدم لسلسلة YOLO، تم تحسينه بشكل كبير للتطبيقات الصناعية عالية الأداء. يتميز بمعمارية CNN قابلة للتطوير مع رأس اكتشاف خالٍ من المراسي (anchor-free). تم تصميمه لتوفير مقايضات استثنائية بين السرعة والدقة، ويقدم تقنيات قوية مثل ET-head ودالة فقدان بؤري معمة (generalized focal loss) لتحسين اكتشاف الكائنات الصغيرة.
المؤلف: مؤلفو PaddlePaddle المؤسسة: Baidu التاريخ: 2022-04-02 Arxiv: 2203.16250 GitHub: PaddleDetection Repository
على الرغم من أن كلا النموذجين لهما مستودعات بحثية مستقلة، يمكنك بسهولة تجربة RTDETRv2 مباشرة داخل حزمة Python من Ultralytics، والاستفادة من واجهة API موحدة وخيارات تصدير مبسطة.
الاختلافات المعمارية
يكمن الاختلاف الجوهري بين هذين النموذجين في كيفية معالجتهما للسياق البصري وتوليدهما للتنبؤات.
يستخدم PP-YOLOE+ عموداً فقرياً تقليدياً لشبكة عصبية تلافيفية (CNN) ولكن تم تحسينه للغاية. وهو يعتمد على مجالات الاستقبال المحلية لاستخراج الميزات، مما يجعله سريعاً وفعالاً للغاية للنشر القياسي. ومع ذلك، فإنه لا يزال يتطلب معالجة لاحقة قياسية NMS لتصفية صناديق التقييد المتداخلة، وهو ما قد يؤدي إلى اختناقات في زمن الوصول في المشاهد المزدحمة.
على العكس من ذلك، يستخدم RTDETRv2 مشفراً هجيناً (Hybrid Encoder) وجهاز فك تشفير Transformer. وهذا يسمح للنموذج بالتقاط السياق العالمي عبر الصورة بأكملها في وقت واحد. وتفهم آليات الانتباه بطبيعتها العلاقات بين الكائنات، مما يتيح للنموذج إخراج صناديق التقييد النهائية مباشرة دون الحاجة إلى NMS. يضمن هذا النهج من البداية إلى النهاية استقرار زمن وصول الاستنتاج بغض النظر عن عدد الكائنات المكتشفة.
مقاييس الأداء والمقارنة
عند تقييم مقاييس أداء YOLO، من الضروري موازنة الدقة (mAP) مقابل التكلفة الحسابية (FLOPs) وسرعة الاستنتاج. يسلط الجدول أدناه الضوء على أداء كلا النموذجين عبر أحجام مختلفة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
في حين يحقق PP-YOLOE+x دقة mAPval أعلى قليلاً بنسبة 54.7% على مجموعة بيانات COCO، تقدم نماذج RTDETRv2 عموماً دقة تنافسية مع ميزة إضافية تتمثل في زمن وصول ثابت بفضل تصميمها الخالي من NMS. ومع ذلك، يحتفظ PP-YOLOE+ بميزة صارمة في عدد المعلمات وFLOPs للنماذج الأصغر، مما يجعله فعالاً للغاية لعمليات النشر على الحافة (edge).
ميزة Ultralytics: دخول YOLO26
في حين أن RTDETRv2 و PP-YOLOE+ هما نموذجان هائلان في حد ذاتهما، فقد استمرت حالة الفن في التطور. بالنسبة للمطورين الذين يسعون إلى تحقيق التوازن النهائي بين السرعة والدقة ودعم النظام البيئي، يمثل Ultralytics YOLO26 المعيار الصناعي الجديد.
يجمع YOLO26 بين أفضل جوانب شبكات CNN وTransformers. وهو يتبنى تصميم End-to-End NMS-Free الذي رادته المعماريات الحديثة، مما يقضي بفعالية على اختناقات المعالجة اللاحقة. علاوة على ذلك، فإنه يقدم MuSGD Optimizer الثوري، وهو نهج هجين مستوحى من ابتكارات تدريب LLM يضمن تدريباً مستقراً للغاية وتقارباً سريعاً.
بخلاف نماذج Transformer الثقيلة التي تتطلب ذاكرة CUDA كبيرة، يتميز YOLO26 بخاصية إزالة DFL (Distribution Focal Loss) وهو محسن خصيصاً للحوسبة على الحافة، مما يوفر استنتاجاً أسرع بنسبة تصل إلى 43% على CPU مقارنة بالأجيال السابقة.
بالإضافة إلى ذلك، لا يقتصر YOLO26 على اكتشاف الكائنات البسيط. فهو متعدد الاستخدامات بطبيعته، حيث يدعم تجزئة المثيلات، وتقدير الوضعية، وصناديق التقييد الموجهة (OBB) بشكل جاهز، بينما يركز PP-YOLOE+ بشكل أساسي على اكتشاف صناديق التقييد.
منهجيات التدريب والنظام البيئي
تعتبر كفاءة التدريب وسهولة الاستخدام المجال الذي يتألق فيه نظام Ultralytics البيئي حقاً مقارنة بالمستودعات البحثية المستقلة. بينما يعتمد PP-YOLOE+ على إطار عمل PaddlePaddle وغالباً ما يتطلب RTDETRv2 إعدادات بيئة معقدة، فإن دمج النماذج من خلال Ultralytics يوفر تجربة سلسة.
باستخدام Ultralytics API، يمكنك الاستفادة من متطلبات ذاكرة أقل أثناء التدريب، ومعالجة تلقائية لمجموعة البيانات، وضبط مبسط للمعلمات الفائقة. علاوة على ذلك، يمكن إنجاز نشر النماذج في صيغ الإنتاج مثل ONNX أو TensorRT بأمر واحد.
مثال برمجي: استنتاج مبسط
فيما يلي توضيح لمدى سهولة استخدام RTDETRv2 جنباً إلى جنب مع نموذج YOLO26 الموصى به باستخدام حزمة Python من Ultralytics:
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")التطبيقات الواقعية وحالات الاستخدام
يعتمد الاختيار بين هذه المعماريات غالباً على متطلبات الأجهزة والتطبيقات المحددة.
- RTDETRv2 يتفوق في بيئات جانب الخادم (server-side) وفهم المشاهد المعقدة. تجعل آلية الانتباه العالمية الخاصة به فعالة للغاية في إدارة الحشود وتحليل الصور الطبية المكثف، حيث تؤدي الكائنات المتداخلة عادةً إلى فشل خوارزميات NMS القياسية.
- PP-YOLOE+ مناسب للغاية للفحص الصناعي عالي السرعة والبيئات المستثمرة بكثافة في نظام PaddlePaddle البيئي. عدد المعلمات المنخفض الخاص به عند المقاييس الأصغر يجعله قابلاً للتطبيق في بعض تطبيقات الروبوتات.
- Ultralytics YOLO26 هو الحل الموصى به عالمياً للنشر التجاري الشامل. بفضل وظائف ProgLoss + STAL المحسنة، فإنه يحسن بشكل كبير التعرف على الكائنات الصغيرة وهو أمر بالغ الأهمية لـ عمليات الطائرات بدون طيار ومراقبة حركة المرور في المدن الذكية.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR و PP-YOLOE+ على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار RT-DETR
يعد RT-DETR خياراً قوياً لـ:
- أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
- سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
- اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.
متى تختار PP-YOLOE+
يوصى باستخدام PP-YOLOE+ لـ:
- تكامل نظام PaddlePaddle البيئي: المنظمات ذات البنية التحتية الحالية المبنية على إطار عمل Baidu's PaddlePaddle والأدوات المرتبطة به.
- نشر حافة Paddle Lite: النشر على أجهزة تحتوي على نوى استدلال مُحسَّنة للغاية خصيصًا لمحرك Paddle Lite أو محرك استدلال Paddle.
- الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة للكشف على خوادم GPU قوية حيث لا يمثل الاعتماد على إطار العمل مصدر قلق.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
خاتمة
لقد دفع كل من RTDETRv2 و PP-YOLOE+ حدود ما هو ممكن في الرؤية الحاسوبية، مما أثبت جدوى كل من معمارية Transformer ومعمارية CNN المحسنة للغاية. ومع ذلك، فإن تعقيد نشر قواعد الأكواد البحثية المجزأة يمكن أن يعيق جداول الإنتاج الزمنية.
بالنسبة لمهندسي الذكاء الاصطناعي المعاصرين، فإن الاستفادة من منصة Ultralytics توفر ميزة لا تضاهى. من خلال الانتقال إلى نماذج متكاملة بسلاسة مثل YOLO11 أو YOLO26 المتطور، يمكن للفرق تحقيق أعلى نسب ممكنة للدقة إلى السرعة مع تقليل متطلبات الذاكرة والنفقات العامة للتطوير بشكل كبير.