RTDETRv2 مقابل YOLOX: مقارنة فنية للكشف عن الأجسام
يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا يوازن بين الدقة والسرعة والتكلفة الحسابية. يتعمق هذا التحليل في نموذجين مؤثرين: RTDETRv2، وهي بنية قائمة على المحولات من Baidu معروفة بدقتها العالية، و YOLOX، وهو نموذج قائم على CNN عالي الكفاءة من Megvii مصمم للسرعة. يعد فهم الاختلافات المعمارية وقياسات الأداء وحالات الاستخدام المثالية أمرًا أساسيًا لاختيار أفضل نموذج لمشروع الرؤية الحاسوبية الخاص بك.
يوفر هذا التحليل تفصيلاً دقيقًا لمساعدتك في التنقل بين المفاضلات بين هذين الهيكلين القويين.
RTDETRv2: محول كشف عالي الدقة في الوقت الفعلي الإصدار الثاني
يمثل RTDETRv2 (Real-Time Detection Transformer version 2) خطوة مهمة في تطبيق Vision Transformers (ViT) للكشف عن الأجسام في الوقت الفعلي. يهدف إلى تقديم أحدث دقة مع الحفاظ على سرعات استدلال تنافسية، مما يتحدى هيمنة النماذج التقليدية القائمة على CNN.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (RT-DETR الأصلي)، 2024-07-24 (تحسينات RTDETRv2)
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يستخدم RTDETRv2 بنية هجينة تجمع بين هيكل CNN لاستخراج الميزات بكفاءة مع وحدة ترميز وفك ترميز تعتمد على المحولات. يسمح هذا التصميم للنموذج بالاستفادة من آلية الانتباه الذاتي لالتقاط العلاقات والسياق العالميين داخل الصورة، وهو غالبًا ما يكون قيدًا لنماذج CNN النقية. مثل YOLOX، فهو كاشف خالٍ من المرساة، مما يبسط عملية الكشف عن طريق إلغاء الحاجة إلى مربعات مرساة محددة مسبقًا.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: تتيح بنية المحولات دقة فائقة، خاصة في المشاهد المعقدة التي تحتوي على العديد من الكائنات المتداخلة أو الصغيرة. إنه يتفوق في فهم السياق العام.
- الأداء في الوقت الفعلي: يحقق سرعات تنافسية، خاصة عند تحسينه باستخدام أدوات مثل TensorRT، مما يجعله قابلاً للتطبيق للعديد من التطبيقات في الوقت الفعلي.
- استخلاص ميزات قوي: يلتقط بشكل فعال التبعيات بعيدة المدى بين الكائنات في الصورة.
نقاط الضعف:
- استخدام عالٍ للذاكرة: تُعرف نماذج المحولات باستهلاكها الكبير للذاكرة، خاصة أثناء التدريب. هذا يمكن أن يجعل تدريبها أمرًا صعبًا دون وحدات معالجة رسومات (GPUs) متطورة ذات ذاكرة VRAM كبيرة.
- التعقيد الحسابي: يحتوي بشكل عام على عدد أكبر من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs) مقارنة بنماذج CNN الفعالة مثل Ultralytics YOLOv8، مما يؤدي إلى زيادة متطلبات الموارد.
- أبطأ على وحدة المعالجة المركزية: تم تحسين البنية بشكل كبير لتسريع وحدة معالجة الرسوميات (GPU) وقد لا تعمل بشكل جيد مثل شبكات CNN خفيفة الوزن على الأجهزة التي تعمل بوحدة المعالجة المركزية (CPU) فقط.
حالات الاستخدام المثالية
يُعد RTDETRv2 الأنسب للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي وتتوفر موارد حسابية كافية.
- المركبات ذاتية القيادة: لأنظمة الإدراك الموثوقة في السيارات ذاتية القيادة حيث الدقة غير قابلة للتفاوض.
- التصوير الطبي: للكشف الدقيق عن الحالات الشاذة في الفحوصات الطبية، حيث التفاصيل والسياق ضروريان.
- تحليل عالي الدقة: مثالي لتحليل الصور الكبيرة، مثل صور الأقمار الصناعية، حيث يكون السياق العالمي مهمًا.
- الروبوتات المتقدمة: للروبوتات التي تعمل في بيئات معقدة وغير مهيكلة تتطلب فهمًا عميقًا للمشهد.
YOLOX: كشف عالي الأداء للأجسام بدون نقاط ارتكاز
YOLOX هو كاشف أجسام عالي الأداء وبدون مرساة من Megvii يعتمد على عائلة YOLO. قدم العديد من الابتكارات الرئيسية لتحسين المفاضلة بين السرعة والدقة، مما يجعله منافسًا قويًا للتطبيقات في الوقت الفعلي.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- المستندات: https://yolox.readthedocs.io/en/latest/
البنية والميزات الرئيسية
تتمحور فلسفة تصميم YOLOX حول البساطة والأداء. تشمل ميزاته الرئيسية ما يلي:
- تصميم بدون مربعات ارتكاز (Anchor-Free): يبسط عملية التدريب ويقلل عدد معلمات التصميم عن طريق التنبؤ بمراكز الكائنات مباشرة.
- Decoupled Head: تستخدم فروعًا منفصلة لمهام التصنيف والانحدار في رأس detection head، والذي وجد أنه يحسن التقارب والدقة.
- SimOTA: إستراتيجية متقدمة لتعيين التسميات تقوم بتعيين عينات موجبة ديناميكيًا للتدريب، مما يحسن الأداء مقارنةً بطرق التعيين الثابتة.
- تقوية بيانات قوية: تستخدم تقنيات مثل MixUp و Mosaic لتحسين متانة النموذج وتعميمه.
نقاط القوة والضعف
نقاط القوة:
- سرعة ممتازة: مُحسَّن للغاية للاستدلال السريع، مما يجعله أحد أفضل الخيارات للاستدلال في الوقت الفعلي.
- كفاءة عالية: يوفر توازنًا رائعًا بين السرعة والدقة، خاصة في متغيراته الأصغر (مثل YOLOX-s، YOLOX-tiny).
- قابلية التوسع: توفر مجموعة من أحجام النماذج، من Nano إلى X، مما يسمح بالنشر عبر منصات مختلفة من الأجهزة الطرفية إلى الخوادم السحابية.
نقاط الضعف:
- دقة قصوى أقل: على الرغم من سرعته الفائقة، إلا أن أكبر نماذجه لا تصل إلى نفس متوسط دقة الخريطة (mAP) مثل النماذج المستندة إلى المحولات عالية المستوى مثل RTDETRv2.
- خاصية المهمة: مصمم في الأساس لاكتشاف الأجسام ويفتقر إلى التنوع المدمج متعدد المهام (مثل تقسيم الصور، والوضع) الموجود في أطر مثل Ultralytics YOLO.
- النظام البيئي: على الرغم من أنه مفتوح المصدر، إلا أنه لا يتمتع بنفس المستوى من الأدوات المتكاملة والتحديثات المستمرة ودعم المجتمع مثل الأنظمة البيئية التي تتم صيانتها بنشاط أكبر.
حالات الاستخدام المثالية
يتفوق YOLOX في السيناريوهات التي تكون فيها الأداء في الوقت الفعلي و الكفاءة على رأس الأولويات، خاصةً على الأجهزة ذات القدرة الحسابية المحدودة.
- الروبوتات: الإدراك السريع للملاحة والتفاعل، كما تم استكشافه في الذكاء الاصطناعي في الروبوتات.
- المراقبة: الكشف بكفاءة عن الأشياء في تدفقات الفيديو عالية الإطارات من أجل منع السرقة والمراقبة.
- الفحص الصناعي: فحوصات بصرية آلية على خطوط الإنتاج سريعة الحركة، مما يساعد على تحسين التصنيع.
- Edge AI: إن النماذج الصغيرة والفعالة مثالية للنشر على منصات مثل Raspberry Pi أو NVIDIA Jetson.
تحليل الأداء
يسلط أداء RTDETRv2 و YOLOX الضوء على المفاضلات الأساسية في التصميم الخاصة بهما. تحقق نماذج RTDETRv2 باستمرار درجات mAP أعلى، مما يدل على قوتها في الدقة. ومع ذلك، يأتي هذا على حساب المزيد من المعلمات والحمل الحسابي الأعلى. في المقابل، تقدم نماذج YOLOX، وخاصة المتغيرات الأصغر، سرعة استدلال استثنائية، مما يجعلها مثالية للتطبيقات التي يكون فيها الكمون عاملاً حاسمًا.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX-nano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOX-tiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOX-s | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOX-m | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOX-l | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOX-x | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
الخلاصة
يعتبر كل من RTDETRv2 و YOLOX من نماذج الكشف عن الأجسام القوية، لكنهما يخدمان احتياجات مختلفة. RTDETRv2 هو الخيار الأفضل عندما تكون أقصى دقة هي الأهم والموارد الحسابية، وخاصة ذاكرة GPU وقوة الحوسبة، ليست قيدًا. توفر بنية المحولات الخاصة به فهمًا أعمق للمشاهد المعقدة. في المقابل، YOLOX هو النموذج المفضل لـ سرعته وكفاءته الاستثنائية، مما يجعله مثاليًا للتطبيقات الآنية وعمليات النشر على الحافة والمشاريع ذات الميزانيات المحدودة للموارد.
لماذا تختار نماذج Ultralytics YOLO؟
في حين أن RTDETRv2 و YOLOX هما من المؤديين الأقوياء، غالبًا ما توفر نماذج Ultralytics YOLO مثل YOLOv10 وأحدث YOLO11 حزمة شاملة أكثر جاذبية للمطورين والباحثين.
- سهولة الاستخدام: واجهة برمجة تطبيقات Python مبسطة، و توثيق شامل، والعديد من الأدلة التي تبسط كل خطوة من التدريب إلى النشر.
- نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط والمجتمع الكبير والتحديثات المتكررة والتكامل السلس مع Ultralytics HUB للتدريب بدون تعليمات برمجية و MLOps.
- موازنة الأداء: تم تصميم نماذج Ultralytics لتحقيق توازن ممتاز بين السرعة والدقة، مما يجعلها متعددة الاستخدامات للغاية في سيناريوهات العالم الحقيقي المتنوعة.
- كفاءة الذاكرة: نماذج Ultralytics YOLO أكثر كفاءة في استخدام الذاكرة بشكل ملحوظ أثناء التدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2، والتي غالبًا ما تتطلب ذاكرة CUDA كبيرة.
- تنوع الاستخدامات: دعم أصيل لمهام رؤية متعددة تتجاوز الاكتشاف، بما في ذلك التجزئة، و تقدير الوضعية، و التصنيف، و تتبع الكائنات ضمن إطار عمل واحد وموحد.
- كفاءة التدريب: استمتع بأوقات تدريب أسرع، واستخدام فعال للموارد، وأوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات بيانات مثل COCO.
للحصول على مزيد من الأفكار، ضع في اعتبارك استكشاف مقارنات أخرى مثل YOLOv8 مقابل YOLOX أو RT-DETR مقابل YOLOv8.