تخطي إلى المحتوى

YOLOX ضد RTDETRv2: مقارنة فنية مفصلة للكشف عن الأجسام

يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية، حيث يوازن بين الدقة والسرعة والتكلفة الحسابية. تتعمق هذه المقارنة في بنيتين قويتين ولكنهما متميزتان: YOLOX، وهو نموذج عالي الأداء يعتمد على الشبكات العصبونية الالتفافية (CNN) ويشتهر بسرعته وكفاءته، و RTDETRv2، وهو نموذج يعتمد على المحولات ويتجاوز حدود الدقة. سيساعدك فهم الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية على تحديد أفضل نموذج لمشروع رؤية الحاسوب المحدد الخاص بك.

YOLOX: كشف عالي الأداء للأجسام بدون نقاط ارتكاز

ظهر YOLOX كتطور كبير في سلسلة YOLO، حيث قدم تصميمًا خاليًا من الارتكاز لتبسيط خط أنابيب الاكتشاف وتحسين الأداء. يهدف إلى سد الفجوة بين البحث الأكاديمي والتطبيقات الصناعية من خلال تقديم مجموعة من النماذج التي تتراوح من خفيفة الوزن إلى عالية الأداء.

تعرف على المزيد حول YOLOX

البنية والميزات الرئيسية

تكمن الابتكارات الأساسية في YOLOX في تصميمه الخالي من المرساة، والذي يلغي الحاجة إلى مربعات مرساة محددة مسبقًا، مما يقلل من تعقيد التصميم. تشمل الميزات المعمارية الرئيسية ما يلي:

  • Decoupled Head: على عكس نماذج YOLO التقليدية التي تقوم بالتصنيف والانحدار في رأس واحد، تستخدم YOLOX رأسًا منفصلًا. يحسن هذا الفصل سرعة التقارب والدقة.
  • تعيين تسمية SimOTA: تستخدم YOLOX استراتيجية متقدمة لتعيين التسميات تسمى SimOTA (تعيين النقل الأمثل المبسط). إنها تعامل تعيين التسميات على أنه مشكلة نقل مثالية، مما يؤدي إلى تعيينات أكثر دقة وقوة، خاصة في حالات الكائنات المتداخلة.
  • تقوية بيانات قوية: يستفيد النموذج من تقنيات تقوية بيانات قوية مثل MixUp و Mosaic لتحسين قدراته على التعميم.

نقاط القوة والضعف

نقاط القوة:

  • موازنة ممتازة بين السرعة والدقة: توفر نماذج YOLOX، وخاصة المتغيرات الأصغر، سرعات استدلال استثنائية، مما يجعلها مناسبة لتطبيقات الوقت الفعلي.
  • قابلية التوسع: توفر مجموعة من النماذج بدءًا من YOLOX-Nano للأجهزة الطرفية وصولاً إلى YOLOX-X لمهام الدقة العالية.
  • تصميم مبسط: يقلل النهج الخالي من المرساة عدد المعلمات الفائقة التي تحتاج إلى ضبط.

نقاط الضعف:

  • خاصية المهمة: تم تصميم YOLOX في الأساس لاكتشاف الأجسام ويفتقر إلى التنوع المدمج للمهام الأخرى مثل تقسيم الصور أو تقدير الوضعيات الموجودة في الأطر الأكثر حداثة.
  • النظام البيئي والصيانة: على الرغم من أنه مفتوح المصدر، إلا أنه لا يتمتع بنفس المستوى من التطوير المستمر أو الأدوات المتكاملة (مثل Ultralytics HUB) أو دعم المجتمع الشامل مثل نظام Ultralytics البيئي.

حالات الاستخدام المثالية

يتفوق YOLOX في السيناريوهات التي تكون فيها الأداء في الوقت الفعلي و الكفاءة أمرًا بالغ الأهمية، خاصةً على الأجهزة ذات القدرة الحسابية المحدودة.

  • Edge AI: نماذج YOLOX-Nano و YOLOX-Tiny خفيفة الوزن مثالية للنشر على منصات مثل Raspberry Pi أو NVIDIA Jetson.
  • الروبوتات: الإدراك السريع ضروري للملاحة والتعامل مع الأجسام في الروبوتات.
  • الفحص الصناعي: تستفيد الفحوصات البصرية الآلية على خطوط الإنتاج سريعة الحركة من الاكتشاف عالي السرعة لتحسين التصنيع.

RTDETRv2: كشف عالي الدقة في الوقت الفعلي Transformer

يمثل RTDETRv2 (Real-Time Detection Transformer version 2) تحولًا من التصميمات التي تركز على CNN إلى هياكل تعتمد على المحولات للكشف عن الأجسام. يهدف إلى تقديم الدقة العالية لـ Vision Transformers مع الحفاظ على السرعات في الوقت الفعلي.

تعرف على المزيد حول RTDETRv2

البنية والميزات الرئيسية

يستخدم RTDETRv2 بنية هجينة تجمع بين هيكل CNN لاستخراج الميزات بكفاءة مع وحدة ترميز وفك ترميز قائمة على المحولات لنمذجة العلاقات العالمية داخل الصورة.

  • وحدة فك الترميز القائمة على المحوّل: جوهر RTDETRv2 هو وحدة فك ترميز المحوّل الخاصة به، والتي تستخدم آليات الانتباه الذاتي لفهم السياق العام للصورة، مما يسمح لها بالتفوق في اكتشاف الكائنات في المشاهد المعقدة والمزدحمة.
  • بدون مرساة مع الكشف المستند إلى الاستعلام: مثل نماذج DETR الأخرى، فإنه يستخدم مجموعة من استعلامات الكائنات القابلة للتعلم للبحث عن الكائنات، وتجنب تعقيدات مربعات الإرساء والتثبيط غير الأقصى (NMS) في بعض التكوينات.

نقاط القوة والضعف

نقاط القوة:

  • دقة هي الأحدث على مستوى التقنية: تُمكّن بنية المحولات RTDETRv2 من تحقيق نتائج mAP عالية جدًا، وغالبًا ما تتفوق على نظيراتها القائمة على CNN من حيث الدقة.
  • المتانة في المشاهد المعقدة: إن قدرته على التقاط السياق العام تجعله فعالاً للغاية للصور التي تحتوي على العديد من الكائنات المتداخلة أو الصغيرة.

نقاط الضعف:

  • تكلفة حسابية عالية: نماذج المحولات مكلفة حسابيًا، وتتطلب المزيد من العمليات الحسابية (FLOPs) وذاكرة GPU أكبر بكثير للتدريب مقارنةً بشبكات CNN الفعالة مثل Ultralytics YOLOv8.
  • استدلال أبطأ على وحدة المعالجة المركزية (CPU): على الرغم من أنه مُحسَّن للاستدلال على وحدة معالجة الرسومات (GPU)، إلا أن سرعته يمكن أن تكون عنق الزجاجة على وحدة المعالجة المركزية (CPU) أو الأجهزة الطرفية ذات الموارد المحدودة مقارنة بنماذج مثل YOLOX أو Ultralytics YOLO11.
  • تعقيد التدريب: يمكن أن يكون تدريب النماذج القائمة على المحولات أكثر تعقيدًا واستهلاكًا للوقت، وغالبًا ما يتطلب جداول تدريب أطول وموارد أكثر.

حالات الاستخدام المثالية

يُعد RTDETRv2 هو الخيار المفضل للتطبيقات التي تكون فيها أقصى دقة غير قابلة للتفاوض وتتوفر موارد حسابية كافية.

  • المركبات ذاتية القيادة: ضروري للإدراك الموثوق في السيارات ذاتية القيادة حيث يمكن أن تكون الدقة مسألة سلامة.
  • التصوير الطبي: يعتبر الكشف الدقيق عن الحالات الشاذة في الفحوصات الطبية تطبيقًا مثاليًا.
  • تحليل صور الأقمار الصناعية: تحليل مفصل لصور الأقمار الصناعية عالية الدقة لتطبيقات مثل المراقبة البيئية أو التخطيط الحضري.

مواجهة الأداء: السرعة مقابل الدقة

يقدم الجدول التالي مقارنة مباشرة بين نماذج YOLOX و RTDETRv2 المختلفة، مع تسليط الضوء على المفاضلات بين الدقة (mAP) والسرعة وحجم النموذج. تُظهر نماذج YOLOX عمومًا استدلالًا أسرع، خاصةً عند تحسينها باستخدام TensorRT، بينما تحقق نماذج RTDETRv2 درجات mAP أعلى.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

الخلاصة: أي نموذج يجب أن تختاره؟

يعتبر كل من YOLOX و RTDETRv2 من أجهزة الكشف عن الأجسام القوية، لكنهما يخدمان احتياجات مختلفة. يعتبر YOLOX هو الخيار الأمثل للتطبيقات التي تتطلب سرعة وكفاءة عاليتين، مما يجعله مثاليًا للأنظمة في الوقت الفعلي وعمليات النشر الطرفية. في المقابل، يعتبر RTDETRv2 هو الخيار الأفضل عندما يكون الهدف الأساسي هو تحقيق أعلى دقة ممكنة، بشرط توفر موارد حسابية كافية.

لماذا تختار نماذج Ultralytics YOLO؟

في حين أن YOLOX و RTDETRv2 يقدمان قدرات قوية، فإن نماذج Ultralytics YOLO مثل YOLOv8 وأحدث YOLO11 غالبًا ما توفر حزمة شاملة أكثر إقناعًا للمطورين والباحثين.

  • سهولة الاستخدام: تقدم Ultralytics واجهة Python API مبسطة، و توثيق شامل، والعديد من الأدلة التي تبسط دورة التطوير بأكملها.
  • نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، ومجتمع قوي، والتحديثات المتكررة، والتكامل السلس مع Ultralytics HUB لـ MLOps الشاملة.
  • موازنة الأداء: تم تصميم نماذج Ultralytics لتحقيق توازن ممتاز بين السرعة والدقة، مما يجعلها مناسبة للغاية لمجموعة واسعة من السيناريوهات الواقعية.
  • كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتكون فعالة من حيث الذاكرة أثناء كل من التدريب والاستدلال. تتطلب عادةً ذاكرة CUDA أقل من النماذج القائمة على المحولات مثل RTDETRv2، والتي تُعرف بمتطلباتها العالية من الموارد.
  • تنوع الاستخدامات: تدعم نماذج Ultralytics مهامًا متعددة خارج الصندوق، بما في ذلك التجزئة، و تقدير الوضعية، و التصنيف، و التتبع، وكل ذلك ضمن إطار عمل واحد وموحد.
  • كفاءة التدريب: استمتع بأوقات تدريب أسرع واستخدام فعال للموارد مع أوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات بيانات مثل COCO.

استكشف مقارنات أخرى

لمزيد من المعلومات لمساعدتك في اتخاذ قرارك، ضع في اعتبارك استكشاف مقارنات النماذج الأخرى:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات