RTDETRv2 مقابل YOLOX: مقارنة تقنية للكشف عن الأجسام في الوقت الحقيقي
في المشهد سريع التطور في مجال الرؤية الحاسوبية، يستمر البحث عن التوازن الأمثل بين السرعة والدقة في دفع عجلة الابتكار. وقد برزت مقاربتان متميزتان كطريقتين متميزتين في المقدمة: RTDETRv2 القائم على المحول و YOLOX القائم على شبكة CNN الخالية من الارتكاز. تستكشف هذه المقارنة الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدة المطورين على اختيار الأداة المناسبة لاحتياجاتهم الخاصة.
نظرة عامة على الطرازات
قبل الغوص في التفاصيل التقنية، دعونا نحدد الأصول والفلسفات الأساسية لهذين النموذجين المؤثرين.
RTDETRv2
يمثل الإصدار 2 من RTDETRv2 (الإصدار 2 من محول الكشف في الوقت الحقيقي) خطوة مهمة إلى الأمام في جلب بنيات المحولات إلى تطبيقات الوقت الحقيقي. تم تطويره من قبل باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي من خلال تقديم "حقيبة من المجانية" التي تعزز استقرار التدريب والأداء دون زيادة زمن انتقال الاستدلال. ويهدف إلى حل مشكلة التكلفة الحسابية العالية المرتبطة عادةً بمحوّلات الرؤية (ViTs) مع التفوق على أجهزة الكشف التقليدية لشبكة CNN في الدقة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2023-04-17 (الأصل RT-DETR)، تليها تحديثات الإصدار 2.
- اركسيف:RT-DETRv2: خط الأساس المحسّن مع حقيبة المجانية
- جيثب:مستودعRT-DETRv2
YOLOX
أعادت YOLOX تنشيط عائلة YOLO في عام 2021 من خلال التحول إلى آلية خالية من المرساة ودمج تقنيات متقدمة مثل الرؤوس المنفصلة وتعيين ملصق SimOTA. في حين أنه يحتفظ بخاصية العمود الفقري على غرار الشبكة المظلمة التي تميزت بها سلسلة YOLO إلا أن التحولات المعمارية التي أجراها عالجت العديد من القيود التي كانت تعاني منها أجهزة الكشف القائمة على المرساة، مما أدى إلى نموذج عالي الكفاءة والمرونة يعمل بشكل جيد للغاية على الأجهزة المتطورة.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمةميجفي
- التاريخ: 2021-07-18
- آركسيفYOLOX: تجاوز سلسلة YOLO في عام 2021
- جيثب:مستودع YOLOX
تحليل الأداء
تختلف مفاضلات الأداء بين RTDETRv2 و YOLOX. يعطي RTDETRv2 الأولوية للدقة القصوىmAP)، مستفيدًا من آليات الانتباه العالمي للمحوّلات لفهم المشاهد المعقدة والأجسام المحجوبة بشكل أفضل. ومع ذلك، يأتي ذلك مع متطلبات حسابية أعلى، خاصةً فيما يتعلق باستخدام ذاكرة GPU .
وعلى العكس من ذلك، تم تحسين YOLOX من أجل السرعة والكفاءة. يبسّط تصميمه الخالي من المثبتات رأس الكشف، مما يقلل من عدد معلمات التصميم ويسرّع المعالجة اللاحقةNMS. غالبًا ما يُفضل استخدام طرازات YOLOX، ولا سيما متغيرات Nano وTiny، في عمليات نشر الذكاء الاصطناعي المتطورة حيث تكون موارد الأجهزة مقيدة.
يسلط الجدول أدناه الضوء على هذه الاختلافات. لاحظ أنه في حين أن RTDETRv2 يحقق درجات أعلى mAP فإن YOLOX-s يوفر سرعات استنتاج أسرع على TensorRT مما يوضح ملاءمته للتطبيقات الحساسة لوقت الاستجابة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
التعمق في الهندسة المعمارية
يساعد فهم الاختلافات الهيكلية في توضيح سبب أداء هذه النماذج بشكل مختلف.
RTDETRv2: جهاز فك التشفير-التشفير الهجين
يعالج RTDETRv2 الاختناقات الحسابية لنماذج DETR القياسية من خلال تقديم مُشفّر هجين فعال. يعالج هذا المكون الميزات متعددة النطاقات، ويفصل بين التفاعل داخل النطاق (داخل طبقة الميزات نفسها) والدمج بين النطاقات (عبر الطبقات).
- اختيار استعلامIoU: بدلاً من تحديد استعلامات الكائنات الثابتة، يختار RTDETRv2 عددًا ثابتًا من ميزات الصور لتكون بمثابة استعلامات كائنات أولية بناءً على درجات تصنيفها، مما يحسن التهيئة.
- وحدة فك ترميز مرنة: تدعم وحدة فك التشفير التعديل الديناميكي لأرقام الاستعلام أثناء الاستدلال، مما يسمح للمستخدمين بمقايضة السرعة والدقة دون إعادة التدريب.
YOLOX: خالية من المرساة ومفصولة
تبتعد YOLOX عن النموذج القائم على الارتكاز المستخدم في YOLOv4 و YOLOv5.
- خالي من المرساة: من خلال التنبؤ بمراكز الكائنات وأحجامها مباشرة، يلغي YOLOX الحاجة إلى تصميم صندوق الارتساء يدويًا، مما يقلل من تعقيد ضبط المعلمة الفائقة.
- الرأس المنفصل: يفصل بين مهام التصنيف والانحدار في فروع مختلفة من رأس الشبكة. يؤدي هذا الفصل غالبًا إلى تقارب أسرع ودقة أفضل.
- SimOTA: استراتيجية متقدمة لتعيين التسميات تنظر إلى عملية التعيين على أنها مشكلة نقل مثالية، وتعيين العينات الإيجابية ديناميكيًا إلى الحقائق الأرضية بناءً على تكلفة التحسين العالمي.
المرساة المستندة إلى مرساة مقابل الخالية من المرساة
تستخدم أجهزة الكشف التقليدية مربعات محددة مسبقًا (مثبتات) لتقدير مواقع الأجسام. يزيل YOLOX هذه التبعية، مما يبسّط البنية ويجعل النموذج أكثر قوة في التعامل مع أشكال الأجسام المتنوعة. يستخدم RTDETRv2، كونه محوّل، استعلامات الكائنات بدلاً من المراسي بالكامل، ويتعلم الاهتمام بمناطق الصورة ذات الصلة ديناميكيًا.
نقاط القوة والضعف
RTDETRv2
- نقاط القوة:
- دقة عالية: يحقق أعلى مستوى mAP الدقة في معايير COCO .
- السياق العالمي: تلتقط آليات انتباه المحولات التبعيات بعيدة المدى بفعالية.
- قابلية التكيف: يتيح اختيار الاستعلام القابل للتعديل المرونة في وقت الاستدلال.
- نقاط الضعف:
- كثيفة الموارد: تتطلب ذاكرة كبيرة GPU للتدريب والاستدلال مقارنةً بوحدات CNN.
- تدريب أبطأ: تستغرق المحولات عمومًا وقتًا أطول للتقارب من البنى القائمة على شبكة CNN.
YOLOX
- نقاط القوة:
- سرعة الاستدلال: سريعة للغاية، خاصةً المتغيرات الأصغر حجماً (نانو، تايني، إس).
- سهولة النشر: أسهل في النشر على أجهزة الحافة و CPUS نظرًا لانخفاض عدد وحدات FLOP وعدد المعلمات.
- البساطة: يقلل التصميم الخالي من المراسي من التعقيدات الهندسية.
- نقاط الضعف:
- دقة ذروة أقل: تكافح لتضاهي دقة المحولات الكبيرة مثل RTDETRv2-x.
- تطور الميزات: يفتقر إلى بعض القدرات متعددة الوسائط الموجودة في الأطر الأحدث.
ميزة Ultralytics: لماذا تختار YOLO11؟
على الرغم من أن RTDETRv2 و YOLOX من النماذج الهائلة، فإن Ultralytics YOLO التي يقودها النظام الإيكولوجي المتطور YOLO11-يوفر حلاً شاملاً يفوق في كثير من الأحيان فوائد النماذج الفردية.
- توازن الأداء: تم تصميم YOLO11 لتوفير المفاضلة المثلى بين السرعة والدقة. فهو غالبًا ما يضاهي أو يتجاوز دقة النماذج القائمة على المحولات مع الحفاظ على خاصية سرعة الاستدلال التي تتميز بها عائلة YOLO .
- سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطورين. من خلال واجهة برمجة تطبيقاتPython API و CLI الموحدة، يمكنك تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر من التعليمات البرمجية.
- كفاءة الذاكرة: على عكس RTDETRv2، الذي يمكن أن يكون ثقيلًا على ذاكرة التخزين الافتراضية GPU VRAM)، فإن YOLO11 يتميز بكفاءة عالية في الذاكرة أثناء التدريب والاستدلال. وهذا يجعلها متاحة للباحثين والمطورين الذين لديهم أجهزة من فئة المستهلكين.
- نظام بيئي جيد الصيانة: نماذج Ultralytics مدعومة بتحديثات متكررة، ومجتمع نابض بالحياة، ووثائق شاملة. ميزات مثل Ultralytics HUB تسهّل إدارة النماذج بسلاسة والتدريب السحابي.
- تعدد الاستخدامات: بالإضافة إلى الاكتشاف البسيط للأجسام، يدعم YOLO11 في الأصل تجزئة النماذج وتقدير الوضعية وOBB والتصنيف، بينما يركز YOLOX وRTDETRv2 بشكل أساسي على الاكتشاف.
- كفاءة التدريب: بفضل الأوزان المدربة مسبقاً والمتاحة لمختلف المهام وقدرات التعلُّم التحويلية المتطورة، يقلل YOLO11 بشكل كبير من الوقت والطاقة اللازمين لتدريب النماذج عالية الأداء.
مثال على الكود
يجعل Ultralytics من السهل للغاية استخدام هذه النماذج المتقدمة. فيما يلي مثال على كيفية تشغيل الاستدلال باستخدام YOLO11 والجدير بالذكر أن Ultralytics يدعم أيضًا RT-DETR مباشرة، مما يبسط استخدامه بشكل كبير مقارنةً بالمستودع الأصلي.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLO11 model (Recommended)
model_yolo = YOLO("yolo11n.pt")
# Run inference on an image
results_yolo = model_yolo("path/to/image.jpg")
# Load an RT-DETR model via Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference with RT-DETR
results_rtdetr = model_rtdetr("path/to/image.jpg")
الخلاصة
يعتمد الاختيار بين RTDETRv2 و YOLOX في النهاية على القيود الخاصة بك.
- اختر RTDETRv2 إذا كان تطبيقك يتطلب أعلى دقة مطلقة، كما هو الحال في البحث الأكاديمي أو الفحص الصناعي عالي الدقة، ولديك إمكانية الوصول إلى موارد GPU قوية.
- اختر YOLOX إذا كنت تقوم بالنشر في بيئات محدودة الموارد مثل Raspberry Pi أو الأجهزة المحمولة حيث يكون كل جزء من الثانية من زمن الاستجابة مهمًا.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية, Ultralytics YOLO11 هو الخيار الأفضل من جميع النواحي. فهو يجمع بين مزايا الدقة في البنى الحديثة وسرعة وكفاءة شبكات CNN، وكل ذلك في نظام بيئي سهل الاستخدام وجاهز للإنتاج. سواءً كنت تقوم بالبناء للحافة أو السحابة، يوفر YOLO11 الأدوات والأداء لتحقيق النجاح.
استكشف مقارنات أخرى
لمزيد من المعلومات لمساعدتك في اتخاذ قرارك، ضع في اعتبارك استكشاف مقارنات النماذج الأخرى: