RTDETRv2 ضد YOLOX: مقارنة فنية للكشف عن الأجسام في الوقت الفعلي
في المشهد المتطور بسرعة لـ رؤية الحاسوب، يستمر السعي لتحقيق التوازن الأمثل بين السرعة والدقة في دفع الابتكار. ظهر نهجان متميزان كمرشحين متصدرين: RTDETRv2 القائم على المحولات و YOLOX القائم على CNN الخالي من المرساة. تستكشف هذه المقارنة الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدة المطورين على اختيار الأداة المناسبة لاحتياجاتهم الخاصة.
نظرات عامة على النموذج
قبل الخوض في التفاصيل الفنية، دعونا نحدد أصول وفلسفات هذين النموذجين المؤثرين.
RTDETRv2
RTDETRv2 (Real-Time DEtection TRansformer version 2) يمثل خطوة كبيرة إلى الأمام في جلب Architectures Transformer إلى تطبيقات الوقت الفعلي. تم تطويره بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي من خلال تقديم "Bag-of-Freebies" الذي يعزز استقرار التدريب والأداء دون زيادة زمن انتقال الاستدلال. ويهدف إلى حل التكلفة الحسابية العالية المرتبطة عادةً بـ محولات الرؤية (ViTs) مع التفوق على كاشفات CNN التقليدية في الدقة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2023-04-17 (أصلي RT-DETR)، تبعتها تحديثات v2.
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:RT-DETRv2 Repository
YOLOX
YOLOX أعادت تنشيط عائلة YOLO في عام 2021 عن طريق التحول إلى آلية خالية من الارتكاز ودمج التقنيات المتقدمة مثل الرؤوس المنفصلة وتعيين تسميات SimOTA. في حين أنها تحتفظ بالعمود الفقري بنمط Darknet المميز لسلسلة YOLO، إلا أن تحولاتها المعمارية عالجت العديد من القيود المفروضة على أجهزة الكشف القائمة على الارتكاز، مما أدى إلى نموذج عالي الكفاءة ومرن يعمل بشكل جيد للغاية على الأجهزة الطرفية.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 2021-07-18
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:YOLOX Repository
تحليل الأداء
تعتبر المفاضلات في الأداء بين RTDETRv2 و YOLOX متميزة. يعطي RTDETRv2 الأولوية لذروة الدقة (mAP)، والاستفادة من آليات الانتباه العالمية للمحولات لفهم المشاهد المعقدة والأشياء المحجوبة بشكل أفضل. ومع ذلك، فإن هذا يأتي مع متطلبات حسابية أعلى، لا سيما فيما يتعلق باستخدام ذاكرة وحدة معالجة الرسومات GPU.
على العكس من ذلك، تم تحسين YOLOX من أجل السرعة والكفاءة. يعمل تصميمه الخالي من المرساة على تبسيط رأس الاكتشاف، وتقليل عدد معلمات التصميم وتسريع المعالجة اللاحقة (NMS). غالبًا ما تُفضل نماذج YOLOX، وخاصة المتغيرات Nano و Tiny، لعمليات نشر الذكاء الاصطناعي الطرفية حيث تكون موارد الأجهزة محدودة.
يسلط الجدول أدناه الضوء على هذه الاختلافات. لاحظ أنه في حين أن RTDETRv2 يحقق درجات mAP أعلى، فإن YOLOX-s يوفر سرعات استدلال أسرع على TensorRT، مما يوضح ملاءمته للتطبيقات الحساسة لوقت الاستجابة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
نظرة معمقة على الهيكلة
يساعد فهم الاختلافات الهيكلية في توضيح سبب اختلاف أداء هذه النماذج.
RTDETRv2: المشفر-المفكك الهجين
يعالج RTDETRv2 الاختناقات الحسابية لنماذج DETR القياسية من خلال تقديم وحدة ترميز هجينة فعالة. يعالج هذا المكون ميزات متعددة المقاييس، ويفصل التفاعل داخل المقياس (داخل طبقة الميزات نفسها) ودمج المقاييس (عبر الطبقات).
- تحديد الاستعلام المدرك لـ IoU: بدلاً من تحديد استعلامات كائن ثابتة، يحدد RTDETRv2 عددًا ثابتًا من ميزات الصورة ليكون بمثابة استعلامات الكائن الأولية بناءً على درجات تصنيفها، مما يحسن التهيئة.
- وحدة فك ترميز مرنة: تدعم وحدة فك الترميز الضبط الديناميكي لأرقام الاستعلام أثناء الاستدلال، مما يسمح للمستخدمين بالمفاضلة بين السرعة والدقة دون إعادة التدريب.
YOLOX: خالٍ من المرساة ومنفصل
تتحرك YOLOX بعيدًا عن النموذج القائم على المرساة المستخدم في YOLOv4 و YOLOv5.
- خالٍ من المرتكزات (Anchor-Free): من خلال التنبؤ بمراكز وأحجام الكائنات مباشرةً، يلغي YOLOX الحاجة إلى التصميم اليدوي لمربعات الارتكاز، مما يقلل من تعقيد ضبط المعلمات الفائقة.
- رأس غير مقترن: يفصل مهام التصنيف والانحدار إلى فروع مختلفة في رأس الشبكة. غالبًا ما يؤدي هذا الفصل إلى تقارب أسرع ودقة أفضل.
- SimOTA: استراتيجية متقدمة لتعيين التسميات ترى عملية التعيين كمشكلة نقل مثالية، وتقوم بتعيين عينات إيجابية ديناميكيًا للحقائق الأرضية بناءً على تكلفة التحسين الشامل.
المرساة المستندة إلى مرساة مقابل الخالية من المرساة
تستخدم الكاشفات التقليدية مربعات محددة مسبقًا (مرتكزات) لتقدير مواقع الكائنات. يزيل YOLOX هذا الاعتماد، مما يبسط البنية ويجعل النموذج أكثر قوة لأشكال الكائنات المتنوعة. RTDETRv2، كونه محولًا، يستخدم استعلامات الكائنات بدلًا من المرتكزات تمامًا، ويتعلم كيفية الانتباه إلى مناطق الصورة ذات الصلة ديناميكيًا.
نقاط القوة والضعف
RTDETRv2
- نقاط القوة:
- دقة عالية: تحقق أحدث mAP على معايير COCO.
- السياق العام: تلتقط آليات الانتباه الخاصة بالمحول (transformer) التبعيات طويلة المدى بشكل فعال.
- القدرة على التكيف: يتيح تحديد الاستعلام القابل للتعديل المرونة في وقت الاستدلال.
- نقاط الضعف:
- تستهلك الكثير من الموارد: تتطلب ذاكرة GPU كبيرة للتدريب والاستدلال مقارنةً بالشبكات العصبية التلافيفية.
- تدريب أبطأ: تستغرق المحولات بشكل عام وقتًا أطول للتقارب من البنى القائمة على الشبكات العصبية التلافيفية (CNN).
YOLOX
- نقاط القوة:
- سرعة الاستدلال: سريع للغاية، خاصةً المتغيرات الأصغر (Nano، Tiny، S).
- سهولة النشر: سهولة النشر على الأجهزة الطرفية ووحدات المعالجة المركزية بسبب انخفاض FLOPs وعدد المعلمات.
- البساطة: يقلل التصميم الخالي من المرساة من التعقيد الهندسي.
- نقاط الضعف:
- أقل دقة قصوى: يكافح لمطابقة الدقة عالية المستوى لنماذج المحولات الكبيرة مثل RTDETRv2-x.
- تطور الميزات: يفتقر إلى بعض الإمكانات متعددة الوسائط الموجودة في الأطر الأحدث.
ميزة Ultralytics: لماذا تختار YOLO11؟
في حين أن RTDETRv2 و YOLOX هما نموذجان قويان، فإن النظام البيئي Ultralytics YOLO - الذي تقوده أحدث التقنيات YOLO11 - يقدم حلاً شاملاً يفوق غالبًا فوائد النماذج الفردية.
- موازنة الأداء: تم تصميم YOLO11 لتوفير موازنة مثالية بين السرعة والدقة. غالبًا ما يضاهي أو يتجاوز دقة النماذج القائمة على المحولات مع الحفاظ على سرعة الاستدلال التي تميز عائلة YOLO.
- سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطور. باستخدام Python API و CLI موحدين، يمكنك تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من التعليمات البرمجية.
- كفاءة الذاكرة: على عكس RTDETRv2، الذي يمكن أن يكون ثقيلًا على GPU VRAM، فإن YOLO11 يتميز بكفاءة عالية في استخدام الذاكرة أثناء كل من التدريب والاستدلال. وهذا يجعله في متناول الباحثين والمطورين الذين لديهم أجهزة استهلاكية.
- نظام بيئي مُدار بشكل جيد: يتم دعم نماذج Ultralytics من خلال التحديثات المتكررة والمجتمع النابض بالحياة والوثائق الشاملة. تسهل ميزات مثل Ultralytics HUB إدارة النماذج والتدريب السحابي بسلاسة.
- Versatility: بالإضافة إلى object detection البسيط، يدعم YOLO11 أصلاً كلاً من instance segmentation و pose estimation و OBB والـ classification، في حين أن YOLOX و RTDETRv2 يركزان بشكل أساسي على الـ detect.
- كفاءة التدريب: مع توفر الأوزان المدربة مسبقًا لمهام مختلفة وقدرات التعلم بالنقل المتطورة، يقلل YOLO11 بشكل كبير من الوقت والطاقة اللازمين لتدريب النماذج عالية الأداء.
مثال على التعليمات البرمجية
تجعل Ultralytics من السهل للغاية استخدام هذه النماذج المتقدمة. يوجد أدناه مثال لكيفية تشغيل الاستدلال باستخدام YOLO11، والجدير بالذكر أن Ultralytics تدعم أيضًا RT-DETR مباشرةً، مما يبسط استخدامه بشكل كبير مقارنةً بالمستودع الأصلي.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLO11 model (Recommended)
model_yolo = YOLO("yolo11n.pt")
# Run inference on an image
results_yolo = model_yolo("path/to/image.jpg")
# Load an RT-DETR model via Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference with RT-DETR
results_rtdetr = model_rtdetr("path/to/image.jpg")
الخلاصة
يعتمد الاختيار بين RTDETRv2 و YOLOX في النهاية على قيودك المحددة.
- اختر RTDETRv2 إذا كان تطبيقك يتطلب أعلى دقة مطلقة، كما هو الحال في البحث الأكاديمي أو الفحص الصناعي عالي الدقة، ولديك حق الوصول إلى موارد وحدة معالجة الرسوميات (GPU) قوية.
- اختر YOLOX إذا كنت تقوم بالنشر في بيئات محدودة الموارد مثل Raspberry Pi أو الأجهزة المحمولة حيث يتم احتساب كل جزء من الثانية من زمن الوصول.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية، يظهر Ultralytics YOLO11 باعتباره الخيار الأفضل والأكثر شمولاً. فهو يجمع بين مزايا الدقة للهندسة المعمارية الحديثة مع سرعة وكفاءة CNNs، وكل ذلك مغلف بنظام بيئي سهل الاستخدام وجاهز للإنتاج. سواء كنت تقوم بالبناء للحافة أو السحابة، فإن YOLO11 يوفر الأدوات والأداء اللازمين للنجاح.
استكشف مقارنات أخرى
لمزيد من المعلومات لمساعدتك في اتخاذ قرارك، ضع في اعتبارك استكشاف مقارنات النماذج الأخرى: