تخطي إلى المحتوى

YOLOX ضد RTDETRv2: مقارنة فنية للكشف عن الكائنات

في المشهد المتطور بسرعة لرؤية الحاسوب، غالبًا ما يتضمن اختيار البنية الصحيحة لمشروعك التنقل في مفاضلة معقدة بين سرعة الاستدلال والدقة وكفاءة موارد الحوسبة. تستكشف هذه المقارنة نهجين متميزين لـ اكتشاف الكائنات: YOLOX، وهي شبكة CNN عالية الأداء خالية من المرساة، و RTDETRv2، وهي محول اكتشاف في الوقت الفعلي متطور.

في حين أن YOLOX يمثل تحولًا كبيرًا نحو منهجيات anchor الحرة في عائلة YOLO، فإن RTDETRv2 يستفيد من قوة محولات الرؤية (ViTs) لالتقاط السياق العالمي، مما يتحدى الشبكات العصبية التلافيفية التقليدية (CNNs). يحلل هذا الدليل بنياتها ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك على اتخاذ قرار مستنير.

تحليل الأداء: السرعة مقابل الدقة

توضح مقاييس الأداء أدناه فلسفات التصميم الأساسية لهذين النموذجين. يحقق RTDETRv2 بشكل عام متوسط دقة أعلى (mAP) باستخدام آليات الانتباه لفهم المشاهد المعقدة. ومع ذلك، غالبًا ما تأتي هذه الدقة مصحوبة بزيادة في التكلفة الحسابية. يعطي YOLOX، وخاصة في متغيراته الأصغر، الأولوية لـ زمن انتقال الاستدلال المنخفض والتنفيذ الفعال على الأجهزة القياسية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

كما هو موضح في الجدول، يحقق RTDETRv2-x أعلى دقة مع mAP بقيمة 54.3، متفوقًا على أكبر متغيرات YOLOX. وعلى العكس من ذلك، يُظهر YOLOX-s سرعة فائقة على أجهزة GPU، مما يجعله فعالاً للغاية للتطبيقات الحساسة لوقت الاستجابة.

YOLOX: كفاءة خالية من المرساة

تعمل YOLOX على تحسين سلسلة YOLO عن طريق التحول إلى آلية خالية من المرساة وفصل رأس الاكتشاف. من خلال إزالة الحاجة إلى مربعات الربط محددة مسبقًا، تبسط YOLOX عملية التدريب وتحسن التعميم عبر أشكال الكائنات المختلفة.

المؤلفون: تشنغ قه، سونغ تاو ليو، فنغ وانغ، تسه مينغ لي، و جيان صن
المنظمة:Megvii
التاريخ: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021

نقاط القوة الرئيسية

  • تصميم خالٍ من المرتكزات (Anchor-Free Design): يلغي الضبط اليدوي للمعلمات الفائقة للمرتكزات، مما يقلل من تعقيد التصميم.
  • رأس غير مقترن: يفصل مهام التصنيف والانحدار، مما يساعد النموذج على التقارب بشكل أسرع وتحقيق دقة أفضل.
  • SimOTA: استراتيجية متقدمة لتعيين التسميات تقوم بتعيين عينات إيجابية ديناميكيًا، مما يحسن استقرار التدريب.

نقاط الضعف

  • هندسة معمارية قديمة: تم إصداره في عام 2021، ويفتقر إلى بعض التحسينات الحديثة الموجودة في التكرارات الأحدث مثل YOLO11.
  • دعم محدود للمهام: يركز بشكل أساسي على الاكتشاف (detection)، ويفتقر إلى الدعم الأصلي للتقسيم أو تقدير الوضع داخل نفس الإطار.

تعرف على المزيد حول YOLOX

RTDETRv2: قوة المحولات

يمثل RTDETRv2 (Real-Time Detection Transformer version 2) قفزة في تطبيق هياكل Transformer على اكتشاف الكائنات في الوقت الفعلي. يعالج التكلفة الحسابية العالية المرتبطة عادةً بـ Transformers من خلال تقديم وحدة ترميز هجينة فعالة.

المؤلفون: ويني يو ليو، ييان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة:بايدو
التاريخ: 2023-04-17 (v1)، 2024-07 (v2)
Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies

نقاط القوة الرئيسية

  • السياق العام: تتيح آلية الانتباه الذاتي للنموذج فهم العلاقات بين الكائنات البعيدة في الصورة، مما يقلل من النتائج الإيجابية الخاطئة في المشاهد المعقدة.
  • دقة عالية: تحقق باستمرار درجات mAP أعلى مقارنة بالنماذج القائمة على CNN ذات المقياس المماثل.
  • لا يلزم NMS: تعمل بنية المحولات بشكل طبيعي على التخلص من الاكتشافات المكررة، مما يزيل الحاجة إلى معالجة لاحقة للتثبيط غير الأقصى (NMS).

نقاط الضعف

  • كثافة الذاكرة: يتطلب المزيد من GPU VRAM بشكل ملحوظ أثناء التدريب مقارنةً بـ CNNs، مما يجعل التدريب على الأجهزة الاستهلاكية أكثر صعوبة.
  • زمن الوصول لوحدة المعالجة المركزية (CPU Latency): في حين تم تحسينها لوحدة معالجة الرسومات (GPU)، يمكن أن تكون عمليات Transformer أبطأ على الأجهزة الطرفية التي تعمل بوحدة المعالجة المركزية (CPU) فقط مقارنةً بشبكات CNN خفيفة الوزن مثل YOLOX-Nano.

تعرف على المزيد حول RTDETRv2

حالات الاستخدام المثالية

غالبًا ما يعتمد الاختيار بين هذه النماذج على القيود المحددة لبيئة النشر.

  • اختر YOLOX إذا: كنت تقوم بالنشر على الأجهزة الطرفية ذات الموارد المحدودة مثل Raspberry Pi أو الهواتف المحمولة حيث يكون لكل مللي ثانية من زمن الوصول أهمية. كما أنه ممتاز لخطوط الفحص الصناعية حيث تكون الأجسام صلبة ويمكن التنبؤ بها.
  • اختر RTDETRv2 إذا: كان لديك حق الوصول إلى وحدات معالجة الرسومات القوية (مثل NVIDIA T4 أو A100) وكانت الدقة ذات أهمية قصوى. إنه يتفوق في المشاهد المزدحمة أو القيادة الذاتية أو المراقبة الجوية حيث يكون السياق وعلاقات الكائنات أمرًا بالغ الأهمية.

تحسين النشر

بغض النظر عن النموذج المختار، فإن استخدام أطر التحسين مثل TensorRT أو OpenVINO ضروري لتحقيق سرعات في الوقت الفعلي في بيئات الإنتاج. يستفيد كلا النموذجين بشكل كبير من التكميم إلى FP16 أو INT8.

لماذا نماذج Ultralytics YOLO هي الخيار الأفضل

في حين أن YOLOX و RTDETRv2 مثيران للإعجاب، فإن النظام البيئي Ultralytics YOLO، بقيادة YOLO11، يقدم حلاً أكثر شمولية للمطورين والباحثين. تعطي Ultralytics الأولوية لتجربة المستخدم، مما يضمن أن الذكاء الاصطناعي المتطور متاح وفعال ومتعدد الاستخدامات.

1. تنوع ونظام بيئي لا مثيل لهما

على عكس YOLOX، وهو في الأساس نموذج اكتشاف detect، يدعم Ultralytics YOLO11 أصلاً مجموعة واسعة من مهام رؤية الكمبيوتر بما في ذلك تقسيم المثيلات، وتقدير الوضعية، والتصنيف، واكتشاف الصندوق المحيط الموجه (OBB). يتيح لك ذلك حل مشكلات متعددة باستخدام واجهة برمجة تطبيقات (API) موحدة واحدة.

2. سهولة الاستخدام والصيانة

تبسط حزمة Ultralytics عالم MLOps المعقد. بفضل قاعدة التعليمات البرمجية التي تتم صيانتها جيدًا والتحديثات المتكررة و الوثائق الشاملة، يمكن للمستخدمين الانتقال من التثبيت إلى التدريب في دقائق.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
train_results = model.train(
    data="coco8.yaml",  # path to dataset YAML
    epochs=100,  # number of training epochs
    imgsz=640,  # training image size
    device="cpu",  # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)

# Evaluate model performance on the validation set
metrics = model.val()

3. كفاءة التدريب وحجم الذاكرة

تتمثل إحدى المزايا الحاسمة لنماذج Ultralytics YOLO في كفاءتها. من المعروف أن النماذج المستندة إلى المحولات مثل RTDETRv2 تستهلك البيانات بشكل كبير وتستهلك الذاكرة بشكل مكثف، وغالبًا ما تتطلب وحدات معالجة رسومات متطورة مع ذاكرة VRAM ضخمة للتدريب. في المقابل، تم تحسين نماذج Ultralytics YOLO للتدريب بفعالية على نطاق أوسع من الأجهزة، بما في ذلك وحدات معالجة الرسومات الاستهلاكية، مع استخدام ذاكرة CUDA أقل. هذه كفاءة التدريب تضفي طابعًا ديمقراطيًا على الوصول إلى الذكاء الاصطناعي عالي الأداء.

4. موازنة الأداء

تم تصميم نماذج Ultralytics لتحقيق "النقطة المثالية" بين السرعة والدقة. بالنسبة لمعظم التطبيقات الواقعية - من تحليلات البيع بالتجزئة إلى مراقبة السلامة - يوفر YOLO11 دقة مماثلة للمحولات مع الحفاظ على سرعات الاستدلال فائقة السرعة المطلوبة لخلاصات الفيديو المباشرة.

الخلاصة

ساهم كل من YOLOX و RTDETRv2 بشكل كبير في مجال رؤية الكمبيوتر. يظل YOLOX خيارًا قويًا للأنظمة المدمجة القديمة المقيدة بشكل صارم، بينما يدفع RTDETRv2 حدود الدقة للأجهزة المتطورة.

ومع ذلك، بالنسبة لغالبية المطورين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام ومستقبلي، يبرز Ultralytics YOLO11 باعتباره الخيار الأول. إن جمعه بين متطلبات الذاكرة المنخفضة ودعم المهام الشامل والمجتمع المزدهر يضمن أن مشروعك مبني على أساس من الموثوقية والأداء.

استكشف مقارنات أخرى

لتحسين عملية اختيار النموذج الخاص بك، ضع في اعتبارك استكشاف هذه المقارنات التقنية ذات الصلة:


تعليقات