تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv5: مقارنة فنية تفصيلية

يُعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية لأي مشروع رؤية حاسوبية. تحدد المقايضات بين الدقة والسرعة والتكلفة الحسابية مدى ملاءمة النموذج لتطبيق معين. تقدم هذه الصفحة مقارنة فنية مفصلة بين RTDETRv2، وهو نموذج عالي الدقة قائم على المحولات، و Ultralytics YOLOv5، وهو معيار صناعي عالي الكفاءة ومعتمد على نطاق واسع. سوف نستكشف الاختلافات المعمارية ومعايير الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير.

RTDETRv2: كشف عالي الدقة في الوقت الفعلي Transformer

RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات حديث من Baidu يستفيد من قوة محولات الرؤية لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي. وهو يمثل خطوة مهمة في جلب بنيات المحولات المعقدة إلى التطبيقات العملية في الوقت الفعلي.

المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: Baidu
التاريخ: 2023-04-17 (RT-DETR الأولي)، 2024-07-24 (تحسينات RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069، https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

البنية

يستخدم RTDETRv2 هندسة معمارية هجينة تجمع بين نقاط القوة في الشبكات العصبية التلافيفية (CNN) والمحولات.

  • العمود الفقري: يتم استخدام شبكة CNN (مثل ResNet أو HGNetv2) لاستخراج الميزات الأولية، والتقاط ميزات الصورة منخفضة المستوى بكفاءة.
  • Encoder-Decoder: جوهر النموذج هو ترميز-فك ترميز قائم على Transformer. يستخدم آليات الانتباه الذاتي لمعالجة خرائط الميزات من الهيكل الأساسي، ممّا يسمح للنموذج بالتقاط السياق العام والتبعيات طويلة المدى بين الكائنات في المشهد. هذا فعال بشكل خاص للكشف عن الكائنات في البيئات المعقدة أو المزدحمة.

نقاط القوة

  • دقة عالية: تمكّن بنية Transformer نموذج RTDETRv2 من تحقيق نتائج ممتازة في mAP، وغالبًا ما يتفوق على النماذج التقليدية القائمة على CNN في مجموعات البيانات المعقدة مثل COCO.
  • استخلاص ميزات قوي: من خلال مراعاة سياق الصورة بأكمله، فإنه يعمل بشكل جيد في السيناريوهات الصعبة التي تحتوي على كائنات صغيرة أو مسدودة، مما يجعله مناسبًا لتطبيقات مثل القيادة الذاتية.
  • إمكانية التشغيل في الوقت الفعلي: تم تحسين النموذج لتقديم سرعات استدلال تنافسية، خاصةً عند تسريعه باستخدام أدوات مثل NVIDIA TensorRT.

نقاط الضعف

  • التكلفة الحسابية: تحتوي النماذج القائمة على المحولات بشكل عام على عدد أكبر من المعلمات و FLOPs، مما يتطلب موارد حسابية أكبر مثل ذاكرة GPU وقوة المعالجة.
  • تعقيد التدريب: يمكن أن يكون تدريب RTDETRv2 مستهلكًا للموارد وأبطأ من تدريب النماذج القائمة على CNN. غالبًا ما يتطلب ذاكرة CUDA أكبر بكثير، مما قد يكون عائقًا للمستخدمين ذوي الأجهزة المحدودة.
  • سرعة الاستدلال على وحدة المعالجة المركزية (CPU): في حين أنه سريع على وحدات معالجة الرسوميات (GPUs) المتطورة، إلا أن أدائه يمكن أن يكون أبطأ بكثير من النماذج المحسّنة مثل YOLOv5 على وحدات المعالجة المركزية (CPUs) أو الأجهزة الطرفية الأقل قوة.
  • النظام البيئي: يفتقر إلى النظام البيئي الشامل والموحد والأدوات ودعم المجتمع الواسع الذي توفره Ultralytics لنماذج YOLO الخاصة بها.

تعرف على المزيد حول RTDETRv2

Ultralytics YOLOv5: معيار الصناعة المعمول به

سرعان ما أصبح Ultralytics YOLOv5، الذي تم إصداره لأول مرة في عام 2020، معيارًا صناعيًا نظرًا لتوازنه الاستثنائي بين السرعة والدقة وسهولة الاستخدام التي لا مثيل لها. تم تطوير YOLOv5 في PyTorch بواسطة Glenn Jocher، وهو نموذج ناضج وموثوق ومُحسَّن للغاية وقد تم نشره في عدد لا يحصى من التطبيقات الواقعية.

المؤلف: جلين جوتشر
المنظمة: Ultralytics
التاريخ: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
التوثيق: https://docs.ultralytics.com/models/yolov5/

البنية

يتميز YOLOv5 ببنية CNN كلاسيكية وعالية الكفاءة. يستخدم هيكل CSPDarknet53 الأساسي لاستخراج الميزات، وعنق PANet لتجميع الميزات عبر مقاييس مختلفة، ورأس كشف قائم على المرساة. لقد ثبت أن هذا التصميم فعال للغاية في الكشف عن الكائنات في الوقت الفعلي.

نقاط القوة

  • سرعة وكفاءة استثنائيتان: تم تحسين YOLOv5 بشكل كبير للاستدلال السريع على نطاق واسع من الأجهزة، بدءًا من وحدات معالجة الرسوميات المتطورة (GPUs) إلى الأجهزة الطرفية ذات الموارد المحدودة مثل NVIDIA Jetson و Raspberry Pi.
  • سهولة الاستخدام: تشتهر Ultralytics YOLOv5 بتجربة المستخدم المبسطة. بفضل واجهة برمجة تطبيقات Python بسيطة و وثائق شاملة، يمكن للمطورين تدريب النماذج والتحقق من صحتها ونشرها بأقل جهد.
  • نظام بيئي مُدار بشكل جيد: يتم دعم YOLOv5 من خلال نظام Ultralytics البيئي القوي، والذي يتضمن التطوير النشط، ومجتمع كبير وداعم، والتحديثات المتكررة، والأدوات المتكاملة مثل Ultralytics HUB للتدريب والنشر بدون تعليمات برمجية.
  • موازنة الأداء: توفر عائلة النماذج (n, s, m, l, x) توازنًا ممتازًا بين السرعة والدقة، مما يسمح للمستخدمين باختيار النموذج المثالي لاحتياجاتهم الخاصة.
  • كفاءة الذاكرة: بالمقارنة مع النماذج القائمة على المحولات مثل RTDETRv2، تتطلب YOLOv5 ذاكرة CUDA أقل بكثير للتدريب، مما يجعلها في متناول مجموعة واسعة من المطورين والباحثين.
  • تنوع الاستخدامات: يدعم YOLOv5 مهام متعددة، بما في ذلك اكتشاف الكائنات، وتقسيم الحالات، وتصنيف الصور، وكل ذلك ضمن إطار عمل موحد.
  • كفاءة التدريب: عملية التدريب سريعة وفعالة، مع أوزان مُدرَّبة مسبقًا متاحة بسهولة تعمل على تسريع التقارب على مجموعات البيانات المخصصة.

نقاط الضعف

  • الدقة في المشاهد المعقدة: على الرغم من الدقة العالية، قد يتفوق RTDETRv2 قليلاً على YOLOv5 في mAP على مجموعات البيانات التي تحتوي على كائنات كثيفة جدًا أو صغيرة، حيث يكون السياق العام أمرًا بالغ الأهمية.
  • يعتمد على المربعات المحورية (Anchor-Based): قد يتطلب اعتماده على مربعات محورية محددة مسبقًا أحيانًا ضبطًا إضافيًا لمجموعات البيانات ذات نسب العرض إلى الارتفاع غير الاعتيادية للكائنات، وهي خطوة غير مطلوبة في الكاشفات الخالية من المربعات المحورية (anchor-free detectors).

حالات الاستخدام المثالية

يتفوق YOLOv5 في التطبيقات التي تكون فيها السرعة والكفاءة والتطوير السريع من الأولويات:

  • المراقبة بالفيديو في الوقت الفعلي: تشغيل أنظمة إنذار الأمان ومراقبة بث الفيديو المباشر.
  • الحوسبة الطرفية: النشر على الأجهزة منخفضة الطاقة للتطبيقات في الروبوتات والأتمتة الصناعية.
  • تطبيقات الأجهزة المحمولة: نماذجه خفيفة الوزن مثالية للاستدلال على الجهاز على الهواتف الذكية.
  • النماذج الأولية السريعة: سهولة الاستخدام ودورات التدريب السريعة تجعله مثاليًا لتطوير واختبار الأفكار الجديدة بسرعة.

تعرف على المزيد حول YOLOv5

تحليل الأداء: السرعة مقابل الدقة

يكمن التمييز الأساسي بين RTDETRv2 و YOLOv5 في فلسفة التصميم الخاصة بهما. تعطي RTDETRv2 الأولوية لتحقيق أعلى دقة ممكنة من خلال الاستفادة من بنية المحولات transformer المكثفة حسابيًا. في المقابل، تم تصميم YOLOv5 لتحقيق التوازن الأمثل بين السرعة والدقة، مما يجعله خيارًا أكثر عملية لمجموعة واسعة من سيناريوهات النشر، خاصة على الأجهزة التي لا تعتمد على وحدة معالجة الرسوميات GPU.

يوفر الجدول أدناه مقارنة كمية على مجموعة بيانات COCO val2017. في حين أن نماذج RTDETRv2 تحقق mAP أعلى، فإن نماذج YOLOv5، وخاصةً المتغيرات الأصغر، توفر سرعات استدلال أسرع بشكل كبير، خاصةً على وحدة المعالجة المركزية CPU.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

الخلاصة والتوصية

يعتبر كل من RTDETRv2 و YOLOv5 من نماذج الكشف عن الأجسام القوية، لكنهما يخدمان احتياجات مختلفة.

RTDETRv2 هو خيار ممتاز للتطبيقات التي يكون فيها تحقيق أعلى دقة مطلقة هو الأولوية القصوى وتتوفر موارد حسابية كبيرة (خاصة وحدات معالجة الرسومات المتطورة). إن قدرته على فهم السياق العالمي تجعله متفوقًا في المعايير الأكاديمية والمهام الصناعية المتخصصة ذات المشاهد المعقدة.

ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية، يظل Ultralytics YOLOv5 الخيار الأكثر عملية وتنوعًا. إن توازنه الاستثنائي بين السرعة والدقة، جنبًا إلى جنب مع متطلبات الموارد المنخفضة، يجعله مناسبًا للنشر في كل مكان من السحابة إلى الحافة. إن المزايا الرئيسية لـ YOLOv5 - سهولة الاستخدام، و النظام البيئي الذي تتم صيانته جيدًا، و كفاءة التدريب، و التنوع - تجعله النموذج المفضل للمطورين والباحثين الذين يحتاجون إلى تقديم حلول قوية وعالية الأداء بسرعة وكفاءة.

بالنسبة لأولئك الذين يبحثون عن أحدث التطورات التي تم بناؤها على هذا الأساس القوي، نوصي بشدة باستكشاف نماذج Ultralytics الأحدث مثل YOLOv8 و YOLO11، والتي توفر أداءً أفضل وميزات أكثر داخل نفس الإطار سهل الاستخدام.

مقارنات النماذج الأخرى

إذا كنت مهتمًا بمعرفة كيف تقارن هذه النماذج بغيرها، فراجع صفحات المقارنة هذه:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات