YOLOv8 مقابل RTDETRv2: مقارنة فنية
يتضمن اختيار نموذج الكشف عن الأجسام الصحيح مفاضلة بين الدقة والسرعة والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: Ultralytics YOLOv8، وهو نموذج حديث من عائلة YOLO، و RTDETRv2، وهو محول للكشف في الوقت الفعلي من Baidu. في حين أن كلا النموذجين يقدمان أداءً ممتازًا، إلا أنهما مبنيان على مبادئ معمارية مختلفة بشكل أساسي، مما يجعلهما مناسبين لتطبيقات مختلفة.
Ultralytics YOLOv8: المعيار المتعدد الاستخدامات والفعال
Ultralytics YOLOv8 هو أحدث نموذج دعم طويل الأجل (LTS) في سلسلة YOLO الناجحة للغاية. إنه يعتمد على ابتكارات أسلافه، ويقدم أداءً استثنائيًا مع إعطاء الأولوية لسهولة الاستخدام والسرعة وتعدد الاستخدامات.
تفاصيل فنية:
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المنظمة: Ultralytics
- التاريخ: 2023-01-10
- GitHub: https://github.com/ultralytics/ultralytics
- المستندات: https://docs.ultralytics.com/models/yolov8/
البنية والميزات الرئيسية
يتميز YOLOv8 ببنية أحادية المرحلة anchor-free مُحسَّنة للغاية. يستخدم عمودًا فقريًا مستوحى من CSPDarknet53 لاستخراج الميزات بكفاءة ووحدة C2f (Cross Stage Partial Bottlebeck مع 2 convolutions) في الرقبة لتحسين دمج الميزات. يؤدي هذا التصميم إلى نموذج ليس سريعًا ودقيقًا فحسب، بل أيضًا فعالًا من حيث الحساب.
تتمثل إحدى المزايا الرئيسية لـ YOLOv8 في تكاملها في نظام Ultralytics البيئي الشامل. يوفر هذا تجربة مستخدم مبسطة مع واجهة برمجة تطبيقات Python و CLI بسيطة، و وثائق شاملة، ودعم مجتمعي نشط.
نقاط القوة
- موازنة الأداء: يحقق YOLOv8 توازنًا رائعًا بين السرعة والدقة، مما يجعله مناسبًا لمجموعة واسعة من سيناريوهات النشر في العالم الحقيقي، بدءًا من خوادم الحوسبة السحابية عالية الأداء إلى الأجهزة الطرفية ذات الموارد المحدودة.
- سهولة الاستخدام: النموذج سهل الاستخدام بشكل لا يصدق، مع سير عمل مباشر للتدريب والتحقق والنشر. يشتمل النظام البيئي الذي تتم صيانته جيدًا على أدوات مثل Ultralytics HUB للتدريب بدون تعليمات برمجية وإدارة MLOps.
- تنوع الاستخدامات: على عكس RTDETRv2، الذي يُعدّ في الأساس كاشفًا للكائنات، فإن YOLOv8 هو نموذج متعدد المهام يدعم الكشف عن الكائنات، وتجزئة المثيلات، وتصنيف الصور، وتقدير الوضعية، والكشف عن الكائنات الموجهة (OBB) ضمن إطار عمل موحد واحد.
- كفاءة التدريب والذاكرة: تم تصميم YOLOv8 من أجل عمليات تدريب فعالة مع أوزان مُدرَّبة مسبقًا متاحة بسهولة. بالمقارنة مع النماذج القائمة على المحولات مثل RTDETRv2، يتطلب YOLOv8 عادةً ذاكرة CUDA أقل بكثير ويتقارب بشكل أسرع، مما يقلل من التكاليف الحسابية ووقت التطوير.
نقاط الضعف
- في حين أنها عالية الدقة، قد تحقق أكبر النماذج القائمة على المحولات درجة mAP أعلى قليلاً في بعض مجموعات البيانات المعقدة التي تحتوي على أجسام كثيفة، على الرغم من أن هذا غالبًا ما يأتي على حساب زمن انتقال أعلى ومتطلبات موارد أكبر.
حالات الاستخدام المثالية
إن توازن YOLOv8 بين السرعة والدقة والتنوع يجعله مثاليًا لـ:
- تطبيقات في الوقت الفعلي: مراقبة الفيديو، الأنظمة الأمنية، و إدارة حركة المرور.
- الحوسبة الطرفية: النشر على أجهزة مثل Raspberry Pi و NVIDIA Jetson حيث تكون الموارد الحسابية محدودة.
- الأتمتة الصناعية: لمهام مثل مراقبة الجودة وإدارة المخزون.
- حلول المهام المتعددة: المشاريع التي تتطلب أكثر من مجرد الكشف عن الكائنات، مثل الجمع بين الكشف وتقدير الوضع لتطبيقات اللياقة البدنية.
RTDETRv2: الكشف في الوقت الحقيقي باستخدام المحولات
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات حديث من Baidu يستفيد من قوة محولات الرؤية لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي على الأجهزة القوية.
تفاصيل فنية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (RT-DETR الأولي)، 2024-07-24 (تحسينات RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يستخدم RTDETRv2 هندسة معمارية هجينة، تجمع بين CNN كعمود فقري (مثل ResNet) لاستخراج الميزات الأولية مع وحدة ترميز وفك ترميز قائمة على المحولات. تسمح آلية الانتباه الذاتي الخاصة بالمحول للنموذج بالتقاط سياق عام والتبعيات طويلة المدى بين الأجسام في الصورة، مما قد يكون مفيدًا للكشف عن الأجسام في المشاهد المعقدة أو المزدحمة.
نقاط القوة
- دقة عالية: تمكّن بنية Transformer نموذج RTDETRv2 من تحقيق نتائج ممتازة في mAP، خاصةً في مجموعات البيانات المعقدة التي تحتوي على العديد من الكائنات الصغيرة أو المحجوبة.
- استخلاص ميزات قوي: تؤدي قدرته على معالجة سياق الصورة العام إلى أداء قوي في سيناريوهات الاكتشاف الصعبة.
- الوقت الفعلي على GPU: تم تحسين النموذج لتقديم سرعات استدلال تنافسية عند تسريعه على وحدات معالجة الرسوميات GPU المتطورة باستخدام أدوات مثل NVIDIA TensorRT.
نقاط الضعف
- التكلفة الحسابية: يحتوي RTDETRv2 بشكل عام على عدد أكبر من المعلمات والمزيد من FLOPs مقارنة بنماذج YOLOv8 المماثلة، مما يتطلب موارد حسابية أكبر، وخاصة ذاكرة GPU.
- تعقيد التدريب: من المعروف أن تدريب النماذج القائمة على المحولات يستهلك الكثير من الموارد ويمكن أن يكون أبطأ بكثير ويتطلب ذاكرة أكبر من تدريب النماذج القائمة على CNN مثل YOLOv8.
- سرعة الاستدلال: على الرغم من سرعتها على وحدات معالجة الرسوميات القوية، إلا أن أدائها يمكن أن يتدهور بشكل كبير على وحدات المعالجة المركزية CPUs أو الأجهزة الطرفية الأقل قوة، مما يجعلها أقل ملاءمة لمجموعة واسعة من الأجهزة.
- تنوع محدود: تم تصميم RTDETRv2 بشكل أساسي لاكتشاف الكائنات ويفتقر إلى الدعم الأصلي للمهام المتعددة للتجزئة والتصنيف وتقدير الوضعية الموجودة في YOLOv8.
- النظام البيئي: لا يستفيد من نظام بيئي موحد وسهل الاستخدام مثل Ultralytics، الأمر الذي يمكن أن يجعل التدريب والنشر والصيانة أكثر تعقيدًا للمطورين.
حالات الاستخدام المثالية
RTDETRv2 هو الأنسب للتطبيقات التالية:
- سيناريوهات الدقة العالية: التطبيقات التي يكون فيها تحقيق أعلى قيمة ممكنة لـ mAP على مجموعات البيانات المعقدة هو الهدف الأساسي، وتتوفر موارد GPU وافرة.
- البحث الأكاديمي: استكشاف قدرات الهياكل المعمارية المستندة إلى المحولات لاكتشاف الكائنات.
- النشر المستند إلى السحابة: الأنظمة التي يتم فيها إجراء الاستدلال على خوادم سحابية قوية مع تسريع GPU مخصص.
تحليل الأداء: السرعة والدقة والكفاءة
عند مقارنة YOLOv8 و RTDETRv2، من الواضح أن لكل نموذج نقاط قوته الخاصة. يوضح الجدول أدناه أنه في حين أن أكبر نموذج RTDETRv2 يتفوق قليلاً على YOLOv8x في mAP، فإن نماذج YOLOv8 تقدم باستمرار توازنًا أفضل بين السرعة والدقة والكفاءة.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
يُظهر YOLOv8 سرعة فائقة عبر جميع أحجام النماذج، خاصةً على CPU، حيث لا يتم توفير معايير رسمية لـ RTDETRv2. على سبيل المثال، يحقق YOLOv8l قيمة 52.9 mAP بزمن انتقال يبلغ 9.06 مللي ثانية فقط على وحدة معالجة الرسوميات T4، في حين أن RTDETRv2-l الأكثر دقة (53.4 mAP) أبطأ عند 9.76 مللي ثانية. هذه الكفاءة تجعل YOLOv8 خيارًا أكثر عملية للتطبيقات التي تتطلب استدلالًا في الوقت الفعلي.
الخلاصة: أي نموذج يجب أن تختاره؟
يُعد RTDETRv2 نموذجًا مثيرًا للإعجاب يعرض إمكانات المحولات (transformers) للكشف عن الأجسام بدقة عالية، مما يجعله خيارًا قويًا للتطبيقات البحثية والمتخصصة التي لديها موارد حسابية وفيرة.
ومع ذلك، بالنسبة للغالبية العظمى من المطورين والباحثين والشركات، Ultralytics YOLOv8 هو الخيار الأفضل. فهو يوفر توازنًا استثنائيًا بين السرعة والدقة، وهو أكثر كفاءة من الناحية الحسابية، وأسهل في الاستخدام بشكل ملحوظ. إن تعدد استخداماته عبر مهام رؤية الكمبيوتر المتعددة، جنبًا إلى جنب مع نظام بيئي قوي ويتم صيانته جيدًا، يجعله حلاً أكثر عملية وفعالية من حيث التكلفة وقوة لبناء ونشر أنظمة الذكاء الاصطناعي في العالم الحقيقي. بالنسبة لأولئك الذين يبحثون عن أحدث التطورات، فإن النماذج الأحدث مثل YOLO11 تدفع هذه المزايا إلى أبعد من ذلك.
استكشف نماذج أخرى
للمزيد من الاستكشاف، ضع في اعتبارك هذه المقارنات التي تتضمن YOLOv8 و RTDETRv2 ونماذج أخرى ذات صلة:
- RT-DETR ضد YOLOv7
- YOLOv8 مقابل YOLOv7
- YOLOv8 مقابل YOLOv9
- EfficientDet مقابل YOLOv8
- استكشف أحدث النماذج مثل YOLOv10 و YOLO11.