RTDETRv2 ضد YOLOv5: مقارنة فنية
في المشهد المتطور بسرعة لـ اكتشاف الكائنات، غالبًا ما يتضمن اختيار النموذج الصحيح التنقل بين المفاضلة بين التعقيد المعماري وسرعة الاستدلال وسهولة الاستخدام العملي. يقدم هذا الدليل مقارنة فنية شاملة بين RTDETRv2، وهو كاشف في الوقت الفعلي يعتمد على المحولات من Baidu، و YOLOv5، وهو النموذج الأسطوري القائم على CNN من Ultralytics والمعروف بتعدد استخداماته واعتماده على نطاق واسع.
تحليل الأداء: السرعة مقابل الدقة
يكمن الاختلاف الأساسي بين هذين النموذجين في فلسفتهما المعمارية. يستخدم RTDETRv2 نهج Vision Transformer (ViT) لالتقاط السياق العالمي، بهدف تحقيق أقصى قدر من الدقة في المعايير القياسية. في المقابل، يستخدم YOLOv5 تصميم شبكة عصبونية التفافية (CNN) مُحسَّنًا للغاية، مع إعطاء الأولوية لتحقيق التوازن بين السرعة والكفاءة وسهولة النشر عبر الأجهزة المتنوعة.
يوضح الجدول أدناه هذا التمييز. في حين أن RTDETRv2 يحقق درجات mAP عالية على مجموعة بيانات COCO، إلا أنه يتطلب موارد حسابية أكبر بكثير. يوفر YOLOv5، خاصةً في متغيراته الأصغر (Nano و Small)، سرعات استدلال أسرع بشكل كبير - خاصةً على وحدات المعالجة المركزية - وبصمة ذاكرة أقل بكثير، مما يجعله الخيار العملي للتطبيقات الواقعية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
كفاءة الذاكرة
يتطلب YOLOv5 ذاكرة CUDA أقل بكثير للتدريب مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2. يتيح هذا الحاجز الأقل للدخول للمطورين تدريب نماذج مخصصة على وحدات معالجة الرسومات (GPU) الاستهلاكية القياسية أو حتى البيئات المستندة إلى السحابة مثل Google Colab دون الوقوع في أخطاء نفاد الذاكرة (OOM).
RTDETRv2: منافس المحولات
يمثل RTDETRv2 (Real-Time Detection Transformer v2) جهدًا لجلب مزايا دقة المحولات إلى سيناريوهات الوقت الفعلي. باستخدام بنية هجينة، فإنه يحاول تخفيف التكاليف الحسابية العالية المرتبطة عادةً بـ Vision Transformers.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17
- Arxiv:2304.08069
- GitHub:RT-DETR Repository
- المستندات:توثيق RTDETRv2
الهيكلة ونقاط القوة
يجمع RTDETRv2 بين العمود الفقري للشبكة العصبونية الالتفافية (CNN) لاستخراج الميزات بكفاءة مع وحدة ترميز وفك ترميز تعتمد على المحولات. يتيح هذا التصميم للنموذج استخدام آليات الانتباه الذاتي لفهم العلاقات الشاملة بين الكائنات، وهو ما يمكن أن يكون مفيدًا في المشاهد المعقدة التي تتضمن إعاقة أو ازدحامًا. وتكمن قوته الأساسية في دقته العالية في المعايير الأكاديمية، حيث غالبًا ما يتفوق على النماذج القائمة على الشبكات العصبونية الالتفافية (CNN) ذات الحجم المماثل في مقاييس mAP الخالصة.
نقاط الضعف
على الرغم من دقته، يواجه RTDETRv2 تحديات في تعدد الاستخدامات وسهولة الاستخدام. إن بنية المحولات أثقل بطبيعتها، مما يؤدي إلى أوقات تدريب أبطأ واستهلاك أعلى للذاكرة. علاوة على ذلك، يركز نظامه البيئي بشكل أساسي على البحث، ويفتقر إلى الأدوات الشاملة ودعم النشر وموارد المجتمع الموجودة في الأطر الأكثر نضجًا. كما أنه يقتصر بشكل أساسي على الكشف عن العناصر، في حين أن المشاريع الحديثة غالبًا ما تتطلب تجزئة أو تصنيفًا داخل نفس خط الأنابيب.
Ultralytics YOLOv5: المعيار متعدد الاستخدامات
تعتبر YOLOv5 على نطاق واسع واحدة من أكثر نماذج رؤية الكمبيوتر العملية وسهلة الاستخدام المتاحة. تم إنشاؤها بواسطة Ultralytics، وهي تعطي الأولوية لتجربة مبسطة "تدريب ونشر وإنجاز"، مما يجعل الذكاء الاصطناعي المتقدم في متناول الجميع من الهواة إلى مهندسي المؤسسات.
- المؤلفون: Glenn Jocher
- المؤسسة:Ultralytics
- التاريخ: 2020-06-26
- GitHub:YOLOv5 Repository
- المستندات:توثيق YOLOv5
لماذا تبرز YOLOv5
تتفوق YOLOv5 بسبب نهجها الشامل لـ عمليات تعلم الآلة (MLOps). إنها ليست مجرد بنية نموذجية ولكنها نظام بيئي كامل.
- سهولة الاستخدام: مع واجهة Python API بسيطة وواجهة سطر أوامر، يمكن للمستخدمين البدء في التدريب على بيانات مخصصة في دقائق.
- موازنة الأداء: توفر عائلة النماذج (من Nano إلى X-Large) تدرجًا مثاليًا للسرعة والدقة، مما يسمح للمستخدمين بتكييف اختيارهم مع أجهزة معينة، مثل NVIDIA Jetson أو Raspberry Pi.
- تعدد الاستخدامات: على عكس RTDETRv2، يدعم YOLOv5 أصلاً مهام متعددة بما في ذلك image classification و instance segmentation، مما يقلل الحاجة إلى الاحتفاظ بقواعد بيانات منفصلة لمهام الرؤية المختلفة.
- قابلية التصدير: توفر Ultralytics دعمًا مدمجًا للتصدير إلى ONNX و TensorRT و CoreML و TFLite، مما يضمن إمكانية نشر النماذج في أي مكان، من تطبيقات الهاتف المحمول إلى الخوادم السحابية.
مثال على الاستخدام
تم تصميم YOLOv5 من أجل البساطة. يوجد أدناه مثال لكيفية تحميل نموذج مُدرَّب مسبقًا وتشغيل الاستدلال باستخدام PyTorch Hub، مما يدل على واجهة برمجة التطبيقات البديهية التي تشتهر بها Ultralytics.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
مقارنة التدريب والنظام البيئي
غالبًا ما تكون تجربة المطور بنفس أهمية أداء النموذج الخام. هنا، الاختلافات صارخة.
كفاءة التدريب
يستخدم YOLOv5 كاشفات تستند إلى المرساة وهي فعالة حسابيًا للتدريب. يتضمن إطار عمل Ultralytics "حقيبة من الأشياء المجانية" مثل زيادة الفسيفساء وتطور المرساة التلقائي، مما يساعد النماذج على التقارب بشكل أسرع والتعميم بشكل أفضل ببيانات أقل. وعلى العكس من ذلك، فإن تدريب RTDETRv2 أكثر كثافة في استخدام الموارد نظرًا للتعقيد التربيعي لطبقات الانتباه الخاصة بالمحول، وغالبًا ما يتطلب وحدات معالجة رسومات (GPU) متطورة مع ذاكرة وصول عشوائي مرئي (VRAM) كبيرة.
دعم النظام الإيكولوجي
يوفر نظامUltralytics البيئي ميزة متميزة. يستفيد المستخدمون من:
- تطوير نشط: تحديثات متكررة تضمن التوافق مع أحدث إصدارات PyTorch و CUDA.
- دعم المجتمع: يساعد مجتمع ضخم على GitHub و Discord في استكشاف المشكلات وإصلاحها بسرعة.
- أدوات متكاملة: التكامل السلس مع أدوات مثل Ultralytics HUB يسمح بتدريب النماذج بدون تعليمات برمجية وإدارة مجموعات البيانات ونشرها بنقرة واحدة.
RTDETRv2، على الرغم من إعجابه من الناحية الفنية، يفتقر إلى هذا المستوى من البنية التحتية المحيطة، مما يجعل دمجه في خطوط الإنتاج أكثر صعوبة.
حالات الاستخدام المثالية
يعتمد اختيار النموذج المناسب على قيودك وأهدافك المحددة.
متى تختار RTDETRv2
- البحث الأكاديمي: إذا كان هدفك هو دفع أحدث أرقام mAP على مجموعات البيانات مثل COCO ولديك حق الوصول إلى وحدات معالجة الرسومات الرئيسية (مثل A100s).
- سياق معقد: في السيناريوهات التي يكون فيها فهم العلاقة بين الكائنات البعيدة أكثر أهمية من سرعة الاستدلال أو تكلفة الأجهزة.
متى تختار YOLOv5
- النشر الطرفي: للتطبيقات الموجودة على الأجهزة المحمولة أو الطائرات بدون طيار أو الأنظمة المدمجة حيث تكون سرعة CPU وكفاءة الطاقة ذات أهمية قصوى.
- الإنتاج في الوقت الفعلي: تشغيل أنظمة إنذار الأمان أو مراقبة حركة المرور حيث يكون زمن الوصول المنخفض أمرًا غير قابل للتفاوض.
- تطوير سريع: ستجد الشركات الناشئة وفرق المؤسسات التي تحتاج إلى التكرار بسرعة، من جمع البيانات إلى النموذج المنشور، أن سير عمل YOLOv5 أسرع بشكل ملحوظ.
- متطلبات المهام المتعددة: يمكن للمشاريع التي تحتاج إلى كل من الـ detection والـ segmentation استخدام إطار عمل واحد، مما يبسط مجموعة الأدوات التقنية.
هل تبحث عن أحدث التقنيات؟
في حين أن YOLOv5 لا يزال أداة قوية، يجب على المطورين الذين يبحثون عن أحدث ما توصلت إليه الأداء والبنية التحقق من YOLO11. تعتمد YOLO11 على إرث YOLOv5، وتقدم دقة أعلى وسرعات أسرع وقدرات موسعة مثل تقدير الوضع واكتشاف الكائنات الموجهة (OBB).
الخلاصة
تعتبر كل من RTDETRv2 و YOLOv5 أدوات هائلة في ترسانة مهندس رؤية الكمبيوتر. يعرض RTDETRv2 إمكانات المحولات للكشف عالي الدقة، مما يجعله منافسًا قويًا للتطبيقات البحثية التي تتطلب موارد حسابية كبيرة.
ومع ذلك، بالنسبة للغالبية العظمى من عمليات النشر العملية في العالم الحقيقي، يظل Ultralytics YOLOv5 هو الخيار الأفضل. إن سهولة الاستخدام التي لا مثيل لها و نضج النظام البيئي و تعدد الاستخدامات تجعله الحل الأمثل للمطورين الذين يحتاجون إلى نتائج موثوقة وعالية السرعة. سواء كنت تقوم بالنشر على السحابة أو الحافة، فإن الكفاءة والدعم الذي توفره Ultralytics يضمن مسارًا أكثر سلاسة من المفهوم إلى الإنتاج.
استكشف مقارنات النماذج الأخرى
لمساعدتك في اتخاذ القرار الأكثر استنارة، استكشف كيف تقارن هذه النماذج بالبنى الأخرى في هذا المجال: