YOLOv5 ضد RTDETRv2: موازنة السرعة في الوقت الفعلي ودقة المحولات
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح المشروع. تفحص هذه المقارنة التقنية الشاملة نهجين متميزين: YOLOv5وهو الكاشف الأسطوري المستند إلى شبكة CNN والمعروف بتعدد استخداماته وسرعته، ونموذج RTDETRv2، وهو نموذج حديث قائم على المحولات يركز على الدقة العالية.
في حين أن RTDETRv2 يستفيد من محولات الرؤية (ViT) لالتقاط السياق العام، فإن Ultralytics YOLOv5 يظل خيارًا أفضل للمطورين الذين يحتاجون إلى حل قوي وجاهز للنشر مع نفقات عامة منخفضة للموارد.
مواصفات النموذج وأصوله
قبل الخوض في مقاييس الأداء، من الضروري فهم الخلفية والفلسفة المعمارية لكل نموذج.
| ميزة | Ultralytics YOLOv5 | RTDETRv2 |
|---|---|---|
| البنية | يعتمد على CNN (يعتمد على المرساة) | هجين (CNN Backbone + Transformer) |
| التركيز الأساسي | سرعة في الوقت الفعلي، وتنوع، وسهولة الاستخدام | دقة عالية، سياق عالمي |
| المؤلفون | جلين جوتشر | Wenyu Lv, Yian Zhao، وآخرون. |
| تنظيم | تستخدم Ultralytics | بايدو |
| تاريخ الإصدار | 2020-06-26 | 2023-04-17 |
| المهام | Detect, Segment, Classify | اكتشاف |
الهندسة المعمارية وفلسفة التصميم
يكمن الاختلاف الأساسي بين هذه النماذج في كيفية معالجتها للبيانات المرئية.
Ultralytics YOLOv5
يستخدم YOLOv5 بنية شبكة عصبية التفافية (CNN) مُحسَّنة للغاية. يستخدم عمودًا فقريًا CSPDarknet مُعدَّلاً ورقبة شبكة تجميع المسار (PANet) لاستخراج خرائط الميزات.
- قائم على المرتكزات (Anchor-Based): يعتمد على مربعات ارتكاز محددة مسبقًا للتنبؤ بمواقع الكائنات، مما يبسط عملية التعلم لأشكال الكائنات الشائعة.
- الكفاءة: مُصمم لتحقيق أقصى سرعة استدلال على نطاق واسع من الأجهزة، بدءًا من الأجهزة الطرفية مثل NVIDIA Jetson إلى وحدات المعالجة المركزية (CPUs) القياسية.
- تنوع الاستخدامات: يدعم مهام متعددة بما في ذلك تقسيم المثيلات و تصنيف الصور داخل إطار عمل موحد واحد.
RTDETRv2
يمثل RTDETRv2 (Real-Time Detection Transformer v2) تحولًا نحو هياكل المحولات.
- تصميم هجين: يجمع بين العمود الفقري لـ CNN مع وحدة فك ترميز المحولات، باستخدام آليات الانتباه الذاتي لمعالجة علاقات الكائنات.
- السياق العام: يسمح مكون المحول (transformer) للنموذج "برؤية" الصورة بأكملها مرة واحدة، مما يحسن الأداء في المشاهد المعقدة التي تتضمن حجب.
- التكلفة الحسابية: تتطلب هذه البنية المتطورة عادةً ذاكرة GPU وطاقة حسابية (FLOPs) أكبر بكثير مقارنةً بالحلول القائمة على CNNs فقط.
تحليل الأداء
يوفر الجدول أدناه مقارنة مباشرة لمقاييس الأداء الرئيسية. في حين أن RTDETRv2 يُظهر دقة رائعة (mAP) على مجموعة بيانات COCO، تُظهر YOLOv5 سرعات استدلال فائقة، خاصة على أجهزة CPU حيث غالبًا ما تواجه المحولات صعوبة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تفسير البيانات
في حين أن RTDETRv2 يحقق أرقام mAP أعلى، لاحظ أعمدة السرعة و FLOPs. يعمل YOLOv5n بسرعة 73.6 مللي ثانية على وحدة المعالجة المركزية CPU، مما يجعله ممكنًا للتطبيقات في الوقت الفعلي على الأجهزة غير المسرعة. نماذج RTDETRv2 أثقل بكثير، وتتطلب وحدات معالجة الرسومات GPU قوية للحفاظ على معدلات الإطارات في الوقت الفعلي.
كفاءة التدريب واستخدام الذاكرة
تتمثل إحدى المزايا الحاسمة لـ YOLOv5 في كفاءة التدريب. تشتهر النماذج القائمة على المحولات مثل RTDETRv2 باستهلاك VRAM العالي ومعدلات التقارب البطيئة.
- بصمة ذاكرة أقل: يمكن تدريب YOLOv5 على وحدات معالجة الرسوميات (GPUs) من الدرجة الاستهلاكية بذاكرة CUDA متواضعة، مما يضفي طابعًا ديمقراطيًا على الوصول إلى تطوير الذكاء الاصطناعي.
- تقارب أسرع: يمكن للمستخدمين غالبًا تحقيق نتائج قابلة للاستخدام في عدد أقل من الحقب، مما يوفر وقتًا ثمينًا وتكاليف الحوسبة السحابية.
نقاط القوة الرئيسية في Ultralytics YOLOv5
بالنسبة لمعظم المطورين والتطبيقات التجارية، يوفر YOLOv5 مجموعة أكثر توازناً وعملية من المزايا:
- سهولة استخدام لا مثيل لها: يعتبر Python API الخاص بـ Ultralytics هو معيار الصناعة للبساطة. يمكن إجراء تحميل نموذج وتشغيل الاستدلال والتدريب على بيانات مخصصة ببضعة أسطر فقط من التعليمات البرمجية.
- نظام بيئي ثري: مدعومًا بمجتمع ضخم مفتوح المصدر، يتكامل YOLOv5 بسلاسة مع Ultralytics HUB للتدريب بدون تعليمات برمجية، و أدوات MLOps للتتبع، وتنسيقات تصدير متنوعة مثل ONNX و TensorRT.
- مرونة النشر: بدءًا من تطبيقات iOS و Android للهاتف المحمول إلى Raspberry Pi والخوادم السحابية، تسمح بنية YOLOv5 خفيفة الوزن بتشغيلها حيث لا يمكن لنماذج المحولات الأثقل تشغيلها.
- تنوع المهام: على عكس RTDETRv2، وهو في الأساس كاشف للأجسام، يدعم YOLOv5 التصنيف والتجزئة، مما يقلل الحاجة إلى الاحتفاظ بقواعد بيانات متعددة لمهام الرؤية المختلفة.
مسار الترقية
إذا كنت بحاجة إلى دقة أعلى من YOLOv5 مع الحفاظ على مزايا هذا النظام البيئي، ففكر في YOLO11 الجديد. إنه يشتمل على تحسينات معمارية حديثة لمنافسة دقة المحولات أو التغلب عليها بالكفاءة التي تتوقعها من YOLO.
مقارنة التعليمات البرمجية: سهولة الاستخدام
يوضح المثال التالي بساطة استخدام YOLOv5 مع حزمة Ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show() # show to screen
result.save(filename="result.jpg") # save to disk
حالات الاستخدام المثالية
متى تختار Ultralytics YOLOv5
- الحوسبة الطرفية: النشر على الأجهزة التي تعمل بالبطاريات أو الأجهزة ذات الموارد المحدودة (الطائرات بدون طيار والهواتف المحمولة وإنترنت الأشياء).
- تحليلات الفيديو الآنية: معالجة تدفقات فيديو متعددة في وقت واحد من أجل إدارة حركة المرور أو الأمن.
- النماذج الأولية السريعة: عندما تحتاج إلى الانتقال من مجموعة البيانات إلى النموذج المنشور في غضون ساعات، وليس أيامًا.
- متطلبات المهام المتعددة: المشاريع التي تحتاج إلى كل من object detection و image segmentation.
متى تختار RTDETRv2
- البحث الأكاديمي: القياس المعياري مقابل أحدث التقنيات المطلقة على مجموعات البيانات الثابتة حيث السرعة ثانوية.
- توفر وحدات معالجة الرسوميات المتطورة: البيئات التي تتوفر فيها وحدات معالجة الرسوميات (GPU) المخصصة من فئة الخوادم (مثل NVIDIA A100s) لكل من التدريب والاستدلال.
- مشاهد ثابتة معقدة: السيناريوهات التي تتضمن انسدادًا كثيفًا حيث توفر آلية الانتباه الذاتي ميزة حاسمة في الدقة.
الخلاصة
في حين أن RTDETRv2 يعرض إمكانات المحولات في رؤية الكمبيوتر بأرقام دقة رائعة، إلا أنه يأتي بتكاليف كبيرة من حيث موارد الأجهزة وتعقيد التدريب. بالنسبة للغالبية العظمى من التطبيقات الواقعية، تظل Ultralytics YOLOv5 الخيار الأفضل. مزيجها المثالي من السرعة والدقة واستخدام الذاكرة المنخفض — جنبًا إلى جنب مع نظام بيئي داعم و وثائق واسعة النطاق — يضمن أن يتمكن المطورون من بناء حلول ذكاء اصطناعي قابلة للتطوير وفعالة وفعالة.
بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه الأداء دون التضحية بقابلية استخدام إطار Ultralytics، نوصي بشدة باستكشاف YOLO11، الذي يسد الفجوة بين كفاءة CNN ودقة مستوى المحولات.
استكشف نماذج أخرى
- YOLOv5 مقارنة بـ YOLOv8
- RT-DETR ضد YOLO11
- YOLOv5 ضد EfficientDet
- YOLOv8 مقابل RT-DETR
- YOLOv10 مقابل YOLOv5