YOLOv5 مقابل RTDETRv2: الموازنة بين السرعة في الوقت الفعلي ودقة المحولات
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح المشروع. تفحص هذه المقارنة التقنية الشاملة نهجين متميزين: YOLOv5وهو الكاشف الأسطوري المستند إلى شبكة CNN والمعروف بتعدد استخداماته وسرعته، ونموذج RTDETRv2، وهو نموذج حديث قائم على المحولات يركز على الدقة العالية.
بينما يستفيد RTDETRv2 من محولات الرؤية (ViT) لالتقاط السياق العالمي, Ultralytics YOLOv5 يظل الخيار الأفضل للمطورين الذين يحتاجون إلى حل قوي وجاهز للنشر مع انخفاض النفقات العامة للموارد.
مواصفات الطراز وأصوله
قبل الغوص في مقاييس الأداء، من الضروري فهم الخلفية والفلسفة المعمارية لكل نموذج.
| الميزة | Ultralytics YOLOv5 | RTDETRv2 |
|---|---|---|
| البنية | تعتمد على CNN (تعتمد على المرساة) | هجين (العمود الفقري لـ CNN + محول) |
| التركيز الأساسي | السرعة في الوقت الحقيقي، وتعدد الاستخدامات، وسهولة الاستخدام | دقة عالية، سياق عالمي |
| المؤلفون | جلين جوشر | وينيو لف، ويان تشاو، وآخرون. |
| التنظيم | تستخدم Ultralytics | بايدو |
| تاريخ الإصدار | 2020-06-26 | 2023-04-17 |
| المهام | الكشف، والتقسيم، والتصنيف | اكتشاف |
فلسفة العمارة والتصميم
يكمن الاختلاف الأساسي بين هذه النماذج في كيفية معالجتها للبيانات المرئية.
Ultralytics YOLOv5
يستخدم YOLOv5 بنية شبكة عصبية تلافيفية (CNN) مُحسَّنة للغاية. ويستخدم العمود الفقري المعدل لشبكة CSPDarknet وشبكة تجميع المسار (PANet) لاستخراج خرائط الميزات.
- يعتمد على المرساة: يعتمد على مربعات الارتكاز المحددة مسبقًا للتنبؤ بمواقع الأجسام، مما يبسّط عملية التعلّم لأشكال الأجسام الشائعة.
- الكفاءة: مصممة لتحقيق أقصى سرعة في الاستدلال على مجموعة متنوعة من الأجهزة، بدءًا من الأجهزة المتطورة مثل NVIDIA Jetson إلى وحدات المعالجة المركزية القياسية.
- تعدد الاستخدامات: يدعم مهام متعددة بما في ذلك تجزئة النماذج وتصنيف الصور في إطار عمل واحد موحد.
RTDETRv2
يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي v2) تحولاً نحو بنيات المحولات.
- تصميم هجين: يجمع بين العمود الفقري لـ CNN مع مشفر وفك تشفير محول، باستخدام آليات الانتباه الذاتي لمعالجة علاقات الكائنات.
- السياق العام: يسمح مكون المحول للنموذج "برؤية" الصورة بأكملها في وقت واحد، مما يحسن الأداء في المشاهد المعقدة ذات الانسداد.
- التكلفة الحسابية: تتطلب هذه البنية المتطورة عادةً ذاكرة GPU وقدرة حسابية (FLOPs) أكبر بكثير مقارنةً بالحلول القائمة على شبكة CNN البحتة.
تحليل الأداء
يقدم الجدول أدناه مقارنة مباشرة لمقاييس الأداء الرئيسية. بينما يُظهر RTDETRv2 دقة مذهلةmAP) على مجموعة بياناتCOCO يُظهر YOLOv5 سرعات استدلال متفوقة، خاصةً على أجهزة CPU حيث تعاني المحولات في كثير من الأحيان.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تفسير البيانات
في حين أن RTDETRv2 يحقق أرقام mAP أعلى، لاحظ أعمدة السرعة وFLOPs. تعمل YOLOv5n بسرعة 73.6 مللي ثانية على CPU مما يجعلها مجدية للتطبيقات في الوقت الحقيقي على أجهزة غير متسارعة. نماذج RTDETRv2 أثقل بكثير، مما يتطلب وحدات معالجة رسومات قوية للحفاظ على معدلات إطارات في الوقت الحقيقي.
كفاءة التدريب واستخدام الذاكرة
من المزايا الحاسمة لـ YOLOv5 هي كفاءة التدريب. تشتهر النماذج القائمة على المحولات مثل RTDETRv2 باستهلاكها العالي لذاكرة التخزين الافتراضية ومعدلات التقارب البطيئة.
- بصمة ذاكرة أقل: يمكن تدريب YOLOv5 على وحدات معالجة الرسومات من فئة المستهلكين مع ذاكرة CUDA متواضعة، مما يجعل الوصول إلى تطوير الذكاء الاصطناعي أكثر ديمقراطية.
- تقارب أسرع: يمكن للمستخدمين في كثير من الأحيان تحقيق نتائج قابلة للاستخدام في عدد أقل من الحقب، مما يوفر وقتاً ثميناً وتكاليف الحوسبة السحابية.
نقاط القوة الرئيسية في Ultralytics YOLOv5
بالنسبة لمعظم المطورين والتطبيقات التجارية، يقدم YOLOv5 مجموعة أكثر توازناً وعملية من المزايا:
- سهولة استخدام لا مثيل لها:واجهة برمجة تطبيقات Ultralytics Python هي معيار الصناعة للبساطة. يمكن تحميل نموذج، وتشغيل الاستدلال، والتدريب على البيانات المخصصة ببضعة أسطر من التعليمات البرمجية.
- نظام بيئي غني: بدعم من مجتمع ضخم مفتوح المصدر، يتكامل YOLOv5 بسلاسة مع Ultralytics HUB للتدريب بدون رموز، وأدوات MLOPS للتتبع، وتنسيقات تصدير متنوعة مثل ONNX و TensorRT.
- مرونة النشر: تسمح بنية YOLOv5 الخفيفة الوزن بتشغيل تطبيقات الأجهزة المحمولة التي تعمل بنظامي iOS و Android إلى Raspberry Pi والخوادم السحابية، حيث تسمح له بنية YOLOv5 الخفيفة الوزن بالعمل حيث لا يمكن تشغيل نماذج المحولات الأثقل.
- تنوع المهام: على عكس RTDETRv2، وهو كاشف للأجسام في المقام الأول، يدعم YOLOv5 التصنيف والتجزئة، مما يقلل من الحاجة إلى الاحتفاظ بقواعد رموز متعددة لمهام الرؤية المختلفة.
مسار الترقية
إذا كنت بحاجة إلى دقة أعلى من YOLOv5 مع الحفاظ على مزايا النظام البيئي هذه، ففكر في YOLO11. فهو يشتمل على تحسينات معمارية حديثة لمنافسة دقة المحول أو التغلب عليها مع الكفاءة التي تتوقعها من YOLO.
مقارنة الرموز: سهولة الاستخدام
يوضح المثال التالي بساطة استخدام YOLOv5 مع حزمة Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show() # show to screen
result.save(filename="result.jpg") # save to disk
حالات الاستخدام المثالية
متى تختار Ultralytics YOLOv5
- حوسبة الحافة: النشر على الأجهزة التي تعمل بالبطاريات أو الأجهزة ذات الموارد المحدودة (الطائرات بدون طيار، والهواتف المحمولة، وإنترنت الأشياء).
- تحليلات الفيديو في الوقت الحقيقي: معالجة تدفقات فيديو متعددة في وقت واحد لإدارة حركة المرور أو الأمن.
- النماذج الأولية السريعة: عندما تحتاج إلى الانتقال من مجموعة البيانات إلى النموذج المنتشر في ساعات وليس أيام.
- متطلبات متعددة المهام: المشاريع التي تحتاج إلى كل من اكتشاف الأجسام وتجزئة الصور.
متى تختار RTDETRv2
- البحث الأكاديمي: المقارنة المعيارية مع أحدث ما توصل إليه العلم على مجموعات البيانات الثابتة حيث تكون السرعة ثانوية.
- توافر GPU متطورة: البيئات التي تتوافر فيها وحدات معالجة رسومات مخصصة من فئة الخادم (مثل NVIDIA A100s) لكل من التدريب والاستدلال.
- المشاهد الثابتة المعقدة: سيناريوهات ذات انسداد كثيف حيث توفر آلية الانتباه الذاتي ميزة حاسمة في الدقة.
الخلاصة
في حين أن RTDETRv2 يعرض إمكانات المحولات في الرؤية الحاسوبية بأرقام دقة مثيرة للإعجاب، إلا أنه يأتي مع تكاليف كبيرة من حيث موارد الأجهزة وتعقيد التدريب. بالنسبة للغالبية العظمى من التطبيقات في العالم الحقيقي, Ultralytics YOLOv5 يظل الخيار الأفضل. ويضمنالمزيج المثالي الذي يجمع بين السرعة والدقة والاستخدام المنخفض للذاكرة - إلى جانب نظام بيئي داعم ووثائقشاملة -قدرة المطورين على بناء حلول ذكاء اصطناعي قابلة للتطوير وفعالة وفعالة وقابلة للتطوير.
لأولئك الذين يبحثون عن أحدث ما توصل إليه الأداء المطلق دون التضحية بقابلية استخدام إطار عمل Ultralytics نوصي بشدة باستكشاف YOLO11الذي يسد الفجوة بين كفاءة CNN والدقة على مستوى المحول.
استكشف نماذج أخرى
- YOLOv5 مقارنة بـ YOLOv8
- RT-DETR ضد YOLO11
- YOLOv5 ضد EfficientDet
- YOLOv8 مقابل RT-DETR
- YOLOv10 مقابل YOLOv5