مقارنة بين RTDETRv2 و YOLOv5: مقارنة تقنية
في المشهد سريع التطور لاكتشاف الأجسام، غالبًا ما ينطوي اختيار النموذج الصحيح على المفاضلة بين التعقيد المعماري وسرعة الاستدلال وسهولة الاستخدام العملي. يقدم هذا الدليل مقارنة تقنية شاملة بين RTDETRv2، وهو كاشف في الوقت الحقيقي قائم على المحولات من بايدو، و YOLOv5وهو النموذج الأسطوري المستند إلى شبكة CNN من شركة Ultralytics والمعروف بتعدد استخداماته واعتماده على نطاق واسع.
تحليل الأداء: السرعة مقابل الدقة
يكمن الاختلاف الأساسي بين هذين النموذجين في فلسفتهما المعمارية. يستخدم نموذج RTDETRv2 نهج محول الرؤية (ViT) لالتقاط السياق العالمي، بهدف تحقيق أقصى قدر من الدقة في المعايير. في المقابل، يستخدم YOLOv5 تصميمًا مُحسَّنًا للغاية للشبكة العصبية التلافيفية (CNN)، مع إعطاء الأولوية لتحقيق التوازن بين السرعة والكفاءة وسهولة النشر عبر أجهزة متنوعة.
يوضح الجدول أدناه هذا التمييز. في حين أن RTDETRv2 يحقق نتائج عالية mAP مجموعة بياناتCOCO إلا أنه يتطلب موارد حاسوبية أكثر بكثير. بينما يوفر YOLOv5 خاصةً في متغيراته الأصغر (النانو والصغير)، سرعات استدلال أسرع بكثير - خاصةً على وحدات المعالجة المركزية - وبصمة ذاكرة أقل بكثير، مما يجعله الخيار العملي للتطبيقات الواقعية.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
كفاءة الذاكرة
يتطلب YOLOv5 ذاكرة CUDA أقل بكثير للتدريب مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2. يسمح هذا الحاجز المنخفض للدخول للمطورين بتدريب نماذج مخصصة على وحدات معالجة الرسومات القياسية للمستهلكين أو حتى البيئات المستندة إلى السحابة مثل Google Colab دون الوقوع في أخطاء نفاد الذاكرة (OOM).
RTDETRv2: المتحول المتحدي
يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) محاولة لجلب مزايا دقة المحولات إلى سيناريوهات الوقت الحقيقي. ومن خلال استخدام بنية هجينة، فإنه يحاول التخفيف من التكاليف الحسابية المرتفعة المرتبطة عادةً بمحولات الرؤية.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17
- اركسيف:2304.08069
- جيثب:مستودعRT-DETR
- المستندات:وثائق RTDETRv2
الهندسة المعمارية ونقاط القوة
يجمع نموذج RTDETRv2 بين العمود الفقري لشبكة CNN لاستخراج الميزات بكفاءة مع مُشَفِّر-مُفَكِّك تشفير محول. يسمح هذا التصميم للنموذج بالاستفادة من آليات الانتباه الذاتي لفهم العلاقات العالمية بين الأجسام، والتي يمكن أن تكون مفيدة في المشاهد المعقدة ذات الانسداد أو الازدحام. وتتمثل قوته الأساسية في دقته العالية في المعايير الأكاديمية، حيث يتفوق في كثير من الأحيان على النماذج القائمة على شبكة CNN ذات الحجم المماثل في مقاييس mAP البحتة.
نقاط الضعف
على الرغم من دقته، يواجه RTDETRv2 تحديات في تعدد الاستخدامات وسهولة الاستخدام. فبنية المحول بطبيعتها أثقل بطبيعتها، مما يؤدي إلى إبطاء أوقات التدريب واستهلاك أعلى للذاكرة. علاوة على ذلك، فإن نظامه البيئي يركز بشكل أساسي على البحث، ويفتقر إلى الأدوات الشاملة ودعم النشر والموارد المجتمعية الموجودة في الأطر الأكثر نضجًا. كما أنه يقتصر في المقام الأول على اكتشاف الكائنات، في حين أن المشاريع الحديثة غالبًا ما تتطلب التجزئة أو التصنيف ضمن نفس خط الأنابيب.
Ultralytics YOLOv5: المعيار متعدد الاستخدامات
يُعتبر YOLOv5 على نطاق واسع أحد أكثر نماذج الرؤية الحاسوبية المتاحة عمليةً وسهولةً في الاستخدام. تم تصميمه من قبل Ultralytics وهو يعطي الأولوية لتجربة "التدريب والنشر والإنجاز" المبسطة، مما يجعل الذكاء الاصطناعي المتقدم في متناول الجميع بدءًا من الهواة إلى مهندسي المؤسسات.
- المؤلفون: Glenn Jocher
- المنظمةUltralytics
- التاريخ: 2020-06-26
- جيثب:مستودعYOLOv5
- المستندات:وثائقYOLOv5
لماذا YOLOv5
يتفوق YOLOv5 بسبب نهجه الشامل لعمليات التعلم الآلي (MLOps). فهي ليست مجرد بنية نموذجية بل منظومة متكاملة.
- سهولة الاستخدام: بفضل واجهة برمجة تطبيقات Python API البسيطة وواجهة سطر الأوامر، يمكن للمستخدمين بدء التدريب على البيانات المخصصة في دقائق.
- توازن الأداء: توفر عائلة الطرازات (من النانو حتى X-Large) تدرجًا مثاليًا في السرعة والدقة، مما يسمح للمستخدمين بتخصيص اختيارهم لأجهزة معينة، مثل NVIDIA Jetson أو Raspberry Pi.
- تعدد الاستخدامات: على عكس RTDETRv2، يدعم YOLOv5 أصلاً مهام متعددة بما في ذلك تصنيف الصور وتجزئة النماذج، مما يقلل من الحاجة إلى الاحتفاظ بقواعد رموز منفصلة لمهام الرؤية المختلفة.
- قابلية التصدير: توفر Ultralytics دعمًا مدمجًا للتصدير إلى ONNXTensorRT CoreML TFLite مما يضمن إمكانية نشر النماذج في أي مكان، بدءًا من تطبيقات الأجهزة المحمولة وحتى الخوادم السحابية.
مثال على الاستخدام
تم تصميم YOLOv5 من أجل البساطة. فيما يلي مثال على كيفية تحميل نموذج مُدرّب مسبقًا وتشغيل الاستدلال باستخدام PyTorch Hub، مما يوضح واجهة برمجة التطبيقات البديهية التي تشتهر بها Ultralytics .
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s")
# Define an image URL
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
مقارنة بين التدريب والنظام البيئي
غالبًا ما تكون تجربة المطور بنفس أهمية أداء النموذج الخام. هنا، الاختلافات صارخة.
كفاءة التدريب
يستخدم YOLOv5 كاشفات قائمة على المرساة والتي تتسم بالكفاءة الحسابية في التدريب. يشتمل إطار عمل Ultralytics على "حقيبة من المزايا المجانية" مثل زيادة الفسيفساء والتطور التلقائي للمرتكز، مما يساعد النماذج على التقارب بشكل أسرع والتعميم بشكل أفضل مع بيانات أقل. وعلى العكس من ذلك، فإن تدريب RTDETRV2 يتطلب موارد أكثر كثافة بسبب التعقيد التربيعي لطبقات انتباه المحول، وغالباً ما يتطلب وحدات معالجة رسومات متطورة ذات ذاكرة وصول عشوائي كبيرة.
دعم النظام البيئي
يوفر نظامUltralytics البيئي ميزة متميزة. يستفيد المستخدمون من:
- تطوير نشط: تضمن التحديثات المتكررة التوافق مع أحدث إصدارات PyTorch و CUDA.
- دعم المجتمع: يساعد مجتمع ضخم على GitHub و Discord في استكشاف المشكلات وإصلاحها بسرعة.
- أدوات متكاملة: يسمح التكامل السلس مع أدوات مثل Ultralytics HUB بالتدريب على النماذج بدون تعليمات برمجية وإدارة مجموعة البيانات والنشر بنقرة واحدة.
على الرغم من أن RTDETRv2 مثيرة للإعجاب من الناحية التقنية، إلا أنها تفتقر إلى هذا المستوى من البنية التحتية المحيطة، مما يجعلها أكثر صعوبة في الاندماج في خطوط أنابيب الإنتاج.
حالات الاستخدام المثالية
يعتمد اختيار النموذج المناسب على قيودك وأهدافك المحددة.
متى تختار RTDETRv2
- البحث الأكاديمي: إذا كان هدفك هو الدفع بأحدث أرقام mAP على مجموعات البيانات مثل COCO ولديك إمكانية الوصول إلى وحدات معالجة الرسومات الرائدة (مثل A100s).
- السياق المعقد: في السيناريوهات التي يكون فيها فهم العلاقة بين الأجسام البعيدة أكثر أهمية من سرعة الاستدلال أو تكلفة الأجهزة.
متى تختار YOLOv5
- نشر الحافة: بالنسبة للتطبيقات على الأجهزة المحمولة أو الطائرات بدون طيار أو الأنظمة المدمجة حيث تكون سرعة CPU وكفاءة الطاقة أمرًا بالغ الأهمية.
- الإنتاج في الوقت الحقيقي: تشغيل أنظمة الإنذار الأمني أو مراقبة حركة المرور حيث يكون وقت الاستجابة المنخفض غير قابل للتفاوض.
- التطوير السريع: ستجد الشركات الناشئة وفرق المؤسسات التي تحتاج إلى التكرار بسرعة، بدءًا من جمع البيانات إلى النموذج الذي تم نشره، أن سير عمل YOLOv5 أسرع بكثير.
- متطلبات متعددة المهام: يمكن للمشاريع التي تحتاج إلى كل من الاكتشاف والتجزئة استخدام إطار عمل واحد، مما يبسّط المكدس التقني.
هل تبحث عن أحدث التقنيات؟
بينما يظل YOLOv5 أداة قوية، يجب على المطورين الذين يبحثون عن أحدث ما توصلت إليه التكنولوجيا في الأداء والبنية أن يراجعوا YOLO11. يبني YOLO11 على إرث YOLOv5 حيث يقدم دقة أعلى وسرعات أعلى وقدرات موسعة مثل تقدير الوضعية واكتشاف الأجسام الموجهة (OBB).
الخلاصة
يعد كل من RTDETRv2 و YOLOv5 أداتين هائلتين في ترسانة مهندس الرؤية الحاسوبية. يعرض RTDETRRv2 إمكانات المحولات للكشف عالي الدقة، مما يجعله منافسًا قويًا للتطبيقات التي تتطلب أبحاثًا كثيرة مع موارد حوسبة وافرة.
ومع ذلك، بالنسبة للغالبية العظمى من عمليات النشر العملية والواقعية, Ultralytics YOLOv5 يظل الخيار الأفضل. سهولة استخدامه التي لا مثيل لها ونضج نظامه البيئي وتعدد استخداماته تجعله الحل المفضل للمطورين الذين يحتاجون إلى نتائج موثوقة وعالية السرعة. وسواء كنت تقوم بالنشر على السحابة أو على الحافة، فإن الكفاءة والدعم اللذين يوفرهما Ultralytics يضمنان مسارًا أكثر سلاسة من المفهوم إلى الإنتاج.
استكشف مقارنات النماذج الأخرى
لمساعدتك في اتخاذ القرار الأكثر استنارة، استكشف كيفية مقارنة هذه النماذج بالبنى الأخرى في هذا المجال: