YOLOv5 ضد RTDETRv2: مقارنة مفصلة للنماذج
يُعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية لأي مشروع رؤية حاسوبية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: Ultralytics YOLOv5، وهو معيار صناعي راسخ معروف بتوازنه بين السرعة والكفاءة، و RTDETRv2، وهو نموذج قائم على المحولات مصمم لتحقيق دقة عالية. سوف نتعمق في الاختلافات المعمارية ومعايير الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لاحتياجاتك.
Ultralytics YOLOv5: معيار الصناعة المعمول به
المؤلف: جلين جوتشر
المنظمة: Ultralytics
التاريخ: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
المستندات: https://docs.ultralytics.com/models/yolov5/
وضع Ultralytics YOLOv5 معيارًا جديدًا لـ الكشف عن الأجسام في الوقت الفعلي عند إطلاقه، وسرعان ما أصبح المفضل لدى المطورين والباحثين لمزيجه الاستثنائي من السرعة والدقة وسهولة الاستخدام. تم بناءه بالكامل في PyTorch، وهو مُحسَّن للغاية وسهل التدريب والتحقق من الصحة والنشر.
البنية
تستخدم YOLOv5 بنية كلاسيكية قائمة على CNN تتسم بالكفاءة والفعالية.
- العمود الفقري: يستخدم عمودًا فقريًا من نوع CSPDarknet53، وهو نوع من Darknet مُحسَّن باستخدام اتصالات Cross Stage Partial (CSP) لتحسين تدفق التدرج وتقليل التكلفة الحسابية.
- الرقبة: يتم استخدام شبكة تجميع المسار (PANet) لتجميع الميزات، والجمع الفعال بين الميزات من مقاييس مختلفة لتحسين اكتشاف الكائنات ذات الأحجام المختلفة.
- الرأس: يستخدم النموذج رأس كشف قائم على المرساة للتنبؤ بالمربعات المحيطة، واحتمالات الفئة، ودرجات موضوعية الكائن.
نقاط القوة
- سرعة وكفاءة استثنائيتان: تم تحسين YOLOv5 بشكل كبير لـ سرعات الاستدلال السريعة، مما يجعله الخيار الأفضل للتطبيقات في الوقت الفعلي على نطاق واسع من الأجهزة، بدءًا من وحدات المعالجة المركزية (CPUs) إلى الأجهزة الطرفية.
- سهولة الاستخدام: يشتهر YOLOv5 بتجربة المستخدم المبسطة، ويوفر Python API و CLI بسيطة، مدعومة بـ وثائق شاملة.
- نظام بيئي مُدار بشكل جيد: باعتباره نموذج Ultralytics، فإنه يستفيد من نظام بيئي قوي ويجري تطويره بنشاط. ويشمل ذلك مجتمعًا كبيرًا وتحديثات متكررة وتكاملًا سلسًا مع أدوات مثل Ultralytics HUB للتدريب والنشر بدون تعليمات برمجية.
- موازنة الأداء: يحقق YOLOv5 توازنًا ممتازًا بين السرعة والدقة، مما يجعله عمليًا للغاية لسيناريوهات العالم الحقيقي المتنوعة.
- كفاءة الذاكرة: بالمقارنة مع النماذج القائمة على المحولات، تتطلب نماذج YOLOv5 عمومًا ذاكرة CUDA أقل بكثير أثناء التدريب وهي أكثر كفاءة في استخدام الذاكرة أثناء الاستدلال.
- تنوع الاستخدامات: يدعم مهام متعددة، بما في ذلك اكتشاف الأجسام، وتقسيم الحالات، وتصنيف الصور، كل ذلك ضمن إطار عمل موحد.
- كفاءة التدريب: عملية التدريب سريعة وفعالة، مع أوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات بيانات مثل COCO لتسريع التطوير.
نقاط الضعف
- الدقة في المشاهد المعقدة: على الرغم من الدقة العالية، فقد تتفوق عليها بنيات أحدث وأكثر تعقيدًا مثل RTDETRv2 على مجموعات البيانات التي تحتوي على العديد من الكائنات الصغيرة أو المسدودة.
- تصميم قائم على المرساة: يمكن أن يتطلب اعتماده على مربعات مرساة محددة مسبقًا في بعض الأحيان ضبطًا يدويًا لتحقيق الأداء الأمثل على مجموعات البيانات ذات نسب العرض إلى الارتفاع غير التقليدية للكائنات.
حالات الاستخدام المثالية
يتفوق YOLOv5 في التطبيقات التي تكون فيها السرعة وكفاءة الموارد والتطوير السريع أمرًا بالغ الأهمية.
- المراقبة بالفيديو في الوقت الفعلي: مثالية لـ أنظمة إنذار الأمان ومراقبة بث الفيديو المباشر.
- الحوسبة الطرفية: نماذجها خفيفة الوزن مثالية للنشر على الأجهزة ذات الموارد المحدودة مثل Raspberry Pi و NVIDIA Jetson.
- تطبيقات الهواتف المحمولة: مناسب للاستدلال على الجهاز في تطبيقات الهواتف المحمولة.
- الأتمتة الصناعية: تشغيل مراقبة الجودة و الذكاء الاصطناعي في إدارة حركة المرور.
RTDETRv2: كشف عالي الدقة في الوقت الفعلي Transformer
المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: Baidu
التاريخ: 2023-04-17 (RT-DETR الأولي)، 2024-07-24 (تحسينات RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069، https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات حديث يستفيد من قوة محولات الرؤية (ViT) لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي على الأجهزة القادرة.
البنية
يستخدم RTDETRv2 نهجًا هجينًا يجمع بين نقاط القوة في CNN والمحولات.
- العمود الفقري: يستخدم عادةً شبكة CNN (مثل متغيرات ResNet) لاستخراج الميزات الأولية بكفاءة.
- Encoder-Decoder: هيكل ترميز-فك ترميز قائم على Transformer يعالج ميزات الصورة. يستخدم آليات الانتباه الذاتي لالتقاط السياق العام، ممّا يسمح للنموذج بفهم العلاقات بين الكائنات البعيدة والمشاهد المعقدة بشكل أفضل.
نقاط القوة
- دقة عالية: تتيح بنية المحولات لـ RTDETRv2 تحقيق درجات mAP ممتازة، خاصة في مجموعات البيانات المعقدة ذات الكائنات الكثيفة أو الصغيرة، مثل تلك الموجودة في تحليل صور الأقمار الصناعية.
- إمكانية العمل في الوقت الفعلي: تم تحسينها لتوفير سرعات استدلال تنافسية، خاصةً عند تسريعها على وحدات معالجة الرسوميات القوية باستخدام أدوات مثل NVIDIA TensorRT.
- استخلاص ميزات قوي: من خلال التقاط السياق العام، فإنه يعمل بشكل جيد في السيناريوهات الصعبة مثل الانسداد، وهو أمر مفيد لتطبيقات مثل القيادة الذاتية.
نقاط الضعف
- تكلفة حسابية عالية: يحتوي RTDETRv2 بشكل عام على عدد معلمات وعمليات حسابية (FLOPs) أعلى مقارنةً بـ YOLOv5، مما يتطلب موارد حسابية أكبر مثل ذاكرة GPU وقوة المعالجة.
- تعقيد التدريب: غالبًا ما يكون تدريب النماذج القائمة على المحولات أكثر استهلاكًا للموارد وأبطأ من تدريب الشبكات العصبية التلافيفية (CNN). تتطلب عادةً ذاكرة CUDA أكبر بكثير، مما يجعلها أقل سهولة للمستخدمين ذوي الأجهزة المحدودة.
- سرعة الاستدلال على وحدة المعالجة المركزية (CPU) / الحافة الطرفية: في حين أنه يعمل في الوقت الفعلي على وحدات معالجة الرسوميات (GPUs) القوية، إلا أن أدائه يمكن أن يكون أبطأ بكثير من YOLOv5 على وحدات المعالجة المركزية (CPUs) أو الأجهزة الطرفية الأقل قوة.
- النظام البيئي وسهولة الاستخدام: يفتقر إلى النظام البيئي الموحد والشامل والأدوات والدعم المجتمعي الواسع الذي توفره Ultralytics لنماذج YOLO الخاصة بها.
تحليل الأداء: السرعة مقابل الدقة
يكمن الاختلاف الرئيسي بين YOLOv5 و RTDETRv2 في فلسفة التصميم الخاصة بهما. تم تصميم YOLOv5 لتحقيق توازن مثالي بين السرعة والدقة عبر مجموعة واسعة من الأجهزة، مما يجعله متعدد الاستخدامات بشكل لا يصدق. في المقابل، تعطي RTDETRv2 الأولوية لتحقيق أقصى قدر من الدقة، والاستفادة من بنية المحولات الأكثر كثافة من الناحية الحسابية والتي تعمل بشكل أفضل على وحدات معالجة الرسومات (GPUs) المتطورة.
يسلط الجدول أدناه الضوء على هذه الاختلافات. في حين أن نماذج RTDETRv2 تحقق درجات mAP أعلى، فإن نماذج YOLOv5، وخاصة المتغيرات الأصغر، توفر أوقات استدلال أسرع بشكل ملحوظ، خاصة على وحدات المعالجة المركزية CPU. وهذا يجعل YOLOv5 خيارًا أكثر عملية للتطبيقات التي تتطلب زمن انتقال منخفض ونشر على أجهزة متنوعة.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
الخلاصة والتوصيات
يعتبر كل من YOLOv5 و RTDETRv2 من نماذج الكشف عن الأجسام الهائلة، لكنهما يخدمان احتياجات مختلفة.
RTDETRv2 هو خيار ممتاز للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي، وتتوفر موارد حسابية كبيرة (مثل وحدات معالجة الرسومات المتطورة) بسهولة لكل من التدريب والنشر. تمنحه بنيته القائمة على المحولات ميزة في المشاهد المعقدة.
ومع ذلك، بالنسبة للغالبية العظمى من تطبيقات العالم الحقيقي، يقدم Ultralytics YOLOv5 حلاً أكثر إقناعًا وعملية. إن توازنه الاستثنائي بين السرعة والدقة، جنبًا إلى جنب مع متطلبات الموارد المنخفضة، يجعله مناسبًا لنطاق أوسع من سيناريوهات النشر. إن المزايا الرئيسية لنظام Ultralytics البيئي الذي تتم صيانته جيدًا—بما في ذلك سهولة الاستخدام والوثائق الشاملة ودعم المجتمع النشط وأدوات مثل Ultralytics HUB—تقلل بشكل كبير من حاجز الدخول وتسريع وقت التطوير.
بالنسبة للمطورين الذين يبحثون عن إطار عمل حديث ومتعدد الاستخدامات وعالي الكفاءة، فإن نماذج Ultralytics الأحدث مثل YOLOv8 و YOLO11 تعتمد على نقاط قوة YOLOv5، مما يوفر أداءً أفضل وميزات أكثر. تمثل هذه النماذج أحدث ما توصلت إليه التكنولوجيا في مجال رؤية الكمبيوتر عالية الأداء وسهلة الاستخدام.
مقارنات النماذج الأخرى
إذا كنت مهتمًا باستكشاف نماذج أخرى، فراجع هذه المقارنات:
- YOLOv5 مقارنة بـ YOLOv7
- YOLOv5 مقارنة بـ YOLOv8
- YOLOv5 مقارنة بـ YOLOv9
- RT-DETR ضد YOLOv8
- RT-DETR ضد YOLO11
- EfficientDet مقابل YOLOv5