تخطي إلى المحتوى

YOLOv5 مقابل RTDETRv2: مقارنة تفصيلية بين النموذجين

يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة من النماذج المصممة خصيصًا لتلبية الاحتياجات المختلفة، بما في ذلك نموذج Ultralytics YOLOv5 ومقارنته بنماذج أخرى مثل RTDETRv2. تقدم هذه الصفحة مقارنة تقنية بين YOLOv5 وRTDETRv2 مع تسليط الضوء على الاختلافات المعمارية ومقاييس الأداء ومنهجيات التدريب والتطبيقات المثالية.

YOLOv5: السرعة والكفاءة

المؤلف: جلين جوشر
المنظمة: Ultralytics
التاريخ: 2020-06-26
جيثب: https:yolov5
المستندات: https:yolov5

إن Ultralytics YOLOv5 هو كاشف الأجسام أحادي المرحلة المعتمد على نطاق واسع، وهو مشهور بسرعته الاستثنائية في الاستدلال وكفاءته التشغيلية. تم تطويره بواسطة Ultralytics وأصبح معيارًا لمهام الكشف عن الأجسام في الوقت الفعلي.

الهندسة المعمارية

يستخدم YOLOv5 بنية قائمة على شبكة CNN مُحسّنة للسرعة:

  • العمود الفقري: CSPDarknet53 لاستخراج الميزات بكفاءة.
  • الرقبة: PANet لدمج الميزات الفعالة عبر المقاييس.
  • الرأس: رأس كشف YOLOv5 للتنبؤ بالمربع المحدود وتصنيفه. وهو متوفر بأحجام متعددة (n، s، m، l، x)، مما يسمح للمستخدمين باختيار أفضل مفاضلة بين السرعة والدقة لاحتياجاتهم الخاصة.

نقاط القوة

يوفر YOLOv5 مزايا كبيرة، خاصة للمطورين الذين يسعون إلى النشر العملي:

  • سهولة الاستخدام: يتميز بتجربة مستخدم مبسطة مع واجهة برمجة تطبيقات بسيطة ووثائق شاملة والعديد من البرامج التعليمية.
  • نظام بيئي جيد الصيانة: الاستفادة من نظامUltralytics البيئي المتكامل، بما في ذلك التطوير النشط، والدعم المجتمعي القوي عبر GitHub وDiscord، والتحديثات المتكررة، ومنصات مثل Ultralytics HUB للتدريب والنشر بدون كود.
  • توازن الأداء: يحقق توازنًا قويًا بين سرعة الاستدلال والدقة، مما يجعله مناسبًا لسيناريوهات العالم الحقيقي المتنوعة.
  • متطلبات الذاكرة: عادةً ما تتطلب ذاكرة أقل (خاصةً ذاكرة CUDA أثناء التدريب) مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2.
  • كفاءة التدريب: يوفر عمليات تدريب فعالة، وتقاربًا أسرع، وأوزانًا متاحة مسبقًا ومتوفرة بسهولة على مجموعات بيانات مثل COCO.
  • تعدد الاستخدامات: على الرغم من تركيز مستودع YOLOv5 في المقام الأول على الكشف، إلا أنه يدعم أيضًا مهام تجزئة النماذج وتصنيف الصور.

نقاط الضعف

  • الدقة: في حين أن النماذج الأكبر حجماً والأكثر تعقيداً مثل RTDETRv2-x قد تحقق دقة أعلى قليلاً في مجموعات البيانات الصعبة، وإن كان ذلك على حساب السرعة والموارد.

حالات الاستخدام المثالية

يتفوق YOLOv5 في:

اعرف المزيد عن YOLOv5

RTDETRv2: الكشف في الوقت الحقيقي عالي الدقة

المؤلفون: وينيو لوف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وقوانزونغ وانغ، ويي ليو
المنظمة: بايدو
التاريخ: 2023-04-17 ( RT-DETR الأولي)، 2024-07-24 (تحسينات RT-DETRv2)
اركسيف: https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
جيثب: https:RT-DETR
المستندات: https:RT-DETR

إن RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف أجسام متطور يستفيد من قوة محولات الرؤية (ViT) لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الحقيقي.

الهندسة المعمارية

يستخدم RTDETRV2 نهجًا هجينًا:

  • العمود الفقري: عادةً ما تكون شبكة CNN (مثل متغيرات ResNet) لاستخراج الميزات الأولية.
  • أداة تشفير-فك ترميز: هيكل مشفر - مفكك تشفير قائم على محول يستخدم آليات الانتباه الذاتي لالتقاط السياق العام داخل ميزات الصورة. يتيح ذلك للنموذج فهم العلاقات بين الأجسام البعيدة والمشاهد المعقدة بشكل أفضل.

نقاط القوة

  • دقة عالية: تُمكّن بنية المحول RTDETRRv2 من تحقيق نتائج ممتازة في الخريطة المتوسطة، خاصةً في مجموعات البيانات المعقدة ذات الأجسام الكثيفة أو الصغيرة.
  • القدرة في الوقت الحقيقي: تم تحسينها لتوفير سرعات استدلال تنافسية، خاصة عند تسريعها باستخدام أدوات مثل NVIDIA TensorRT.
  • استخراج ميزات قوية: يلتقط السياق العالمي بفعالية، مما يؤدي إلى أداء أفضل في السيناريوهات الصعبة مثل الانسداد.

نقاط الضعف

  • التكلفة الحسابية: يحتوي بشكل عام على عدد معلمات وفلوب أعلى مقارنةً بـ YOLOv5 مما يتطلب موارد حسابية أكثر أهميةGPU ذاكرةGPU وقوة معالجة).
  • تعقيد التدريب: يمكن أن يكون تدريب النماذج المستندة إلى المحولات أكثر تعقيداً من حيث الموارد وأبطأ من تدريب النماذج المستندة إلى شبكة CNN مثل YOLOv5.
  • سرعة الاستدلال: على الرغم من قدرتها في الوقت الحقيقي على الأجهزة القوية، إلا أنها قد تكون أبطأ من أسرع متغيرات YOLOv5 خاصةً على وحدات المعالجة المركزية أو الأجهزة الطرفية الأقل قوة.
  • النظام الإيكولوجي: يفتقر إلى النظام البيئي الشامل والموحد، والأدوات (مثل Ultralytics HUB)، والدعم المجتمعي الواسع الذي توفره Ultralytics لنماذج YOLO .

حالات الاستخدام المثالية

يُعد RTDETRv2 الأنسب للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتتوفر فيها موارد حسابية كافية:

تعرف على المزيد حول RTDETRV2

مقارنة الأداء: YOLOv5 مقابل RTDETRv2

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4TensorRT10
(مللي ثانية)
بارامز
(م)

(ب)
يولوف5ن 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
يولوف5م 640 45.4 233.9 4.03 25.1 64.2
يولوف5ل 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259

يسلط الجدول الضوء على المفاضلات:

  • YOLOv5 (خاصةً n/s/m) توفر سرعات استدلال أسرع بكثير على كل من CPU GPU TensorRT) مع عدد أقل بكثير من المعلمات وعمليات التشغيل الحر، مما يجعلها مثالية للبيئات محدودة الموارد.
  • تُحقق نماذج RTDETRv2 أعلى درجات mAP القصوى (خاصةً المتغيرات l/x) ولكنها تأتي مع زيادة زمن الوصول والمتطلبات الحسابية. وتجدر الإشارة إلى أن RTDETRRv2-s/m تقدم دقة منافسة لـ YOLOv5l/x مع سرعات TensorRT أسرع، لكنها تفتقر إلى أداء CPU المبلغ عنها.

التدريب والنظام البيئي

Ultralytics YOLOv5 يتميز بسهولة التدريب ونظامه البيئي الشامل. التدريب بسيط ومباشر باستخدام CLI برمجة تطبيقات CLI أو Python API، مدعومًا بوثائق ودروس تعليمية شاملة. يوفر نظام Ultralytics البيئي أدوات مثل Ultralytics HUB لتبسيط التدريب والنشر، ودعم المجتمع النشط، والتكامل السلس مع أدوات مثل Weights & Biases و ClearML. علاوةً على ذلك، تتطلب بنية YOLOv5 الخاصة بـ YOLOv5 بشكل عام ذاكرة GPU أقل وتتدرب بشكل أسرع من نماذج المحولات.

على الرغم من قوة RTDETRv2، إلا أنه يتضمن تدريب بنية محولات أكثر تعقيداً. ويتطلب ذلك عادةً موارد حاسوبية أكبر (خاصةً ذاكرة عالية GPU ) وربما أوقات تدريب أطول. وعلى الرغم من أن مستودع GitHub يوفر نصوصاً نصية للتدريب، إلا أن النظام البيئي المحيط وهيكل الدعم أقل شمولاً من تلك التي تقدمها Ultralytics.

الخاتمة

يُعدّ كل من YOLOv5 و RTDETRv2 نموذجين قادرين على اكتشاف الأجسام، لكنهما يلبيان أولويات مختلفة.

  • Ultralytics YOLOv5 هو الخيار الموصى به للتطبيقات التي تتطلب سرعة عالية وكفاءة وسهولة في الاستخدام وتنوع في النشر، خاصةً على الأجهزة المتطورة أو عندما تكون الموارد الحاسوبية محدودة. كما أن نظامها البيئي القوي ومتطلبات التدريب المنخفضة تجعلها في متناول المطورين والباحثين.
  • يُعد RTDETRv2 مناسبًا عندما تكون الدقة القصوى هي الأولوية المطلقة، وتتوفر موارد حاسوبية كافية (بما في ذلك وحدات معالجة رسومات قوية للتدريب والاستدلال).

بالنسبة لمعظم التطبيقات العملية، يوفر YOLOv5 توازنًا ممتازًا ومتفوقًا في كثير من الأحيان بين الأداء والسرعة وسهولة الاستخدام، مدعومًا بالدعم القوي والأدوات القوية لمنظومة Ultralytics .

استكشف نماذج أخرى

إذا كنت تبحث عن بدائل، ففكر في نماذج أخرى ضمن منظومة Ultralytics :

  • YOLOv8: خليفة ل YOLOv5 حيث يوفر دقة وسرعة محسّنة في مختلف المهام بما في ذلك الكشف والتجزئة والوضعية والتتبع.
  • YOLOv10: يتميز بابتكارات مثل التدريب الخالي من نظام إدارة المحتوى NMS لتحقيق المزيد من المكاسب في الكفاءة.
  • YOLO11: أحدث جيل من برنامج Ultralytics الذي يدفع حدود الأداء والكفاءة.

يمكن أن توفر المقارنة بين نماذج مثل YOLOv8 مقابل RTDETRv2 أو YOLOv10 مقابل RTDETRv2 المزيد من الأفكار حول أفضل ما يناسب مشروعك.



📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات