تخطي إلى المحتوى

YOLOv5 مقابل RTDETRv2: مقارنة تقنية مفصلة

يعد اختيار النموذج الأمثل لاكتشاف الأجسام قرارًا حاسمًا لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج لتلبية مختلف احتياجات المشروع. تقدم هذه الصفحة مقارنة تقنية بين Ultralytics YOLOv5وRTDETRv2، مع التركيز على الفروق المعمارية ومعايير الأداء وملاءمتها للتطبيقات المختلفة.

YOLOv5: مُحسَّن للسرعة والكفاءة

Ultralytics YOLOv5 هو كاشف للأجسام أحادي المرحلة معتمد على نطاق واسع ويشتهر بسرعة الاستدلال السريع والكفاءة التشغيلية. تتكون بنية YOLOv5 من:

  • العمود الفقري: CSPDarknet53، المسؤول عن استخراج الميزات.
  • الرقبة: PANET، تُستخدم لدمج الميزات.
  • الرأس: رأس YOLOv5 مصمم لمهام الكشف.

يتوفر YOLOv5 بأحجام متعددة (n، s، m، l، x)، مما يوفر للمستخدمين خيارات للموازنة بين السرعة والدقة بناءً على متطلباتهم الخاصة.

نقاط القوة:

  • سرعة الاستدلال: يتفوق YOLOv5 في السرعة، مما يجعله خيارًا ممتازًا لتطبيقات الوقت الحقيقي مثل أنظمة الإنذار الأمني.
  • الكفاءة: نماذج YOLOv5 صغيرة الحجم، وتتطلب موارد حاسوبية أقل، وهي مناسبة للنشر على الحافة مثل Raspberry Pi و NVIDIA Jetson.
  • تعدد الاستخدامات: قابلة للتكيف مع مختلف بيئات الأجهزة، بما في ذلك الأجهزة محدودة الموارد.
  • سهولة الاستخدام: موثقة بشكل جيد ومباشر للتنفيذ باستخدامحزمة Ultralytics Python و Ultralytics HUB.

نقاط الضعف:

  • مقايضة الدقة: مع تحقيق دقة عالية، قد توفر النماذج الأكبر مثل RTDETRv2 دقة أعلى في التخطيط المتوسط، خاصة في السيناريوهات المعقدة.

حالات الاستخدام المثالية:

اعرف المزيد عن YOLOv5

RTDETRv2: محول الكشف في الوقت الحقيقي عالي الدقة في الوقت الحقيقي

إن RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متطور للكشف عن الأجسام يعطي الأولوية للدقة العالية والأداء في الوقت الحقيقي. تم تقديمه في ورقة بحثية بعنوان"RT-DETRv2: خط الأساس المحسّن مع حقيبة الأجسام المجانية لمحول الكشف في الوقت الحقيقي" في 2023-04-17 للمؤلفين وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وقوانزونغ وانغ، ويي ليو من بايدو. بُنيت RTDETRv2 على بنية محول الرؤية (ViT)، وهي تتفوق في التطبيقات التي تتطلب تحديد موقع الكائن وتصنيفه بدقة.

البنية والمميزات الرئيسية:

تستفيد RTDETRv2 من بنية قائمة على المحولات، مما يمكّنها من التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. يسمح هذا النهج للنموذج بتقييم أهمية مناطق الصور المختلفة، مما يؤدي إلى تحسين استخراج الميزة وتحسين الدقة، خاصةً في المشاهد المعقدة.

نقاط القوة:

  • دقة فائقة: توفر بنية المحول دقة محسّنة في اكتشاف الأجسام، لا سيما في البيئات المعقدة كما هو موضح في سيناريوهات مثل الرؤية-أي-في-إدارة الحشود.
  • القدرة في الوقت الحقيقي: تحقق سرعات استدلال تنافسية، خاصةً عند استخدام تسريع الأجهزة مثل وحدات معالجة الرسومات NVIDIA T4.
  • استخراج الميزات القوية: تلتقط محولات الرؤية بفعالية السياق العالمي والتفاصيل المعقدة، وهي مفيدة في تطبيقات مثل استخدام الرؤية الحاسوبية لتحليل صور الأقمار الصناعية.

نقاط الضعف:

  • حجم نموذج أكبر: تحتوي نماذج RTDETRv2، وخاصةً المتغيرات الأكبر حجمًا، على عدد معلمات وعمليات تشغيل FLOP أعلى من YOLOv5 مما يستلزم المزيد من الموارد الحاسوبية.
  • سرعة الاستدلال: على الرغم من أن سرعة الاستدلال في الوقت الحقيقي، إلا أن سرعة الاستدلال قد تكون أقل مقارنةً بأسرع نماذج YOLOv5 خاصةً على الأجهزة الأقل قوة.

حالات الاستخدام المثالية:

يُعد RTDETRv2 مناسبًا على النحو الأمثل للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتكون الموارد الحاسوبية كافية. وتشمل هذه التطبيقات:

تعرف على المزيد حول RTDETRV2

جدول مقارنة النماذج

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4TensorRT10
(مللي ثانية)
بارامز
(م)

(ب)
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259
يولوف5ن 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
يولوف5م 640 45.4 233.9 4.03 25.1 64.2
يولوف5ل 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

الخاتمة

يعد كل من RTDETRv2 و YOLOv5 نموذجين قويين لاكتشاف الأجسام، وقد صُمم كل منهما لأولويات مختلفة. يُفضّل RTDETRRv2 عندما تكون الدقة أمرًا بالغ الأهمية وتتوفر الموارد الحاسوبية. وعلى العكس من ذلك، يتفوق YOLOv5 في السيناريوهات التي تتطلب أداءً وكفاءة في الوقت الفعلي، خاصةً على المنصات محدودة الموارد.

بالنسبة للمستخدمين الذين يستكشفون نماذج أخرى، تقدم Ultralytics حديقة حيوانات نموذجية واسعة، بما في ذلك:

يجب أن يعتمد الاختيار بين RTDETRv2 أو YOLOv5 أو نماذج Ultralytics الأخرى على المتطلبات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع مراعاة التوازن بين الدقة والسرعة وتوافر الموارد بعناية. استشر وثائقUltralytics ومستودع GitHub للحصول على تفاصيل شاملة وأدلة التنفيذ.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات