تخطي إلى المحتوى

YOLOv7 ضد RT-DETRv2: مقارنة فنية تفصيلية

يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا لأي مشروع رؤية حاسوبية، حيث يوازن بين المفاضلات بين الدقة والسرعة والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية شاملة بين YOLOv7، وهو كاشف فعال للغاية قائم على CNN، و RT-DETRv2، وهو نموذج حديث قائم على المحولات. سوف نتعمق في الاختلافات المعمارية ومعايير الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير.

YOLOv7: مُحسَّنة للسرعة والدقة

يمثل YOLOv7 علامة فارقة مهمة في سلسلة YOLO، حيث يقدم استراتيجيات تدريب جديدة وتحسينات معمارية لوضع معيار جديد للكشف عن الكائنات في الوقت الفعلي في وقت إصداره.

البنية والميزات الرئيسية

تم بناء هيكل YOLOv7 على أساس قوي من CNN، ويتضمن العديد من الابتكارات الرئيسية لتعزيز الأداء دون زيادة تكاليف الاستدلال. يتميز العمود الفقري الخاص به بشبكة تجميع الطبقات الفعالة الممتدة (E-ELAN)، مما يعزز قدرة الشبكة على تعلم ميزات متنوعة. تتمثل المساهمة الرئيسية في مفهوم "حقيبة الامتيازات المجانية القابلة للتدريب"، والتي تتضمن تقنيات التحسين المتقدمة المطبقة أثناء التدريب - مثل الرؤوس الإضافية وتعيين الملصقات الموجهة من الخشن إلى الدقيق - لتحسين دقة النموذج النهائي. تسمح هذه الاستراتيجيات لـ YOLOv7 بتحقيق توازن ملحوظ بين السرعة والدقة.

الأداء وحالات الاستخدام

يشتهر YOLOv7 بأدائه الاستثنائي على أجهزة GPU، حيث يقدم معدل إطارات عالي في الثانية (FPS) من أجل الاستدلال في الوقت الفعلي. وهذا يجعله خيارًا ممتازًا للتطبيقات التي يكون فيها زمن الوصول المنخفض أمرًا بالغ الأهمية.

  • نقاط القوة:

    • موازنة ممتازة بين السرعة والدقة: يوفر مزيجًا قويًا من mAP وسرعة الاستدلال، وهو مثالي لمهام الوقت الفعلي.
    • تدريب فعال: يستفيد من "حقيبة من الأشياء المجانية" لتحسين الدقة دون إضافة أعباء حسابية أثناء الاستدلال.
    • أداء مثبت: تم تأسيسه وقياسه جيدًا على مجموعات البيانات القياسية مثل MS COCO.
  • نقاط الضعف:

    • التعقيد: قد يكون فهم وتخصيص البنية والتقنيات التدريبية المتقدمة بشكل كامل أمرًا معقدًا.
    • استهلاك مكثف للموارد: تتطلب نماذج YOLOv7 الأكبر موارد GPU كبيرة للتدريب.
    • تنوع محدود: مصمم بشكل أساسي لـ اكتشاف الكائنات، مع ملحقات مدفوعة من المجتمع لمهام أخرى، على عكس النماذج التي تدعم المهام المتعددة المدمجة.

تعرف على المزيد حول YOLOv7

RT-DETRv2: المحول v2 للكشف في الوقت الحقيقي

RT-DETRv2 (Real-Time Detection Transformer v2) هو كاشف أجسام متطور من Baidu يستفيد من قوة المحولات لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي.

البنية والميزات الرئيسية

يعتمد RT-DETRv2 على بنية Vision Transformer (ViT)، مما يسمح له بالتقاط السياق العالمي والعلاقات داخل الصورة بشكل أكثر فعالية من شبكات CNN التقليدية. وهو يستخدم تصميمًا هجينًا، باستخدام العمود الفقري لشبكة CNN من أجل استخراج الميزات الأولي وبرنامج ترميز وفك ترميز يعتمد على المحولات للكشف. هذا النموذج أيضًا خالٍ من المرساة، مما يبسط مسار الكشف عن طريق إلغاء الحاجة إلى مربعات مرساة محددة مسبقًا، على غرار نماذج مثل YOLOX.

الأداء وحالات الاستخدام

تتمثل الميزة الأساسية لـ RT-DETRv2 في دقته العالية، خاصةً لاكتشاف الكائنات في المشاهد المعقدة التي تتضمن انسدادًا أو فوضى كبيرة.

  • نقاط القوة:

    • دقة عالية: تمكّن بنية Transformer من تحقيق دقة فائقة في الكشف عن الكائنات من خلال المعالجة الفعالة لسياق الصورة العام.
    • تمثيل ميزات قوي: يتفوق في فهم التفاصيل المعقدة والعلاقات بين الكائنات.
  • نقاط الضعف:

    • تكلفة حسابية عالية: النماذج القائمة على المحولات مثل RT-DETRv2 مكلفة حسابيًا، خاصة أثناء التدريب. تتطلب عادةً ذاكرة CUDA أكبر بكثير وأوقات تدريب أطول مقارنةً بالنماذج القائمة على CNN.
    • استدلال أبطأ على بعض الأجهزة: على الرغم من أنه مُحسَّن للأداء في الوقت الفعلي، إلا أنه قد لا يضاهي السرعة الخام لشبكات CNN المحسّنة للغاية مثل YOLOv7 على جميع تكوينات الأجهزة.

تعرف على المزيد حول RT-DETR

مقارنة الأداء: YOLOv7 مقابل RT-DETRv2

يوفر الجدول أدناه مقارنة كمية لمتغيرات النماذج المختلفة. يحقق RT-DETRv2-x أعلى mAP، ولكن هذا يأتي على حساب المزيد من المعلمات و FLOPs الأعلى وسرعة الاستنتاج الأبطأ مقارنة بـ YOLOv7x. يقدم YOLOv7 ملفًا شخصيًا أكثر توازناً، مما يجعله منافسًا قويًا للتطبيقات التي تتطلب سرعة عالية ودقة قوية.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

لماذا تختار نماذج Ultralytics YOLO؟

في حين أن كلاً من YOLOv7 و RT-DETRv2 هما نموذجان قويان، فإن نماذج Ultralytics YOLO الأحدث مثل YOLOv8 وأحدث Ultralytics YOLO11 تقدم حلاً أكثر حداثة وتنوعًا وسهولة في الاستخدام للمطورين.

  • سهولة الاستخدام: تم تصميم نماذج Ultralytics لتجربة مستخدم مبسطة، وتتميز بواجهة برمجة تطبيقات Python بسيطة و توثيق شامل و أوامر CLI مباشرة.
  • نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، ومجتمع مفتوح المصدر قوي، والتحديثات المتكررة، والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps الشاملة.
  • موازنة الأداء: تحقق نماذج Ultralytics توازنًا ممتازًا بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من السيناريوهات الواقعية، بدءًا من أجهزة الذكاء الاصطناعي الطرفية وصولًا إلى الخوادم السحابية.
  • كفاءة الذاكرة: تم تحسين نماذج Ultralytics YOLO لتحقيق كفاءة في استخدام الذاكرة. تتطلب عادةً ذاكرة CUDA أقل للتدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RT-DETR، والتي تُعرف بأنها تستهلك الكثير من الذاكرة وتستغرق وقتًا أطول في التدريب.
  • تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي أطر عمل حقيقية متعددة المهام، تدعم اكتشاف الأجسام، والتقسيم، والتصنيف، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB) خارج الصندوق.
  • كفاءة التدريب: استمتع بعمليات تدريب فعالة مع أوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات بيانات مثل COCO، مما يؤدي إلى تقارب أسرع وتقليل وقت التطوير.

الخلاصة

يعتبر كل من YOLOv7 و RT-DETRv2 من نماذج الكشف عن الأجسام الهائلة، ولكل منهما مزايا واضحة. يتفوق YOLOv7 في التطبيقات التي تتطلب سرعة في الوقت الفعلي على وحدات معالجة الرسومات، مما يوفر توازنًا رائعًا بين الأداء والكفاءة. يدفع RT-DETRv2 حدود الدقة، مما يجعله الخيار المفضل للسيناريوهات التي تكون فيها الدقة ذات أهمية قصوى والموارد الحسابية أقل تقييدًا، كما هو الحال في الذكاء الاصطناعي في السيارات ذاتية القيادة أو تحليل التصوير الطبي.

ومع ذلك، بالنسبة للمطورين والباحثين الذين يبحثون عن حل حديث وشامل، غالبًا ما تقدم نماذج Ultralytics مثل YOLOv8 و YOLO11 الخيار الأكثر إقناعًا. إنها تجمع بين الأداء الحديث وسهولة الاستخدام الاستثنائية ومتطلبات الذاكرة الأقل وتعدد استخدامات المهام المتعددة ونظام بيئي شامل ومدعوم جيدًا، مما يجعلها الخيار المثالي لمجموعة واسعة من مشاريع رؤية الكمبيوتر.

مقارنات النماذج الأخرى

للمزيد من الاستكشاف، ضع في اعتبارك هذه المقارنات التي تتضمن YOLOv7 و RT-DETR ونماذج رائدة أخرى:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات