تخطي إلى المحتوى

YOLOv9 مقابل RTDETRv2: مقارنة فنية للكشف عن الأجسام

يُعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية لأي مشروع رؤية حاسوبية، ويتطلب توازنًا دقيقًا بين الدقة وسرعة الاستدلال والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: YOLOv9، وهو نموذج حديث معروف بكفاءته ودقته، و RTDETRv2، وهو نموذج قائم على المحولات ويحظى بالثناء لدقته العالية. سيساعدك هذا التحليل في تحديد النموذج الأنسب لمتطلبات مشروعك المحددة.

YOLOv9: تعزيز الكشف في الوقت الحقيقي مع الكفاءة

YOLOv9 يمثل قفزة كبيرة إلى الأمام في سلسلة YOLO، حيث يقدم تقنيات رائدة لتعزيز الأداء والكفاءة. تم تطويره بواسطة باحثين رائدين، ويعالج التحديات الرئيسية في التعلم العميق لتقديم نتائج فائقة.

البنية والميزات الرئيسية

يقدم تصميم YOLOv9 ابتكارين رئيسيين: معلومات التدرج القابلة للبرمجة (PGI) و شبكة تجميع الطبقات الفعالة المعممة (GELAN). تم تصميم PGI لمكافحة مشكلة فقدان المعلومات أثناء تدفق البيانات عبر الشبكات العصبية العميقة، مما يضمن حصول النموذج على معلومات تدرج موثوقة للتحديثات الدقيقة. GELAN عبارة عن بنية شبكة جديدة تعمل على تحسين استخدام المعلمات والكفاءة الحسابية، مما يسمح لـ YOLOv9 بتحقيق دقة عالية دون عدد كبير من المعلمات.

عند دمجه في نظام Ultralytics البيئي، يتم تضخيم قوة YOLOv9. يستفيد المطورون من تجربة مستخدم مبسطة مع واجهة برمجة تطبيقات Python بسيطة و وثائق شاملة. يضمن هذا النظام البيئي تدريبًا فعالاً مع أوزان مُدرَّبة مسبقًا متاحة بسهولة ويستفيد من التطوير النشط ودعم المجتمع القوي.

نقاط القوة والضعف

نقاط القوة:

  • دقة هي الأحدث على مستوى التقنية: تحقق أعلى نتائج mAP في المقاييس المعيارية مثل COCO، وغالبًا ما تتفوق على النماذج ذات المعلمات الأكثر.
  • كفاءة عالية: يوفر GELAN و PGI أداءً استثنائيًا مع عدد أقل من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs)، مما يجعله مثاليًا للنشر على أجهزة الذكاء الاصطناعي الطرفي (Edge AI).
  • الحفاظ على المعلومات: يقلل PGI بشكل فعال من فقدان المعلومات، مما يؤدي إلى تعلم أكثر قوة وتمثيل أفضل للميزات.
  • نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، والموارد الشاملة، وتكامل Ultralytics HUB لـ MLOps، ودعم مجتمعي قوي.
  • متطلبات ذاكرة أقل: بالمقارنة مع النماذج القائمة على المحولات، يتطلب YOLOv9 عادةً ذاكرة أقل بكثير أثناء التدريب والاستدلال، مما يجعله في متناول المستخدمين ذوي الأجهزة المحدودة.
  • تنوع الاستخدامات: في حين أن الورقة الأصلية تركز على الكشف عن الكائنات، إلا أن البنية تدعم مهامًا متعددة مثل تجزئة المثيلات، بما يتماشى مع إمكانات المهام المتعددة لنماذج Ultralytics الأخرى مثل YOLOv8.

نقاط الضعف:

  • الجدة: كنموذج أحدث، قد يكون عدد أمثلة النشر التي يقودها المجتمع أصغر من النماذج الراسخة منذ فترة طويلة، على الرغم من أن تكاملها داخل Ultralytics يسرع التبني بسرعة.

حالات الاستخدام المثالية

يعد YOLOv9 مناسبًا تمامًا للتطبيقات التي تتطلب دقة عالية وكفاءة في الوقت الفعلي:

تعرف على المزيد حول YOLOv9

RTDETRv2: كشف في الوقت الحقيقي مع التركيز على الدقة

RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار الثاني) هو نموذج مصمم للتطبيقات التي تتطلب دقة عالية في الكشف عن الكائنات في الوقت الحقيقي، مع الاستفادة من قوة معماريات المحولات.

البنية والميزات الرئيسية

تم بناء بنية RTDETRv2 على محولات الرؤية (ViT)، مما يسمح لها بالتقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. يتيح هذا النهج القائم على المحولات استخراج ميزات فائقة مقارنة بـ الشبكات العصبية الالتفافية (CNNs) التقليدية، مما يؤدي إلى دقة أعلى، خاصة في المشاهد المعقدة ذات العلاقات المتشابكة بين الكائنات.

نقاط القوة والضعف

نقاط القوة:

  • دقة عالية: توفر بنية Transformer دقة ممتازة في الكشف عن الكائنات، مما يجعلها خيارًا قويًا للمهام التي تركز على الدقة.
  • استخلاص ميزات قوي: يلتقط السياق العام والتبعيات بعيدة المدى في الصور بشكل فعال.
  • إمكانية التشغيل في الوقت الفعلي: يحقق سرعات استدلال تنافسية مناسبة للتطبيقات في الوقت الفعلي، شريطة توفر الأجهزة المناسبة.

نقاط الضعف:

  • طلب أعلى على الموارد: تحتوي نماذج RTDETRv2 على عدد معلمات وعمليات فاصلة عائمة في الثانية (FLOPs) أعلى بشكل ملحوظ، مما يتطلب المزيد من القوة الحسابية والذاكرة.
  • استدلال أبطأ: أبطأ بشكل عام من YOLOv9، خاصة على الأجهزة التي لا تحتوي على وحدة معالجة الرسوميات (GPU) أو الأجهزة الأقل قوة.
  • استخدام عالٍ للذاكرة: من المعروف أن هياكل المحولات تستهلك الكثير من الذاكرة، خاصة أثناء التدريب، الأمر الذي يتطلب غالبًا ذاكرة CUDA عالية ويمكن أن يكون عائقًا أمام العديد من المستخدمين.
  • أقل تنوعًا: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى تنوع المهام المتعددة المدمج في النماذج الموجودة في نظام Ultralytics البيئي.
  • التعقيد: يمكن أن يكون تدريبها وضبطها ونشرها أكثر تعقيدًا مقارنة بنماذج Ultralytics YOLO المبسطة وسهلة الاستخدام.

حالات الاستخدام المثالية

يُعد RTDETRv2 الأنسب للسيناريوهات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي والموارد الحسابية ليست قيدًا كبيرًا:

  • التصوير الطبي: تحليل الفحوصات الطبية المعقدة حيث تكون الدقة بالغة الأهمية للتشخيص.
  • صور الأقمار الصناعية: اكتشاف الأجسام الصغيرة أو المخفية في صور الأقمار الصناعية عالية الدقة.
  • البحث العلمي: يستخدم في البيئات البحثية حيث يتم إعطاء الأولوية لأداء النموذج على كفاءة النشر.

تعرف على المزيد حول RT-DETR

مقارنة أداء مباشرة: YOLOv9 ضد RTDETRv2

يقدم الجدول التالي مقارنة تفصيلية للأداء بين أحجام مختلفة من نماذج YOLOv9 و RTDETRv2 على مجموعة بيانات COCO val.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

من البيانات، تظهر العديد من الرؤى الرئيسية:

  • ذروة الدقة: تحقق YOLOv9-E أعلى قيمة mAP تبلغ 55.6٪، متجاوزة جميع النماذج الأخرى في المقارنة.
  • الكفاءة: عند مقارنة النماذج ذات الدقة المتقاربة، يُظهر YOLOv9 باستمرار كفاءة فائقة. على سبيل المثال، YOLOv9-C (53.0 mAP) أسرع ويتطلب عددًا أقل بكثير من المعلمات (25.3 مليون مقابل 42 مليون) وعمليات الفاصلة العائمة في الثانية (FLOPs) (102.1 مليار مقابل 136 مليار) مقارنةً بـ RTDETRv2-L (53.4 mAP).
  • السرعة: توفر نماذج YOLOv9 عمومًا سرعات استدلال أسرع على وحدة معالجة الرسوميات GPU مع TensorRT. نموذج YOLOv9-C أسرع بشكل ملحوظ من RTDETRv2-L المماثل.

الخلاصة: أي نموذج يجب أن تختاره؟

بالنسبة للغالبية العظمى من التطبيقات الواقعية، يعد YOLOv9 هو الخيار الموصى به. فهو يوفر مزيجًا فائقًا من الدقة والسرعة والكفاءة. تضمن بنيته المبتكرة أداءً متطورًا مع مراعاة الموارد الحسابية. المزايا الرئيسية لاختيار YOLOv9، خاصة داخل إطار عمل Ultralytics، هي سهولة الاستخدام ومتطلبات الذاكرة المنخفضة والتنوع عبر مهام متعددة والدعم القوي لنظام بيئي مُدار بشكل جيد.

RTDETRv2 هو نموذج قوي للتطبيقات المتخصصة حيث تكون الدقة هي الأولوية المطلقة وتكون التكاليف الحسابية والذاكرة الأعلى مقبولة. ومع ذلك، فإن تعقيده وطبيعته كثيفة الاستهلاك للموارد تجعله أقل عملية للنشر على نطاق واسع مقارنة بـ YOLOv9 المحسن للغاية وسهل الاستخدام.

نماذج أخرى يجب أخذها في الاعتبار

إذا كنت تستكشف خيارات مختلفة، فقد تكون مهتمًا أيضًا بنماذج أخرى حديثة متاحة في نظام Ultralytics البيئي:

  • Ultralytics YOLO11: أحدث وأكثر النماذج تقدمًا من Ultralytics، يتجاوز حدود السرعة والدقة بشكل أكبر.
  • Ultralytics YOLOv8: نموذج ناضج وشائع للغاية معروف بتوازنه الاستثنائي بين الأداء والتنوع عبر مجموعة واسعة من مهام الرؤية.
  • YOLOv5: نموذج قياسي في الصناعة، مشهور بموثوقيته وسرعته وسهولة نشره، خاصة على الأجهزة الطرفية.


📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات