تخطي إلى المحتوى

مقارنة بين RTDETRv2 و YOLOv9: مقارنة تقنية لاكتشاف الأجسام

يُعد اختيار النموذج الأمثل للكشف عن الأجسام قرارًا حاسمًا لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج، بما في ذلك سلسلة YOLO المعروفة بالسرعة والكفاءة، وسلسلة RT-DETR التي تركز على الدقة العالية. تقدم هذه الصفحة مقارنة فنية مفصلة بين RTDETRv2 و YOLOv9، وهما نموذجان من أحدث نماذج اكتشاف الأجسام، لمساعدتك في اتخاذ قرار مستنير.

RTDETRv2: محول عالي الدقة يعمل بمحول عالي الدقة

RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متطور للكشف عن الأجسام تم تطويره من قبل Baidu، وهو معروف بدقته الاستثنائية وأدائه في الوقت الحقيقي. تم نشر RTDETRv2 على arXiv بتاريخ 2023-04-17، مع توفر الكود على GitHub، وهو من تأليف كل من Wenyu Lv وYian Zhao وQinyao Chang وKui Huang وGuanzhong Wang وYi Liu. ويستفيد البرنامج من بنية محول الرؤية (ViT) لتحقيق توطين وتصنيف دقيق للأشياء، مما يجعله مناسبًا للتطبيقات الصعبة.

البنية والمميزات الرئيسية

بُنيت بنية RTDETRv2 على محولات الرؤية، مما يمكّنها من التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. ويختلف هذا بشكل كبير عن الشبكات العصبية التلافيفية التقليدية (CNNs) ويسمح لـ RTDETRv2 بموازنة أهمية مناطق الصور المختلفة، مما يؤدي إلى استخراج ميزات محسّنة ودقة فائقة، خاصةً في المشاهد المعقدة. يسمح التصميم القائم على المحول بالكشف الخالي من الارتكاز، مما يبسّط عملية الكشف وربما يحسّن التعميم.

مقاييس الأداء

يُظهر RTDETRRv2 أداءً قويًا، لا سيما في mAP. كما هو مفصّل في جدول المقارنة، يحقق متغير RTDETRTRv2-x أداءً في mAPval50-95 يبلغ 54.3. كما أن سرعات الاستدلال تنافسية أيضًا، حيث تصل سرعات RTDETRRv2-s إلى 5.03 مللي ثانية على TensorRT مما يجعلها قابلة للتطبيق في الوقت الفعلي عند استخدام أجهزة قادرة مثل وحدات معالجة الرسومات NVIDIA T4. للحصول على فهم أعمق لتقييم الأداء، راجع دليل مقاييس أداءYOLO .

نقاط القوة والضعف

نقاط القوة:

  • دقة عالية: توفر بنية المحول دقة ممتازة في اكتشاف الأجسام، وهو أمر بالغ الأهمية للتطبيقات التي تتطلب الدقة.
  • قادرة على العمل في الوقت الحقيقي: يحقق سرعات استدلال تنافسية، خاصةً عند تحسينه باستخدام TensorRT وتشغيله على أجهزة مناسبة.
  • فهم السياق العالمي: تلتقط محولات الرؤية السياق العالمي بفعالية، مما يؤدي إلى اكتشاف قوي في البيئات المعقدة.

نقاط الضعف:

  • حجم نموذج أكبر: تحتوي نماذج RTDETRv2، خاصةً المتغيرات الأكبر مثل RTDETRv2-x، على عدد كبير من المعلمات وعمليات التشغيل المتكررة، مما يتطلب المزيد من الموارد الحاسوبية.
  • قيود سرعة الاستدلال: على الرغم من إمكانية تحقيق الوقت الحقيقي، إلا أن سرعة الاستدلال قد تكون أبطأ من النماذج المحسّنة للغاية القائمة على شبكة CNN مثل YOLOv9، خاصةً على الأجهزة محدودة الموارد.

حالات الاستخدام المثالية

يعتبر RTDETRv2 مناسبًا بشكل مثالي للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتكون الموارد الحسابية متاحة بسهولة. وتشمل هذه التطبيقات:

تعرف على المزيد حول RTDETRV2

YOLOv9: معلومات التدرج القابلة للبرمجة لتحقيق الكفاءة والدقة

YOLOv9(أنت تنظر مرة واحدة فقط 9) هو نموذج متطور للكشف عن الأجسام من عائلة Ultralytics YOLO الشهيرة. تم تقديم YOLOv9 على موقع arXiv بتاريخ 2024-02-21، وهو من تأليف تشين-ياو وانج وهونج-يوان مارك لياو من معهد علوم المعلومات في الأكاديمية الصينية بتايوان، مع توفر الكود على GitHub. يقدم الإصدار YOLOv9 تقنيات معلومات التدرج القابلة للبرمجة (PGI) وتقنيات GELAN، مما يعزز كلاً من الدقة وكفاءة التدريب مقارنةً بإصدارات YOLO السابقة.

البنية والمميزات الرئيسية

يعتمد YOLOv9 على كفاءة نماذج YOLO السابقة مع دمج تحسينات معمارية جديدة. فهو يستخدم GELAN (شبكة تجميع الطبقات المعممة ذات الكفاءة العالية) لتحسين بنية الشبكة وPGI للحفاظ على تكامل معلومات التدرج، ومعالجة فقدان المعلومات أثناء نشر الشبكة العميقة. تؤدي هذه الابتكارات إلى تحسين الدقة وزيادة كفاءة التدريب. يحافظ YOLOv9 على رأس كشف خالٍ من المرساة وتصميم مبسط أحادي المرحلة، مع التركيز على الأداء في الوقت الحقيقي.

مقاييس الأداء

يحقق YOLOv9 توازنًا مقنعًا بين السرعة والدقة. يحقق نموذج YOLOv9-e سرعة mAPval50-95 تبلغ 55.6، متفوقًا بذلك على نماذج RTDETRv2 الأكبر حجمًا في الدقة مع الحفاظ على سرعات استدلال تنافسية. أما متغير YOLOv9-t الأصغر فهو سريع بشكل استثنائي، حيث يصل إلى سرعة استدلال تبلغ 2.3 مللي ثانية على TensorRT مما يجعله مناسبًا للتطبيقات الحساسة للغاية لزمن الاستجابة.

نقاط القوة والضعف

نقاط القوة:

  • دقة وكفاءة عالية: يساهم كل من PGI وGELAN في كل من الدقة العالية والاستخدام الفعال للمعاملات.
  • سرعة استنتاج سريعة: مُحسَّن للأداء في الوقت الفعلي، خاصةً المتغيرات الأصغر حجمًا المناسبة للنشر على الحافة.
  • التدريب الفعال: تساهم PGI في عمليات تدريب أكثر استقراراً وفعالية.

نقاط الضعف:

  • سياق عالمي أقل: قد تكون البنية القائمة على شبكة CNN أقل فعالية في التقاط التبعيات بعيدة المدى مقارنةً بالنماذج القائمة على المحولات في المشاهد المعقدة للغاية.
  • مقايضة الدقة بالسرعة: على الرغم من الدقة العالية، إلا أن تحقيق أعلى سرعات استنتاج قد ينطوي على استخدام نماذج أصغر بدقة أقل قليلاً مقارنةً بالنماذج الأكبر.

حالات الاستخدام المثالية

يعد YOLOv9 مناسبًا تمامًا للتطبيقات التي تتطلب توازنًا بين الدقة العالية والأداء في الوقت الفعلي، خاصةً في البيئات محدودة الموارد:

اعرف المزيد عن YOLOv9

جدول مقارنة النماذج

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4TensorRT10
(مللي ثانية)
بارامز
(م)

(ب)
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
يولوف 9 م 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
يولوف 9 هـ 640 55.6 - 16.77 57.3 189.0

الخاتمة

يُعدّ كل من RTDETRv2 و YOLOv9 نموذجين قويين للكشف عن الأجسام، ولكل منهما نقاط قوة فريدة. يتفوق RTDETRRv2 في السيناريوهات التي تعطي الأولوية لأقصى قدر من الدقة والاستفادة من بنية المحولات لاستخراج الميزات القوية، وهو مناسب للتطبيقات ذات الموارد الحاسوبية الوفيرة. من ناحية أخرى، يُعد YOLOv9 مثاليًا عندما يكون الأداء والكفاءة في الوقت الحقيقي أمرًا بالغ الأهمية، حيث يوفر مزيجًا مقنعًا من الدقة والسرعة، وهو مفيد بشكل خاص للنشر على الأجهزة المتطورة والأنظمة الحساسة لوقت الاستجابة.

بالنسبة للمستخدمين المهتمين باستكشاف نماذج أخرى، تقدم Ultralytics مجموعة واسعة من الخيارات، بما في ذلك:

  • YOLOv8: الجيل السابق Ultralytics YOLOv8 الذي يوفر توازناً بين السرعة والدقة.
  • YOLO11: لتحسين الكفاءة والسرعة، خذ بعين الاعتبار YOLO11.
  • FastSAM MobileSAM: بالنسبة لمهام تجزئة المثيل في الوقت الحقيقي، استكشف FastSAM و MobileSAM.

يعتمد الاختيار بين RTDETRv2 و YOLOv9 ونماذج Ultralytics الأخرى على الاحتياجات المحددة لمشروعك، مع مراعاة التوازن بين الدقة والسرعة والموارد المتاحة بعناية. ارجع إلى وثائقUltralytics ومستودعUltralytics GitHub للحصول على تفاصيل شاملة وأدلة التنفيذ.

التعليقات

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات