تخطي إلى المحتوى

RTDETRv2 مقارنة بـ YOLOv10: مقارنة تقنية لكشف الأجسام

يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين المفاضلات المعقدة بين الدقة والسرعة والتكلفة الحسابية. تتعمق هذه المقارنة في نموذجين حديثين: RTDETRv2، وهي بنية قائمة على المحولات (transformers) معروفة بدقتها العالية، و YOLOv10، وهو أحدث تطور في سلسلة YOLO عالية الكفاءة. سنقدم تحليلًا متعمقًا لبنيتهما ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج الأمثل لمشروع الرؤية الحاسوبية الخاص بك.

RTDETRv2: كشف عالي الدقة يعتمد على المحولات

RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو نموذج متقدم للكشف عن الكائنات من Baidu يعطي الأولوية للدقة القصوى من خلال الاستفادة من بنية تعتمد على المحولات. وهو يعتمد على RT-DETR الأصلي، ويقدم تحسينات لزيادة تعزيز أدائه.

البنية والميزات

تم بناء جوهر RTDETRv2 على العمود الفقري لمحول الرؤية (ViT). على عكس شبكات CNN التقليدية التي تعالج الصور من خلال مجالات استقبال محلية، تستخدم بنية المحولات آليات الانتباه الذاتي لوزن أهمية جميع ميزات الإدخال بالنسبة لبعضها البعض. يتيح ذلك لـ RTDETRv2 التقاط السياق العام والتبعيات طويلة المدى داخل الصورة، مما يؤدي إلى أداء فائق في المشاهد المعقدة ذات الكائنات الصغيرة أو المحجوبة. يركز تصميم النموذج على تجاوز حدود الدقة مع محاولة الحفاظ على إمكانات الوقت الفعلي.

مقاييس الأداء

كما هو موضح في جدول الأداء أدناه، تحقق نماذج RTDETRv2 درجات mAP عالية. على سبيل المثال، تصل RTDETRv2-x إلى 54.3 mAP على مجموعة بيانات COCO. ومع ذلك، تأتي هذه الدقة العالية بتكلفة. النماذج القائمة على المحولات مكثفة حسابيًا بشكل ملحوظ، مما يؤدي إلى زمن انتقال استنتاجي أعلى، وبصمة ذاكرة أكبر، ومتطلبات تدريب أكثر تطلبًا بشكل ملحوظ. غالبًا ما تتطلب عملية التدريب لنماذج مثل RTDETRv2 ذاكرة CUDA كبيرة وأوقات تدريب أطول مقارنة بالبنى الأكثر كفاءة مثل YOLO.

نقاط القوة والضعف

نقاط القوة:

  • دقة عالية: يتفوق في اكتشاف الكائنات في المشاهد المعقدة والمزدحمة نظرًا لقدرته على نمذجة السياق العام.
  • تمثيل ميزات قوي: يمكن للعمود الفقري المحوّل تعلم ميزات قوية ومتينة، مما يجعله فعالاً لمهام الكشف الصعبة.

نقاط الضعف:

  • تكلفة حسابية عالية: يتطلب المزيد من العمليات الحسابية (FLOPs) والمعلمات، مما يؤدي إلى سرعات استدلال أبطأ مقارنةً بـ YOLOv10.
  • بصمة ذاكرة كبيرة: تتطلب نماذج المحولات ذاكرة CUDA كبيرة أثناء التدريب والاستدلال، مما يجعل من الصعب نشرها على الأجهزة ذات الموارد المحدودة.
  • تدريب أبطأ: يؤدي تعقيد البنية إلى دورات تدريب أطول.
  • أقل تنوعًا: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى الدعم المدمج للمهام الأخرى مثل التجزئة وتقدير الوضع والتصنيف الموجود في أطر عمل مثل Ultralytics YOLO.

التطبيقات المثالية

يُعد RTDETRv2 الأنسب للتطبيقات التي تكون فيها الدقة ذات أهمية قصوى والموارد الحسابية ليست قيدًا أساسيًا. تتضمن حالات الاستخدام النموذجية ما يلي:

تعرف على المزيد حول RTDETRv2

YOLOv10: كشف عالي الكفاءة في الوقت الحقيقي

YOLOv10، الذي طوره باحثون في جامعة Tsinghua، هو أحدث تطور في عائلة YOLO، المشهورة بسرعتها وكفاءتها الاستثنائية في الكشف عن الأجسام في الوقت الفعلي. إنه مصمم للنشر من طرف إلى طرف، مما يزيد من دفع حدود الأداء والكفاءة.

البنية والميزات

يعتمد YOLOv10 على نموذج الكشف أحادي المرحلة الناجح للإصدارات السابقة مثل Ultralytics YOLOv8. أحد الابتكارات البارزة هو استراتيجية التدريب الخالية من NMS، والتي تستخدم تعيينات مزدوجة متسقة لإزالة الحاجة إلى المعالجة اللاحقة Non-Maximum Suppression (NMS). يعمل هذا الابتكار على تبسيط خط أنابيب النشر ويقلل بشكل كبير من زمن انتقال الاستدلال.

الأهم من ذلك، تم دمج YOLOv10 في نظام Ultralytics البيئي، مما يمنح المستخدمين تجربة سلسة. يتضمن ذلك واجهة برمجة تطبيقات بسيطة و وثائق شاملة والوصول إلى مجتمع نابض بالحياة وأدوات قوية مثل Ultralytics HUB لـ MLOps.

تحليل الأداء

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20.0 60.0
RTDETRv2-m 640 51.9 - 7.51 36.0 100.0
RTDETRv2-l 640 53.4 - 9.76 42.0 136.0
RTDETRv2-x 640 54.3 - 15.03 76.0 259.0
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.20 56.9 160.4

يوضح جدول الأداء بوضوح تفوق YOLOv10 في الكفاءة. تحقق YOLOv10x قيمة mAP أعلى قليلاً (54.4) من RTDETRv2-x (54.3) ولكن مع معلمات أقل بنسبة 25٪ و عمليات فاصلة عائمة أقل بنسبة 38٪. ميزة سرعة الاستدلال مهمة أيضًا، حيث أن YOLOv10x أسرع بنسبة 23٪ على وحدة معالجة الرسوميات T4. تعتبر نماذج YOLOv10 الأصغر في فئة خاصة بها من حيث السرعة، حيث تعمل YOLOv10n بسرعة 1.56 مللي ثانية فقط. هذا التوازن الرائع بين السرعة والدقة يجعل YOLOv10 خيارًا أكثر عملية لمجموعة واسعة من التطبيقات.

نقاط القوة والضعف

نقاط القوة:

  • سرعة وكفاءة استثنائيتان: مُحسَّن للاستدلال السريع والتكلفة الحسابية المنخفضة، مما يجعله مثاليًا للأنظمة في الوقت الفعلي و الذكاء الاصطناعي الطرفي.
  • توازن أداء ممتاز: يوفر توازنًا حديثًا بين السرعة والدقة عبر جميع أحجام النماذج.
  • متطلبات ذاكرة أقل: يتطلب ذاكرة CUDA أقل بكثير للتدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2، مما يجعله أكثر سهولة للمطورين الذين ليس لديهم أجهزة متطورة.
  • سهولة الاستخدام: يستفيد من نظام Ultralytics البيئي المُدار جيدًا، والذي يتميز بـ Python API بسيط، ووثائق شاملة، وتجربة مستخدم مبسطة.
  • تدريب فعال: يوفر أوزانًا مُدرَّبة مسبقًا متاحة بسهولة وعمليات تدريب فعالة، مما يتيح دورات تطوير أسرع.
  • تصميم خالٍ من NMS: يتيح النشر الحقيقي الشامل ويقلل من الحمل الزائد للمعالجة اللاحقة.

نقاط الضعف:

  • المفاضلة في الدقة (النماذج الأصغر): تعطي أصغر متغيرات YOLOv10 الأولوية للسرعة، مما قد يؤدي إلى دقة أقل من أكبر نماذج RTDETRv2 في السيناريوهات التي تتطلب أقصى قدر من الدقة المطلقة.

حالات الاستخدام المثالية

تجعل سرعة وكفاءة YOLOv10 منه خيارًا ممتازًا للتطبيقات في الوقت الفعلي والنشر على الأجهزة ذات الموارد المحدودة.

تعرف على المزيد حول YOLOv10

الخلاصة

يعتبر كل من RTDETRv2 و YOLOv10 من نماذج الكشف عن الأجسام القوية، لكنهما يخدمان أولويات مختلفة. RTDETRv2 هو الخيار الأمثل للتطبيقات المتخصصة حيث يكون تحقيق أعلى دقة ممكنة هو الهدف الوحيد، وتتوفر موارد حسابية وافرة. تتفوق بنية المحولات الخاصة به في فهم المشاهد المعقدة ولكن على حساب تعقيد النموذج وسرعة الاستدلال واستخدام الذاكرة العالي.

في المقابل، يقدم YOLOv10 حلاً أكثر توازناً وعملية للغالبية العظمى من السيناريوهات الواقعية. فهو يوفر مزيجًا فائقًا من السرعة والكفاءة والدقة، مما يجعله منافسًا للغاية حتى في أعلى مستويات الأداء. بفضل تكامله داخل نظام Ultralytics البيئي القوي، يستفيد YOLOv10 من سهولة الاستخدام التي لا مثيل لها، والدعم الشامل، ومتطلبات الذاكرة المنخفضة، وسير عمل التدريب الفعال. بالنسبة للمطورين والباحثين الذين يبحثون عن نموذج عالي الأداء وفعال من حيث الموارد وسهل النشر، فإن YOLOv10 هو الخيار الواضح.

قد يفكر المستخدمون المهتمون بنماذج أخرى عالية الأداء أيضًا في استكشاف Ultralytics YOLO11 للحصول على أحدث التطورات أو YOLOv8 للحصول على خيار ناضج ومتعدد الاستخدامات. لمزيد من المقارنات، راجع مقالاتنا حول YOLOv10 مقابل YOLOv8 و RT-DETR مقابل YOLO11.



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات