تخطي إلى المحتوى

YOLOv10 ضد RT-DETRv2: مقارنة فنية للكشف عن الكائنات

يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا يوازن بين الدقة والسرعة والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين حديثين: YOLOv10، وهو أحدث تطور في عائلة YOLO عالية الكفاءة، و RT-DETRv2، وهو نموذج قائم على المحولات يركز على الدقة العالية. سنقوم بتحليل بنياتهما وقياسات الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشروعك، مع تسليط الضوء على سبب كون YOLOv10 هو الخيار الأفضل لمعظم التطبيقات الواقعية.

YOLOv10: كاشف عالي الكفاءة في الوقت الحقيقي

YOLOv10 (أنت تنظر مرة واحدة فقط v10) هو أحدث تطور في عائلة YOLO، تم تطويره بواسطة باحثين في جامعة تسينغ هوا. تشتهر بسرعتها وكفاءتها الاستثنائية في الكشف عن الأجسام، مما يجعلها خيارًا رئيسيًا للتطبيقات في الوقت الفعلي.

تعرف على المزيد حول YOLOv10

البنية والميزات الرئيسية

يعتمد YOLOv10 على إرث نماذج Ultralytics YOLO السابقة مثل YOLOv8 من خلال تقديم ابتكارات معمارية كبيرة لتحقيق كفاءة شاملة. ومن أبرز الميزات التدريب الخالي من NMS، والذي يستخدم تعيينات مزدوجة متسقة لإزالة الحاجة إلى المعالجة اللاحقة Non-Maximum Suppression (NMS). يقلل هذا الابتكار من زمن انتقال الاستدلال ويبسط خط أنابيب النشر.

يتميز النموذج أيضًا بتصميم شامل مدفوع بالكفاءة والدقة، وتحسين المكونات مثل رأس التصنيف خفيف الوزن وتقليل أخذ العينات المكاني والقنوات المفصول. يقلل هذا من التكرار الحسابي ويعزز قدرة النموذج، كل ذلك مع الحفاظ على تصميم خالٍ من المرساة لتحسين التعميم.

الأهم من ذلك، تم دمج YOLOv10 بسلاسة في نظام Ultralytics البيئي. يوفر هذا للمطورين تجربة مستخدم مبسطة و واجهة Python API بسيطة و وثائق شاملة ومجتمع قوي. يبسط هذا النظام البيئي كل شيء بدءًا من التدريب وحتى النشر.

تحليل الأداء

يضع YOLOv10 معيارًا جديدًا للموازنة بين السرعة والدقة. كما هو موضح في جدول الأداء، تتفوق نماذج YOLOv10 باستمرار على RT-DETRv2 في السرعة مع تقديم دقة مماثلة أو فائقة مع عدد أقل بكثير من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs). على سبيل المثال، يحقق YOLOv10-S نسبة mAP تبلغ 46.7٪ مع 7.2 مليون معلمة فقط ووقت استجابة سريع للغاية يبلغ 2.66 مللي ثانية، مما يجعله أكثر كفاءة من RT-DETRv2-S الأكبر. حتى النموذج الأكبر، YOLOv10-X، يحقق أعلى نسبة mAP تبلغ 54.4٪ مع كونه أسرع وأخف وزنًا من RT-DETRv2-X.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

نقاط القوة والضعف

نقاط القوة:

  • سرعة وكفاءة استثنائيتان: مُحسَّن للاستدلال السريع والتكلفة الحسابية المنخفضة، وهو أمر بالغ الأهمية للأنظمة في الوقت الفعلي و الذكاء الاصطناعي الطرفي.
  • توازن أداء فائق: يحقق مقايضة ممتازة بين السرعة والدقة عبر أحجام النماذج القابلة للتطوير (n, s, m, b, l, x).
  • متطلبات ذاكرة أقل: يتطلب ذاكرة CUDA أقل بكثير أثناء التدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RT-DETRv2، مما يجعله أكثر سهولة.
  • سهولة الاستخدام: يستفيد من نظام Ultralytics البيئي المُدار جيدًا، بما في ذلك واجهة برمجة تطبيقات (API) بسيطة، ووثائق شاملة، وأوزان مُدرَّبة مسبقًا متاحة بسهولة، وعمليات تدريب فعالة.
  • تصميم خالٍ من NMS: يتيح النشر الحقيقي الشامل ويقلل من زمن الوصول للاستدلال.

نقاط الضعف:

  • المفاضلة في الدقة (النماذج الأصغر): تعطي أصغر متغيرات YOLOv10 الأولوية للسرعة وقد تكون دقتها أقل من أكبر نماذج RT-DETRv2، على الرغم من أنها تظل قادرة على المنافسة بدرجة كبيرة بالنسبة لحجمها.

حالات الاستخدام المثالية

تجعل سرعة وكفاءة YOLOv10 منه خيارًا ممتازًا لمجموعة واسعة من التطبيقات:

  • المراقبة في الوقت الفعلي: للكشف السريع عن الكائنات في أنظمة الأمان، كما هو الحال في منع السرقة.
  • Edge AI: مثالي للنشر على الأجهزة المحمولة والمدمجة وأجهزة إنترنت الأشياء مثل NVIDIA Jetson.
  • تحليلات البيع بالتجزئة: لتحليل العملاء والمخزون في الوقت الفعلي في بيئات البيع بالتجزئة.
  • إدارة حركة المرور: للكشف الفعال عن المركبات و تحليل حركة المرور.

RT-DETRv2: كشف عالي الدقة يعتمد على المحولات

RT-DETRv2 (محول الكشف في الوقت الحقيقي الإصدار الثاني) هو نموذج متقدم للكشف عن الكائنات من Baidu يعطي الأولوية للدقة العالية من خلال الاستفادة من بنية المحولات.

تعرف على المزيد حول RT-DETRv2

البنية والميزات الرئيسية

يعتمد RT-DETRv2 على إطار عمل DETR (DEtection TRansformer)، الذي يستخدم آليات الانتباه الذاتي لالتقاط السياق العالمي داخل الصورة. يتيح ذلك للنموذج التفوق في فهم المشاهد المعقدة التي تحتوي على العديد من الأجسام المتداخلة، مما يساهم في دقته العالية. جوهر بنيته هو العمود الفقري Vision Transformer (ViT)، الذي يعالج الصور كسلسلة من الرقع، مما يجعله قادرًا على نمذجة التبعيات طويلة المدى بشكل فعال.

تحليل الأداء

في حين أن RT-DETRv2 يحقق أعلى درجات mAP مثيرة للإعجاب، إلا أن هذا يأتي بتكلفة كبيرة. يوضح جدول الأداء أن نماذج RT-DETRv2 أبطأ وأكثر تكلفة من الناحية الحسابية من نظيراتها في YOLOv10 عبر جميع الأحجام القابلة للمقارنة. على سبيل المثال، يبلغ زمن انتقال RT-DETRv2-x 15.03 مللي ثانية، وهو أبطأ من 12.2 مللي ثانية لـ YOLOv10-x، على الرغم من حصوله على mAP أقل قليلاً. علاوة على ذلك، من المعروف أن النماذج القائمة على المحولات تتطلب ذاكرة CUDA أكبر بكثير للتدريب، مما يجعلها أقل سهولة في الوصول إليها للمستخدمين ذوي موارد الأجهزة المحدودة.

نقاط القوة والضعف

نقاط القوة:

  • دقة قصوى عالية: تمكنه بنية المحولات (transformer) من تحقيق درجات mAP عالية جدًا، مما يجعله مناسبًا للمهام التي تكون فيها الدقة هي الأولوية المطلقة.
  • فهم سياقي قوي: يتفوق في اكتشاف الكائنات في المشاهد المزدحمة والمعقدة نظرًا لقدرته على معالجة معلومات الصورة العالمية.

نقاط الضعف:

  • زمن انتقال أعلى: سرعات استدلال أبطأ مقارنة بـ YOLOv10 تجعله أقل مثالية للتطبيقات في الوقت الفعلي.
  • تكلفة حسابية عالية: يتطلب المزيد من المعلمات والعمليات الحسابية (FLOPs)، مما يؤدي إلى متطلبات أجهزة أعلى.
  • بصمة ذاكرة كبيرة: يعد تدريب نماذج المحولات مكثفًا للذاكرة، وغالبًا ما يتطلب وحدات معالجة رسومات متطورة.
  • بنية معقدة: يمكن أن يكون فهمها وتعديلها وتحسينها أكثر صعوبة مقارنة بالتصميم المباشر لنماذج YOLO.

حالات الاستخدام المثالية

يعتبر RT-DETRv2 الأنسب للتطبيقات المتخصصة وغير الآنية حيث تكون الدقة ذات أهمية قصوى والموارد الحسابية ليست قيدًا كبيرًا.

الخلاصة

يعتبر كل من YOLOv10 و RT-DETRv2 من النماذج القوية، لكنهما يلبيان أولويات مختلفة. RT-DETRv2 هو الخيار الأمثل للتطبيقات التي تتطلب أعلى دقة ممكنة، شريطة توفر موارد حسابية كافية. يتفوق تصميم المحولات الخاص به في التقاط سياق المشهد المعقد ولكن على حساب زيادة التعقيد وزيادة زمن الوصول واستخدام الذاكرة.

في المقابل، يقدم YOLOv10 توازنًا فائقًا في السرعة والكفاءة والدقة، مما يجعله الخيار الموصى به للغالبية العظمى من المطورين والباحثين. إنه يتفوق في الأداء في الوقت الفعلي، ويتطلب عددًا أقل من الموارد الحسابية، ويستفيد من سهولة الاستخدام والدعم الشامل وسير العمل الفعال الذي يوفره نظام Ultralytics البيئي. بالنسبة لمعظم التطبيقات الواقعية، وخاصة تلك التي تتضمن النشر على الحافة أو تتطلب زمن انتقال منخفض، يوفر YOLOv10 حلاً تنافسيًا وعمليًا وسهل الاستخدام للمطورين.

قد يفكر المستخدمون المهتمون بنماذج أخرى عالية الأداء للكشف عن الأجسام أيضًا في استكشاف Ultralytics YOLO11 للحصول على أحدث التطورات أو YOLOv8 للحصول على خيار واسع الانتشار ومتعدد الاستخدامات. لمزيد من المقارنات، راجع مقالاتنا حول YOLOv10 مقابل YOLOv8 و RT-DETR مقابل YOLO11.



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات