تخطي إلى المحتوى

RTDETRv2 مقابل YOLO11: مقارنة فنية

يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يؤثر بشكل مباشر على الأداء والكفاءة وقابلية التوسع في أي مشروع رؤية حاسوبية. تقدم هذه الصفحة مقارنة فنية مفصلة بين بنيتين قويتين: RTDETRv2، وهو نموذج قائم على المحولات من Baidu، و Ultralytics YOLO11، أحدث نموذج متطور في سلسلة YOLO الشهيرة. سوف نتعمق في الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في تحديد النموذج الأفضل الذي يناسب احتياجاتك.

RTDETRv2: الجيل الثاني من المحولات للكشف في الوقت الحقيقي

RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات تم تطويره بواسطة باحثين في Baidu. وهو يستفيد من بنية محول الرؤية (ViT) لتحقيق دقة عالية، خاصة في المشاهد المعقدة. وهو يمثل خطوة مهمة في جعل النماذج القائمة على المحولات قابلة للتطبيق في التطبيقات في الوقت الفعلي.

المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: Baidu
التاريخ: 2023-04-17 (RT-DETR الأولي)، 2024-07-24 (تحسينات RTDETRv2)
Arxiv: https://arxiv.org/abs/2304.08069، https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

البنية والميزات الرئيسية

يستخدم RTDETRv2 تصميمًا هجينًا، يجمع بين CNN تقليدي كعمود فقري لاستخراج الميزات بكفاءة مع وحدة ترميز وفك ترميز قائمة على المحولات. يكمن الابتكار الأساسي في استخدامه لـ آليات الانتباه الذاتي، والتي تسمح للنموذج بالتقاط العلاقات العامة بين أجزاء مختلفة من الصورة. يساعد فهم السياق العام هذا على تحسين دقة الكشف، خاصة بالنسبة للأجسام المحجوبة أو المعبأة بكثافة. باعتباره كاشفًا خاليًا من المرساة، فإنه يبسط مسار الكشف عن طريق إلغاء الحاجة إلى مربعات مرساة محددة مسبقًا.

نقاط القوة

  • دقة عالية: تمكّن بنية Transformer نموذج RTDETRv2 من تحقيق نتائج ممتازة في متوسط الدقة (mAP)، وغالبًا ما يتفوق في المعايير الأكاديمية المعقدة.
  • فهم السياق الشامل: تؤدي قدرته على معالجة سياق الصورة بأكمله إلى أداء قوي في المشاهد ذات التفاعلات المعقدة بين الكائنات.
  • الوقت الفعلي على GPU: عند التحسين باستخدام أدوات مثل NVIDIA TensorRT، يمكن لـ RTDETRv2 تحقيق سرعات في الوقت الفعلي على وحدات معالجة الرسوميات GPU المتطورة.

نقاط الضعف

  • تكلفة حسابية عالية: نماذج المحولات تستهلك موارد بشكل كبير. يحتوي RTDETRv2 على عدد كبير من المعلمات والعمليات الحسابية (FLOPs)، مما يتطلب وحدات معالجة رسومات (GPUs) قوية لكل من التدريب والاستدلال.
  • استخدام مكثف للذاكرة: يتطلب تدريب RTDETRv2 ذاكرة CUDA أكبر بكثير مقارنة بالنماذج القائمة على CNN مثل YOLO11، مما يجعله غير متاح للمستخدمين ذوي الأجهزة المحدودة.
  • تدريب أبطأ: يؤدي تعقيد بنية المحولات إلى أوقات تدريب أطول.
  • نظام بيئي محدود: على الرغم من كونه مساهمة بحثية قوية، إلا أنه يفتقر إلى النظام البيئي الشامل وسهل الاستخدام والوثائق الشاملة ودعم المجتمع النشط الذي توفره Ultralytics.

حالات الاستخدام المثالية

يُعد RTDETRv2 الأنسب للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي والموارد الحسابية ليست قيدًا.

  • القيادة الذاتية: لأنظمة الإدراك في السيارات ذاتية القيادة حيث الدقة هي الأهم.
  • الروبوتات المتقدمة: تمكين الروبوتات من التنقل والتفاعل مع البيئات الديناميكية المعقدة، وهو جانب رئيسي من دور الذكاء الاصطناعي في الروبوتات.
  • تحليل صور الأقمار الصناعية: تحليل الصور عالية الدقة حيث يكون فهم السياق العالمي أمرًا بالغ الأهمية للكشف الدقيق.

تعرف على المزيد حول RTDETR

Ultralytics YOLO11: قمة السرعة والتنوع

Ultralytics YOLO11 هو أحدث تطور في سلسلة اكتشاف الكائنات الأكثر شعبية في العالم. تم تأليفه بواسطة Glenn Jocher و Jing Qiu في Ultralytics، وهو يعتمد على إرث سابقاته مثل YOLOv8 لتقديم مزيج لا مثيل له من السرعة والدقة وسهولة الاستخدام.

المؤلفون: جلين جوتشر، جينغ تشيو
المنظمة: Ultralytics
التاريخ: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
المستندات: https://docs.ultralytics.com/models/yolo11/

البنية والميزات الرئيسية

يتميز YOLO11 ببنية CNN أحادية المرحلة مُحسَّنة للغاية. يركز تصميمه على الكفاءة، مع شبكة مبسطة تقلل من عدد المعلمات والحمل الحسابي دون التضحية بالدقة. هذا يجعل YOLO11 سريعًا بشكل استثنائي ومناسبًا لمجموعة واسعة من الأجهزة، من الأجهزة الطرفية ذات الموارد المحدودة إلى الخوادم السحابية القوية.

تكمن القوة الحقيقية لـ YOLO11 في تنوعها والنظام البيئي القوي الذي تسكنه. إنه نموذج متعدد المهام قادر على أداء اكتشاف الكائنات، و تقسيم المثيلات، و تصنيف الصور، و تقدير الوضعية، واكتشاف الصندوق المحيط الموجه (OBB) ضمن إطار عمل موحد واحد.

نقاط القوة

  • توازن أداء استثنائي: يوفر YOLO11 حلاً وسطًا حديثًا بين السرعة والدقة، مما يجعله عمليًا للغاية للتطبيقات الواقعية.
  • سهولة الاستخدام: بفضل واجهة برمجة تطبيقات Python بسيطة و CLI و وثائق شاملة وعدد لا يحصى من الدروس التعليمية، فإن البدء في استخدام YOLO11 أمر في غاية السهولة.
  • نظام بيئي مُدار بشكل جيد: يتم دعم YOLO11 من خلال التطوير النشط لـ Ultralytics، والدعم المجتمعي القوي، والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps شامل.
  • كفاءة التدريب والذاكرة: يتدرب YOLO11 بشكل أسرع بكثير ويتطلب ذاكرة أقل بكثير من النماذج القائمة على المحولات مثل RTDETRv2، مما يجعله في متناول جمهور أوسع من المطورين والباحثين.
  • تنوع الاستخدامات: إن قدرته على التعامل مع مهام رؤية متعددة في نموذج واحد يوفر حلاً شاملاً لا يمكن للمنافسين مثل RTDETRv2، الذي يركز فقط على الاكتشاف، مطابقته.
  • مرونة النشر: تم تحسين YOLO11 للتصدير إلى تنسيقات مختلفة مثل ONNX و TensorRT، مما يضمن نشرًا سلسًا عبر منصات CPU و GPU والحافة.

نقاط الضعف

  • في حين أنها عالية الدقة، قد تتفوق نماذج YOLO11 الأكبر حجمًا بشكل طفيف على أكبر نماذج RTDETRv2 في mAP في بعض المعايير الأكاديمية، على الرغم من أن هذا غالبًا ما يأتي بتكلفة باهظة من حيث السرعة والموارد.

حالات الاستخدام المثالية

يتفوق YOLO11 في أي تطبيق تقريبًا يتطلب نموذج رؤية سريع ودقيق وموثوق.

تعرف على المزيد حول YOLO11

مقارنة أداء مباشرة: الدقة والسرعة

عند مقارنة الأداء، من الواضح أن كلا النموذجين يتمتعان بقدرات عالية، لكنهما يخدمان أولويات مختلفة. يسعى RTDETRv2 لتحقيق أقصى قدر من الدقة، ولكن هذا يأتي على حساب زيادة زمن الوصول ومتطلبات الموارد. في المقابل، تم تصميم Ultralytics YOLO11 لتحقيق التوازن الأمثل.

يوضح الجدول أدناه أنه في حين أن RTDETRv2-x تحقق mAP تنافسيًا، فإن نموذج YOLO11x يتفوق عليه مع عدد أقل من المعلمات وعمليات الفاصلة العائمة في الثانية FLOPs. والأهم من ذلك، تُظهر نماذج YOLO11 سرعات استدلال فائقة للغاية، خاصةً على وحدة المعالجة المركزية CPU، وهي أسرع بشكل ملحوظ على وحدة معالجة الرسوميات GPU عبر جميع أحجام النماذج. على سبيل المثال، تتطابق YOLO11l مع دقة RTDETRv2-l ولكنها أسرع بأكثر من 1.5 مرة على وحدة معالجة الرسوميات T4. هذه الكفاءة تجعل YOLO11 خيارًا أكثر عملية لبيئات الإنتاج.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

التدريب وسهولة الاستخدام والنظام البيئي

بالإضافة إلى الأداء الخام، تعتبر تجربة المطور عاملاً حاسماً. يمكن أن يكون تدريب نموذج مثل RTDETRv2 مهمة معقدة وتتطلب الكثير من الموارد، وغالبًا ما تتطلب خبرة عميقة وأجهزة قوية. يتركز نظامه البيئي بشكل أساسي حول مستودع GitHub الخاص به، والذي، على الرغم من قيمته للبحث، يفتقر إلى الدعم الشامل لإطار عمل كامل.

في تناقض صارخ، يقدم Ultralytics YOLO11 تجربة مبسطة وسهلة الوصول بشكل استثنائي. عملية التدريب فعالة وموثقة جيدًا وتتطلب ذاكرة أقل بكثير، مما يفتح الباب للمستخدمين الذين لديهم أجهزة أكثر تواضعًا. يوفر نظام Ultralytics البيئي حلاً كاملاً، بدءًا من الإعداد والتدريب السهلين وحتى التحقق من الصحة والنشر وإدارة MLOps باستخدام Ultralytics HUB. يعمل هذا النهج الشامل على تسريع دورات التطوير ويقلل من حاجز الدخول لإنشاء حلول ذكاء اصطناعي قوية.

الخلاصة: أي نموذج يجب أن تختاره؟

يُعد RTDETRv2 إنجازًا أكاديميًا مثيرًا للإعجاب، حيث يعرض إمكانات المحولات (Transformers) في الكشف عن الأجسام بدقة عالية. وهو خيار مناسب للمشاريع التي تركز على البحث حيث تكون التكلفة الحسابية ثانوية لتحقيق أعلى قيمة ممكنة لـ mAP على مجموعات بيانات معينة ومعقدة.

ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية، فإن Ultralytics YOLO11 هو الفائز الواضح. فهو يوفر مزيجًا فائقًا من السرعة والدقة والكفاءة لا مثيل له في هذا المجال. إن تنوعه عبر مهام متعددة، جنبًا إلى جنب مع نظام بيئي سهل الاستخدام ويحظى بصيانة جيدة، يجعله الخيار الأكثر عملية وإنتاجية وقوة للمطورين والباحثين والشركات على حدٍ سواء. سواء كنت تقوم ببناء حل للحافة أو السحابة، فإن YOLO11 يقدم أداءً متطورًا دون النفقات العامة وتعقيد البنى القائمة على المحولات.

استكشف مقارنات النماذج الأخرى

إذا كنت مهتمًا بمعرفة كيف تتم مقارنة YOLO11 و RTDETR بالنماذج الرائدة الأخرى، فراجع هذه المقارنات الأخرى:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات