YOLO11 مقابل RTDETRv2: مقارنة فنية
يتضمن اختيار نموذج الكشف عن الأجسام الصحيح مفاضلة بين الدقة والسرعة وسهولة الاستخدام. تقدم هذه الصفحة مقارنة فنية مفصلة بين Ultralytics YOLO11، وهو كاشف حديث في الوقت الفعلي، و RTDETRv2، وهو نموذج عالي الدقة يعتمد على بنية Transformer. في حين أن كلا النموذجين يمثلان تطورات كبيرة، إلا أن YOLO11 يقدم توازنًا فائقًا بين الأداء وتعدد الاستخدامات وتجربة المطور، مما يجعله الخيار الأمثل لمجموعة واسعة من التطبيقات من البحث إلى الإنتاج.
Ultralytics YOLO11: قمة التطور في الاكتشاف في الوقت الفعلي
يعد Ultralytics YOLO11 أحدث تطور في سلسلة YOLO الشهيرة، التي صممتها Ultralytics لدفع حدود الكشف عن الكائنات في الوقت الفعلي ومهام رؤية الكمبيوتر الأخرى. إنه يعتمد على نجاح سابقاته مثل YOLOv8 مع تحسينات معمارية تعزز كلاً من الدقة والكفاءة.
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمة: Ultralytics
- التاريخ: 2024-09-27
- GitHub: https://github.com/ultralytics/ultralytics
- المستندات: https://docs.ultralytics.com/models/yolo11/
البنية والميزات الرئيسية
يستخدم YOLO11 بنية مُحسَّنة للغاية، أحادية المرحلة، وخالية من المرساة. يقلل هذا التصميم من النفقات الحسابية مع زيادة إمكانات استخلاص الميزات، مما يؤدي إلى سرعة ودقة استثنائيتين. إحدى الميزات الرئيسية في YOLO11 هي تكاملها في نظام Ultralytics البيئي الشامل. يوفر هذا تجربة مستخدم مبسطة مع واجهة Python API بسيطة و CLI، و وثائق شاملة، ودعم مجتمعي نشط.
علاوة على ذلك، فإن YOLO11 متعددة الاستخدامات بشكل لا يصدق ، حيث تدعم مهام متعددة داخل إطار عمل موحد واحد، بما في ذلك اكتشاف الكائنات، و تجزئة المثيلات، و تصنيف الصور، و تقدير الوضع، والمربعات المحيطة الموجهة (OBB). تعد إمكانية المهام المتعددة هذه ميزة كبيرة على النماذج الأكثر تخصصًا.
نقاط القوة
- موازنة الأداء: تقدم مقايضة متميزة بين السرعة والدقة، مما يجعلها مناسبة لسيناريوهات العالم الحقيقي المتنوعة.
- سهولة الاستخدام: يتميز بواجهة برمجة تطبيقات (API) سهلة الاستخدام، ووثائق شاملة، وثروة من البرامج التعليمية، مما يتيح النماذج الأولية والنشر السريعين.
- نظام بيئي مُدار بشكل جيد: يستفيد من التطوير المستمر، والتحديثات المتكررة، والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps.
- كفاءة التدريب: يوفر عمليات تدريب فعالة وسريعة مع أوزان مُدرَّبة مسبقًا متاحة بسهولة. يتطلب عادةً ذاكرة CUDA أقل ويتقارب بشكل أسرع من النماذج القائمة على المحولات.
- مرونة النشر: مُحسَّن للأجهزة المختلفة، من أجهزة الحافة مثل NVIDIA Jetson إلى الخوادم السحابية القوية.
نقاط الضعف
- باعتباره كاشفًا أحادي المرحلة، قد يواجه تحديات مع مجموعات الأجسام المزدحمة أو الصغيرة للغاية مقارنةً ببعض الكواشف ثنائية المرحلة المتخصصة، على الرغم من أنه لا يزال يعمل بشكل جيد للغاية في معظم الحالات.
- تتطلب النماذج الأكبر، مثل YOLO11x، موارد حسابية كبيرة لتحقيق أقصى قدر من الدقة.
حالات الاستخدام المثالية
إن مزيج YOLO11 من السرعة والدقة والتنوع يجعله مثاليًا لـ:
- الأتمتة الصناعية: لـ مراقبة الجودة واكتشاف العيوب على خطوط الإنتاج.
- المدن الذكية: تشغيل تطبيقات مثل إدارة حركة المرور ومراقبة السلامة العامة.
- تحليلات البيع بالتجزئة: تمكين إدارة المخزون وتحليل سلوك العملاء.
- الرعاية الصحية: المساعدة في تحليل الصور الطبية، مثل الكشف عن الأورام.
RTDETRv2: كشف عالي الدقة معتمد على المحولات
RTDETRv2، الذي تم تطويره بواسطة باحثين في Baidu، هو كاشف للأجسام في الوقت الفعلي يستفيد من محول الرؤية (ViT) لتحقيق دقة عالية. إنه يمثل نهجًا معماريًا بديلاً لعائلة YOLO القائمة على CNN.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يستخدم RTDETRv2 بنية هجينة، تجمع بين هيكل CNN لاستخراج الميزات مع وحدة ترميز وفك ترميز تعتمد على المحولات. تسمح آلية الانتباه الذاتي للمحول بالتقاط العلاقات العالمية بين الكائنات في الصورة، مما قد يحسن الدقة في المشاهد المعقدة ذات الانسدادات أو الكائنات الكثيفة.
نقاط القوة
- دقة عالية: تمكّن بنية Transformer نموذج RTDETRv2 من تحقيق نتائج تنافسية في mAP، خاصةً في المعايير الأكاديمية المعقدة.
- فهم السياق الشامل: يتفوق في فهم العلاقات بين الكائنات البعيدة في الصورة.
نقاط الضعف
- التكلفة الحسابية: تحتوي النماذج القائمة على المحولات مثل RTDETRv2 بشكل عام على عدد أكبر من المعلمات و FLOPs، مما يتطلب موارد حسابية أكبر (ذاكرة GPU وقوة المعالجة) من YOLO11.
- تعقيد التدريب: غالبًا ما يكون التدريب أبطأ وأكثر استهلاكًا للموارد، ويتطلب ذاكرة CUDA أكبر بكثير وأوقات تدريب أطول مقارنةً بـ YOLO11.
- استدلال أبطأ: على الرغم من أنها مُحسَّنة للوقت الفعلي، إلا أنها أبطأ بشكل عام من نماذج YOLO11 المماثلة، خاصة على وحدة المعالجة المركزية (CPU) والأجهزة الطرفية ذات الموارد المحدودة.
- نظام بيئي محدود: يفتقر إلى النظام البيئي الواسع والموحد وسهل الاستخدام الذي توفره Ultralytics. الوثائق والبرامج التعليمية ودعم المجتمع أقل شمولاً.
- نقص في تعدد الاستخدامات: مصمم بشكل أساسي لاكتشاف الكائنات، ويفتقر إلى الدعم المدمج للتجزئة والتصنيف وتقدير الوضعية مما يجعل YOLO11 أداة أكثر تنوعًا.
حالات الاستخدام المثالية
يعتبر RTDETRv2 مناسبًا تمامًا للتطبيقات التالية:
- البحث الأكاديمي: حيث يكون تحقيق أعلى قيمة ممكنة لـ mAP على معيار محدد هو الهدف الأساسي، والموارد الحسابية ليست قيدًا كبيرًا.
- تطبيقات متخصصة: السيناريوهات التي تتضمن أجهزة قوية ومخصصة حيث تكون قدرة النموذج على التعامل مع العلاقات المعقدة بين الكائنات أمرًا بالغ الأهمية.
تحليل الأداء: YOLO11 مقابل RTDETRv2
عند مقارنة الأداء، من الواضح أن Ultralytics YOLO11 يقدم حلاً أكثر عملية وكفاءة لمعظم تطبيقات العالم الحقيقي. يوضح الجدول أدناه أن نماذج YOLO11 تحقق باستمرار توازنًا أفضل بين السرعة والدقة.
على سبيل المثال، يحقق YOLO11m خريطة متوسطة للدقة أعلى (51.5) من RTDETRv2-s (48.1) مع كونه أسرع على وحدة معالجة الرسوميات T4 (4.7 مللي ثانية مقابل 5.03 مللي ثانية). في الطرف الأعلى، لا يتفوق YOLO11x على RTDETRv2-x في الدقة فحسب (54.7 مقابل 54.3 خريطة متوسطة للدقة) ولكنه أيضًا أسرع بشكل ملحوظ (11.3 مللي ثانية مقابل 15.03 مللي ثانية) مع عدد أقل من المعلمات وعمليات الفاصلة العائمة في الثانية. والأهم من ذلك، أن نماذج YOLO11 مُحسَّنة للغاية للاستدلال على وحدة المعالجة المركزية، وهو مجال غالبًا ما تكافح فيه النماذج القائمة على المحولات.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
الخلاصة: لماذا YOLO11 هو الخيار المفضل
في حين أن RTDETRv2 هو نموذج أكاديمي قوي يوضح قوة المحولات للكشف عن الكائنات، تبرز Ultralytics YOLO11 كخيار أفضل للمطورين والباحثين الذين يبحثون عن حل عملي وعالي الأداء ومتعدد الاستخدامات.
تتمثل المزايا الرئيسية لـ YOLO11 في توازنه الاستثنائي بين السرعة والدقة، وكفاءته الملحوظة على كل من أجهزة CPU و GPU، وقدراته متعددة المهام. والأهم من ذلك، أنه مدعوم بنظام بيئي ناضج وموثق جيدًا وسهل الاستخدام يبسط بشكل كبير دورة حياة MLOps بأكملها، من التدريب والتحقق إلى النشر والمراقبة. بالنسبة للمشاريع التي تتطلب أداءً في الوقت الفعلي وكفاءة في استخدام الموارد وسهولة التطوير، فإن YOLO11 هو الفائز الواضح.
استكشف نماذج أخرى
إذا كنت مهتمًا بمعرفة كيف تتم مقارنة YOLO11 و RTDETRv2 بالنماذج الرائدة الأخرى، فراجع هذه المقارنات الإضافية:
- YOLO11 مقارنة بـ YOLOv8
- YOLO11 مقابل YOLOv10
- RT-DETR ضد YOLOv8
- YOLOv5 ضد RT-DETR
- استكشف جميع مقارنات النماذج