RTDETRv2 مقابل YOLOv6-3.0: مقارنة فنية
يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين الدقة والسرعة والتكلفة الحسابية. يقدم هذا الدليل مقارنة فنية مفصلة بين RTDETRv2، وهو نموذج عالي الدقة يعتمد على بنية المحولات، و YOLOv6-3.0، وهو نموذج قائم على الشبكات العصبونية الالتفافية (CNN) ومُحسَّن للتطبيقات الصناعية. سوف نستكشف الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشروعك.
RTDETRv2: الجيل الثاني من المحولات للكشف في الوقت الحقيقي
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات حديث من Baidu يستفيد من قوة محولات الرؤية لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي. وهو يمثل خطوة كبيرة إلى الأمام في الكشف عن الكائنات القائم على المحولات.
المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: Baidu
التاريخ: 2023-04-17 (RT-DETR الأولي)، 2024-07-24 (تحسينات RT-DETRv2)
Arxiv: https://arxiv.org/abs/2304.08069، https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية
يستخدم RTDETRv2 هندسة معمارية هجينة تجمع بين نقاط القوة في كل من الشبكات العصبية التلافيفية (CNN) والمحولات:
- العمود الفقري: يستخدم شبكة عصبونية التفافية تقليدية (مثل ResNet) لاستخراج الميزات الأولية بكفاءة.
- Encoder-Decoder: جوهر النموذج هو ترميز-فك ترميز قائم على Transformer. يستخدم هذا الهيكل آليات الانتباه الذاتي لتحليل العلاقات بين الأجزاء المختلفة من الصورة، ممّا يسمح له بالتقاط السياق العام بشكل فعال. هذا يجعله بارعًا بشكل خاص في فهم المشاهد المعقدة ذات الكائنات المحجوبة أو البعيدة. وباعتباره كاشفًا خاليًا من المرساة، فإنه يبسط أيضًا مسار الكشف.
نقاط القوة
- دقة عالية: تمكّن بنية Transformer نموذج RTDETRv2 من تحقيق نتائج ممتازة في mAP، خاصةً في مجموعات البيانات المعقدة مثل COCO.
- استخلاص ميزات قوي: تؤدي قدرته على التقاط السياق العام إلى أداء فائق في السيناريوهات الصعبة، مثل المشاهد ذات التجمعات الكثيفة من الكائنات أو الانسدادات.
- الأداء في الوقت الفعلي: تم تحسين النموذج لتقديم سرعات استدلال تنافسية، خاصةً عند تسريعه بأدوات مثل NVIDIA TensorRT.
نقاط الضعف
- تكلفة حسابية عالية: تحتوي النماذج القائمة على المحولات مثل RTDETRv2 بشكل عام على عدد معلمات وعمليات حسابية (FLOPs) أكثر من النماذج القائمة على CNN، مما يتطلب موارد حسابية كبيرة مثل ذاكرة GPU.
- تدريب معقد: يمكن أن يكون تدريب المحولات أبطأ ويتطلب ذاكرة CUDA أكبر بكثير مقارنة بنماذج مثل Ultralytics YOLO، مما يجعل دورة التطوير أطول وأكثر تكلفة.
- نظام بيئي مجزأ: يفتقر إلى النظام البيئي الموحد والشامل الذي توفره Ultralytics، والذي يتضمن وثائق شاملة وأدوات متكاملة مثل Ultralytics HUB ودعم مجتمعي نشط.
حالات الاستخدام المثالية
- المراقبة عالية الدقة: السيناريوهات التي يكون فيها اكتشاف كل كائن بدقة عالية أمرًا بالغ الأهمية، كما هو الحال في أنظمة الأمان المتقدمة.
- الأنظمة الذاتية: تطبيقات مثل السيارات ذاتية القيادة التي تتطلب فهمًا عميقًا للبيئات المعقدة.
- الروبوتات المتقدمة: ضرورية للروبوتات التي تحتاج إلى التنقل والتفاعل مع المساحات الديناميكية والمزدحمة، وهو جانب رئيسي من دور الذكاء الاصطناعي في الروبوتات.
YOLOv6-3.0: مُحسَّن للتطبيقات الصناعية
تم تطوير YOLOv6-3.0 بواسطة Meituan، وهو كاشف أحادي المرحلة للكشف عن الكائنات مصمم مع تركيز قوي على الكفاءة والسرعة للتطبيقات الصناعية. ويهدف إلى توفير توازن عملي بين الأداء وجدوى النشر.
المؤلفون: تشوي لي، لولو لي، ييفي قنغ، هونغليانغ جيانغ، منغ تشنغ، بو تشانغ، زيدان كه، شياومينغ شو، وشيانغشيانغ تشو
المنظمة: ميتوان
التاريخ: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
المستندات: https://docs.ultralytics.com/models/yolov6/
تعرف على المزيد حول YOLOv6-3.0
البنية
تم بناء YOLOv6-3.0 على هيكل CNN ويقدم العديد من الميزات الرئيسية لتحسين المفاضلة بين السرعة والدقة:
- عمود فقري فعال: يتضمن تصميمًا يراعي الأجهزة، بما في ذلك عمودًا فقريًا فعالًا لإعادة المعلمات يبسط بنية الشبكة أثناء الاستدلال لتعزيز السرعة.
- الكتل الهجينة: يستخدم عنق النموذج كتلًا هجينة لتحقيق التوازن بين قدرات استخراج الميزات والكفاءة الحسابية.
- التقطير الذاتي: تستخدم عملية التدريب التقطير الذاتي لتحسين الأداء دون إضافة أعباء استنتاج.
نقاط القوة
- سرعة استدلال ممتازة: تم تحسين YOLOv6-3.0 بدرجة كبيرة لتحقيق أداء سريع، مما يجعله مثاليًا للتطبيقات في الوقت الفعلي.
- توازن جيد بين السرعة والدقة: يوفر مقايضة تنافسية، مما يوفر دقة قوية بسرعات عالية.
- الكمية ودعم الأجهزة المحمولة: يوفر دعمًا جيدًا لـ تحديد كمية النموذج ويتضمن متغيرات خفيفة الوزن (YOLOv6Lite) للنشر على الأجهزة المحمولة أو الأجهزة المستندة إلى وحدة المعالجة المركزية CPU.
نقاط الضعف
- تنوع محدود: YOLOv6-3.0 هو في الأساس كاشف للكائنات. يفتقر إلى الدعم المدمج لمهام رؤية الكمبيوتر المتعددة مثل تجزئة المثيلات وتقدير الوضعية والتصنيف التي تعتبر قياسية في إطار عمل Ultralytics YOLO.
- النظام البيئي والصيانة: على الرغم من أنه مفتوح المصدر، إلا أن نظامه البيئي ليس واسع النطاق أو تتم صيانته بنشاط مثل منصة Ultralytics. يمكن أن يؤدي ذلك إلى عدد أقل من التحديثات ودعم مجتمعي أقل والمزيد من تحديات التكامل.
- الأداء مقابل أحدث النماذج: غالبًا ما توفر النماذج الأحدث، مثل Ultralytics YOLO11، دقة وكفاءة أفضل.
حالات الاستخدام المثالية
- الأتمتة الصناعية: مثالي لمراقبة الجودة عالية السرعة ومراقبة العمليات في التصنيع.
- الحوسبة الطرفية: تصميمه الفعال ومتغيراته المحسّنة للأجهزة المحمولة مناسبة تمامًا للنشر على الأجهزة ذات الموارد المحدودة مثل NVIDIA Jetson.
- المراقبة في الوقت الفعلي: فعال للتطبيقات مثل إدارة حركة المرور حيث يكون الكمون المنخفض أمرًا بالغ الأهمية.
مقارنة أداء مباشرة: الدقة مقابل السرعة
تكمن المفاضلة الأساسية بين RTDETRv2 و YOLOv6-3.0 في الدقة مقابل السرعة والكفاءة. تحقق نماذج RTDETRv2 عمومًا نسبة mAP أعلى، ولكن هذا يأتي على حساب المزيد من المعلمات وعمليات الفاصلة العائمة الأعلى وأوقات الاستدلال الأبطأ. في المقابل، تكون نماذج YOLOv6-3.0، وخاصة المتغيرات الأصغر، أسرع وأخف وزنًا بشكل ملحوظ، مما يجعلها عالية الكفاءة.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
التدريب والنظام البيئي: سهولة الاستخدام مقابل التعقيد
تختلف تجربة المطور بشكل كبير بين هذه النماذج. يتطلب تدريب RTDETRv2 قدرة حسابية عالية، ويتطلب ذاكرة CUDA كبيرة وأوقات تدريب أطول. كما أن نظامه البيئي أكثر تجزئة، مما قد يشكل تحديات للنشر والصيانة.
يعتبر تدريب YOLOv6-3.0 أكثر وضوحًا من RTDETRv2. ومع ذلك، فإنه لا يوفر نفس المستوى من التكامل وسهولة الاستخدام التي توفرها النماذج داخل نظام Ultralytics البيئي.
في المقابل، تم تصميم نماذج Ultralytics مثل YOLOv8 و YOLO11 لتوفير تجربة مستخدم مثالية. إنها تستفيد من نظام بيئي متكامل ومُدار بشكل جيد يتضمن:
- سير عمل مبسط: واجهة برمجة تطبيقات بسيطة و وثائق واضحة والعديد من الأدلة تجعل التدريب والنشر سهلاً.
- كفاءة التدريب: نماذج Ultralytics YOLO فعالة للغاية من حيث التدريب، وغالبًا ما تتطلب ذاكرة ووقتًا أقل.
- تنوع الاستخدامات: إنها تدعم مهامًا متعددة خارج الصندوق، بما في ذلك الاكتشاف والتجزئة وتقدير الوضعية والتصنيف.
- دعم نشط: نظام بيئي قوي مع تطوير نشط ودعم مجتمعي قوي وأدوات مثل Ultralytics HUB للتدريب والنشر بدون تعليمات برمجية.
الخلاصة: ما هو النموذج المناسب لك؟
يعتبر كل من RTDETRv2 و YOLOv6-3.0 من النماذج القادرة، لكنهما يخدمان احتياجات مختلفة.
- RTDETRv2 هو الخيار الأمثل للخبراء الذين يحتاجون إلى أقصى قدر من الدقة لمهام الكشف عن الأجسام المعقدة ولديهم إمكانية الوصول إلى موارد حسابية قوية.
- YOLOv6-3.0 هو خيار قوي للتطبيقات الصناعية حيث تكون سرعة وكفاءة الاستدلال على رأس الأولويات.
ومع ذلك، بالنسبة للغالبية العظمى من المطورين والباحثين، تقدم نماذج Ultralytics مثل YOLO11 أفضل حزمة شاملة. فهي توفر توازنًا متطورًا بين السرعة والدقة، وتعدد استخدامات استثنائي عبر مهام رؤية متعددة، وسهولة استخدام فائقة. يمكّن نظام Ultralytics البيئي الشامل والذي تتم صيانته بنشاط المستخدمين من الانتقال من المفهوم إلى الإنتاج بشكل أسرع وأكثر كفاءة، مما يجعله الخيار الموصى به لمجموعة واسعة من تطبيقات العالم الحقيقي.
استكشف نماذج أخرى
لمزيد من القراءة، ضع في اعتبارك استكشاف مقارنات النماذج الأخرى المتوفرة في وثائق Ultralytics: