RTDETRv2 مقارنة بـ YOLOv7: مقارنة تفصيلية للنماذج
يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا لأي مشروع رؤية حاسوبية. تقدم هذه الصفحة مقارنة فنية متعمقة بين RTDETRv2، وهو نموذج قائم على المحولات، و YOLOv7، وهو نموذج فعال للغاية قائم على CNN. سوف نستكشف الاختلافات المعمارية وقياسات الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير.
RTDETRv2: الجيل الثاني من المحولات للكشف في الوقت الحقيقي
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات حديث من Baidu يستفيد من بنية المحولات لتحقيق دقة عالية مع الحفاظ على الأداء في الوقت الفعلي. وهو يعتمد على مبادئ DETR (محول الكشف) لتقديم مسار كشف شامل.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يستخدم RTDETRv2 هندسة معمارية هجينة تجمع بين CNN كعمود فقري لاستخراج الميزات بكفاءة مع وحدة ترميز وفك ترميز محول لمعالجة هذه الميزات. يتيح هذا التصميم للنموذج التقاط سياق عام داخل الصورة، وهي ميزة رئيسية لـ آلية الانتباه في المحولات. إحدى الميزات الهامة هي تصميمه الخالي من المرساة، والذي يبسط عملية الكشف عن طريق التنبؤ المباشر بمواقع الأجسام دون الاعتماد على مربعات مرساة محددة مسبقًا. ومع ذلك، يأتي هذا النهج القائم على المحولات مع مفاضلة: فهو يتطلب عادةً ذاكرة CUDA أكبر بكثير وأوقات تدريب أطول مقارنة بنماذج CNN النقية مثل YOLOv7.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: تتفوق بنية Transformer في فهم المشاهد المعقدة وعلاقات الكائنات، مما يؤدي غالبًا إلى متوسط دقة (mAP) فائق.
- تمثيل ميزات قوي: يلتقط بشكل فعال الميزات المحلية والعالمية، مما يجعله مرنًا في البيئات المزدحمة.
- خطوات متكاملة: يبسط عملية الاكتشاف عن طريق إزالة الحاجة إلى مكونات مصممة يدويًا مثل تثبيط الحد الأقصى غير الصفري (NMS) في بعض التكوينات.
نقاط الضعف:
- تكلفة حسابية عالية: نماذج المحولات تستهلك موارد بشكل كبير، وتتطلب ذاكرة GPU كبيرة ودورات تدريب أطول.
- التعقيد: قد تكون الأعمال الداخلية لوحدة فك ترميز المحولات أقل سهولة من رؤوس الكشف التقليدية لشبكات CNN.
حالات الاستخدام المثالية
يُعد RTDETRv2 الأنسب للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي، والموارد الحسابية متاحة بسهولة.
- المركبات ذاتية القيادة: لإدراك موثوق في الذكاء الاصطناعي في السيارات ذاتية القيادة.
- التصوير الطبي: للكشف الدقيق عن الحالات الشاذة في الذكاء الاصطناعي في الرعاية الصحية.
- صور الأقمار الصناعية عالية الدقة: لتحليل مفصل حيث يكون السياق حاسمًا، كما هو مستكشف في استخدام رؤية الكمبيوتر لتحليل صور الأقمار الصناعية.
YOLOv7: الكشف الفعال والدقيق عن الأجسام
كان YOLOv7، الذي تم تطويره بواسطة Chien-Yao Wang وآخرون، إصدارًا بارزًا في سلسلة YOLO، حيث وضع أحدث ما توصلت إليه التكنولوجيا لكاشفات الكائنات في الوقت الفعلي من خلال تحسين كفاءة التدريب وسرعة الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
تم تصميم YOLOv7 على بنية CNN خالصة، حيث يقدم العديد من الابتكارات الرئيسية لزيادة الأداء إلى أقصى حد. يستخدم شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN) في العمود الفقري الخاص به لتعزيز قدرة الشبكة على التعلم دون تدمير مسار التدرج الأصلي. كانت المساهمة الرئيسية هي مفهوم "حقيبة التدريب المجانية القابلة للتدريب"، والتي تطبق تقنيات التحسين المتقدمة أثناء التدريب لتعزيز الدقة دون زيادة تكلفة الاستدلال. على عكس RTDETRv2، فإن YOLOv7 عبارة عن كاشف قائم على المرساة، والذي يمكن أن يكون فعالًا للغاية ولكنه قد يتطلب ضبطًا دقيقًا لتكوينات المرساة لمجموعات البيانات المخصصة.
نقاط القوة والضعف
نقاط القوة:
- توازن ممتاز بين السرعة والدقة: يوفر توازنًا رائعًا بين سرعة الاستدلال و mAP، مما يجعله مثاليًا للاستدلال في الوقت الفعلي.
- كفاءة التدريب: يحسن نهج "حقيبة الامتيازات المجانية" الدقة دون إضافة أعباء حسابية أثناء النشر.
- ثابتة ومثبتة: كنموذج شائع، لديها قاعدة مستخدمين واسعة والعديد من الموارد المتاحة.
نقاط الضعف:
- تعددية المهام محدودة: مصمم بشكل أساسي لـ اكتشاف الكائنات. يتطلب توسيعه ليشمل مهام أخرى مثل التجزئة أو تقدير الوضع عمليات تنفيذ منفصلة، على عكس النماذج المتكاملة مثل Ultralytics YOLOv8.
- نظام بيئي أقل حداثة: على الرغم من قوته، إلا أنه يفتقر إلى النظام البيئي المبسط وسهل الاستخدام والصيانة النشطة للنماذج الأحدث من Ultralytics.
حالات الاستخدام المثالية
يتفوق YOLOv7 في السيناريوهات التي تتطلب اكتشافًا عالي السرعة على أجهزة GPU دون المساومة كثيرًا على الدقة.
- الروبوتات: من أجل الإدراك السريع والتفاعل في الأنظمة الروبوتية.
- الأمن والمراقبة: معالجة فعالة لتدفقات الفيديو لتطبيقات مثل أنظمة منع السرقة.
- الأتمتة الصناعية: للفحوصات البصرية عالية السرعة على خطوط الإنتاج، مما يساهم في تحسين التصنيع.
مقارنة أداء مباشرة: RTDETRv2 ضد YOLOv7
يقدم الجدول أدناه مقارنة مباشرة لمقاييس الأداء لمتغيرات مختلفة من RTDETRv2 و YOLOv7 على مجموعة بيانات COCO.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
من البيانات، يحقق RTDETRv2-x أعلى mAP، مما يعرض إمكانات الدقة لبنية المحولات الخاصة به. ومع ذلك، فإن نموذج RTDETRv2-s الأصغر سريع وفعال بشكل استثنائي من حيث المعلمات وعمليات الفلوبس (FLOPs). تقدم نماذج YOLOv7 أرضية وسط قوية، حيث تقدم YOLOv7l توازنًا مقنعًا بين السرعة والدقة التي تنافس RTDETRv2-m.
لماذا تختار نماذج Ultralytics YOLO؟
في حين أن كلاً من RTDETRv2 و YOLOv7 هما نموذجان قويان، فإن نماذج Ultralytics YOLO الأحدث مثل YOLOv8 وأحدث Ultralytics YOLO11 تقدم حلاً أكثر شمولية وملاءمة لمعظم المطورين والباحثين.
- سهولة الاستخدام: تم تصميم نماذج Ultralytics باستخدام واجهة برمجة تطبيقات Python بسيطة و توثيق شامل، مما يجعل من السهل تدريب النماذج والتحقق منها ونشرها.
- نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط ومجتمع مفتوح المصدر قوي والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps الشامل.
- كفاءة الذاكرة والتدريب: تم تحسين نماذج Ultralytics YOLO بشكل كبير لاستخدام الذاكرة، وغالبًا ما تتطلب ذاكرة CUDA أقل بكثير للتدريب مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2. وهذا يجعلها أكثر سهولة وأسرع في التدريب.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي أطر عمل متعددة المهام تدعم اكتشاف الأجسام، وتقسيم الحالات، وتصنيف الصور، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB) خارج الصندوق.
- موازنة الأداء: تقدم نماذج Ultralytics باستمرار توازنًا حديثًا بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من التطبيقات بدءًا من الأجهزة الطرفية وصولًا إلى الخوادم السحابية.
الخلاصة
يعتمد الاختيار بين RTDETRv2 و YOLOv7 بشكل كبير على أولويات المشروع. RTDETRv2 هو الخيار الأفضل عندما تكون أقصى دقة غير قابلة للتفاوض وتتوفر موارد حسابية كافية، خاصة للمشاهد المعقدة التي تستفيد من فهم السياق العالمي الخاص بها. يظل YOLOv7 خيارًا قويًا للتطبيقات التي تتطلب توازنًا مثبتًا بين السرعة في الوقت الفعلي والدقة العالية على أجهزة GPU.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن إطار عمل حديث ومتعدد الاستخدامات وسهل الاستخدام، غالبًا ما تقدم نماذج Ultralytics مثل YOLOv8 و YOLO11 الخيار الأكثر إقناعًا. إنها توفر توازنًا ممتازًا في الأداء وسهولة استخدام فائقة ومتطلبات ذاكرة أقل ونظامًا بيئيًا شاملاً يدعم العديد من مهام الرؤية، مما يبسط المسار من البحث إلى الإنتاج.
مقارنات النماذج الأخرى
للحصول على مزيد من الأفكار، استكشف هذه المقارنات مع النماذج الحديثة الأخرى: