RTDETRv2 مقارنة بـ YOLOv10: مقارنة تقنية لكشف الأجسام
يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين المفاضلات المعقدة بين الدقة والسرعة والتكلفة الحسابية. تتعمق هذه المقارنة في نموذجين حديثين: RTDETRv2، وهي بنية قائمة على المحولات (transformers) معروفة بدقتها العالية، و YOLOv10، وهو أحدث تطور في سلسلة YOLO عالية الكفاءة. سنقدم تحليلًا متعمقًا لبنيتهما ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج الأمثل لمشروع الرؤية الحاسوبية الخاص بك.
RTDETRv2: كشف عالي الدقة يعتمد على المحولات
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو نموذج متقدم للكشف عن الكائنات من Baidu يعطي الأولوية للدقة القصوى من خلال الاستفادة من بنية تعتمد على المحولات. وهو يعتمد على RT-DETR الأصلي، ويقدم تحسينات لزيادة تعزيز أدائه.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2024-07-24 (ورقة v2)
- Arxiv: https://arxiv.org/abs/2407.17140
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
البنية والميزات
تم بناء جوهر RTDETRv2 على العمود الفقري لمحول الرؤية (ViT). على عكس شبكات CNN التقليدية التي تعالج الصور من خلال مجالات استقبال محلية، تستخدم بنية المحولات آليات الانتباه الذاتي لوزن أهمية جميع ميزات الإدخال بالنسبة لبعضها البعض. يتيح ذلك لـ RTDETRv2 التقاط السياق العام والتبعيات طويلة المدى داخل الصورة، مما يؤدي إلى أداء فائق في المشاهد المعقدة ذات الكائنات الصغيرة أو المحجوبة. يركز تصميم النموذج على تجاوز حدود الدقة مع محاولة الحفاظ على إمكانات الوقت الفعلي.
مقاييس الأداء
كما هو موضح في جدول الأداء أدناه، تحقق نماذج RTDETRv2 درجات mAP عالية. على سبيل المثال، تصل RTDETRv2-x إلى 54.3 mAP على مجموعة بيانات COCO. ومع ذلك، تأتي هذه الدقة العالية بتكلفة. النماذج القائمة على المحولات مكثفة حسابيًا بشكل ملحوظ، مما يؤدي إلى زمن انتقال استنتاجي أعلى، وبصمة ذاكرة أكبر، ومتطلبات تدريب أكثر تطلبًا بشكل ملحوظ. غالبًا ما تتطلب عملية التدريب لنماذج مثل RTDETRv2 ذاكرة CUDA كبيرة وأوقات تدريب أطول مقارنة بالبنى الأكثر كفاءة مثل YOLO.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: يتفوق في اكتشاف الكائنات في المشاهد المعقدة والمزدحمة نظرًا لقدرته على نمذجة السياق العام.
- تمثيل ميزات قوي: يمكن للعمود الفقري المحوّل تعلم ميزات قوية ومتينة، مما يجعله فعالاً لمهام الكشف الصعبة.
نقاط الضعف:
- تكلفة حسابية عالية: يتطلب المزيد من العمليات الحسابية (FLOPs) والمعلمات، مما يؤدي إلى سرعات استدلال أبطأ مقارنةً بـ YOLOv10.
- بصمة ذاكرة كبيرة: تتطلب نماذج المحولات ذاكرة CUDA كبيرة أثناء التدريب والاستدلال، مما يجعل من الصعب نشرها على الأجهزة ذات الموارد المحدودة.
- تدريب أبطأ: يؤدي تعقيد البنية إلى دورات تدريب أطول.
- أقل تنوعًا: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى الدعم المدمج للمهام الأخرى مثل التجزئة وتقدير الوضع والتصنيف الموجود في أطر عمل مثل Ultralytics YOLO.
التطبيقات المثالية
يُعد RTDETRv2 الأنسب للتطبيقات التي تكون فيها الدقة ذات أهمية قصوى والموارد الحسابية ليست قيدًا أساسيًا. تتضمن حالات الاستخدام النموذجية ما يلي:
- القيادة الذاتية: للإدراك البيئي الدقيق في الذكاء الاصطناعي في السيارات ذاتية القيادة.
- التصوير الطبي: للتحليل التفصيلي والكشف عن الحالات الشاذة في الذكاء الاصطناعي في الرعاية الصحية.
- صور عالية الدقة: لتحليل صور الأقمار الصناعية أو الصور الجوية حيث يكون التقاط التفاصيل الدقيقة أمرًا بالغ الأهمية، على غرار استخدام رؤية الكمبيوتر لتحليل صور الأقمار الصناعية.
- الروبوتات: لتمكين التفاعل الدقيق مع الأجسام في البيئات المعقدة، مما يعزز القدرات في دور الذكاء الاصطناعي في الروبوتات.
YOLOv10: كشف عالي الكفاءة في الوقت الحقيقي
YOLOv10، الذي طوره باحثون في جامعة Tsinghua، هو أحدث تطور في عائلة YOLO، المشهورة بسرعتها وكفاءتها الاستثنائية في الكشف عن الأجسام في الوقت الفعلي. إنه مصمم للنشر من طرف إلى طرف، مما يزيد من دفع حدود الأداء والكفاءة.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمة: جامعة تسينغ هوا
- التاريخ: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
البنية والميزات
يعتمد YOLOv10 على نموذج الكشف أحادي المرحلة الناجح للإصدارات السابقة مثل Ultralytics YOLOv8. أحد الابتكارات البارزة هو استراتيجية التدريب الخالية من NMS، والتي تستخدم تعيينات مزدوجة متسقة لإزالة الحاجة إلى المعالجة اللاحقة Non-Maximum Suppression (NMS). يعمل هذا الابتكار على تبسيط خط أنابيب النشر ويقلل بشكل كبير من زمن انتقال الاستدلال.
الأهم من ذلك، تم دمج YOLOv10 في نظام Ultralytics البيئي، مما يمنح المستخدمين تجربة سلسة. يتضمن ذلك واجهة برمجة تطبيقات بسيطة و وثائق شاملة والوصول إلى مجتمع نابض بالحياة وأدوات قوية مثل Ultralytics HUB لـ MLOps.
تحليل الأداء
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.20 | 56.9 | 160.4 |
يوضح جدول الأداء بوضوح تفوق YOLOv10 في الكفاءة. تحقق YOLOv10x قيمة mAP أعلى قليلاً (54.4) من RTDETRv2-x (54.3) ولكن مع معلمات أقل بنسبة 25٪ و عمليات فاصلة عائمة أقل بنسبة 38٪. ميزة سرعة الاستدلال مهمة أيضًا، حيث أن YOLOv10x أسرع بنسبة 23٪ على وحدة معالجة الرسوميات T4. تعتبر نماذج YOLOv10 الأصغر في فئة خاصة بها من حيث السرعة، حيث تعمل YOLOv10n بسرعة 1.56 مللي ثانية فقط. هذا التوازن الرائع بين السرعة والدقة يجعل YOLOv10 خيارًا أكثر عملية لمجموعة واسعة من التطبيقات.
نقاط القوة والضعف
نقاط القوة:
- سرعة وكفاءة استثنائيتان: مُحسَّن للاستدلال السريع والتكلفة الحسابية المنخفضة، مما يجعله مثاليًا للأنظمة في الوقت الفعلي و الذكاء الاصطناعي الطرفي.
- توازن أداء ممتاز: يوفر توازنًا حديثًا بين السرعة والدقة عبر جميع أحجام النماذج.
- متطلبات ذاكرة أقل: يتطلب ذاكرة CUDA أقل بكثير للتدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2، مما يجعله أكثر سهولة للمطورين الذين ليس لديهم أجهزة متطورة.
- سهولة الاستخدام: يستفيد من نظام Ultralytics البيئي المُدار جيدًا، والذي يتميز بـ Python API بسيط، ووثائق شاملة، وتجربة مستخدم مبسطة.
- تدريب فعال: يوفر أوزانًا مُدرَّبة مسبقًا متاحة بسهولة وعمليات تدريب فعالة، مما يتيح دورات تطوير أسرع.
- تصميم خالٍ من NMS: يتيح النشر الحقيقي الشامل ويقلل من الحمل الزائد للمعالجة اللاحقة.
نقاط الضعف:
- المفاضلة في الدقة (النماذج الأصغر): تعطي أصغر متغيرات YOLOv10 الأولوية للسرعة، مما قد يؤدي إلى دقة أقل من أكبر نماذج RTDETRv2 في السيناريوهات التي تتطلب أقصى قدر من الدقة المطلقة.
حالات الاستخدام المثالية
تجعل سرعة وكفاءة YOLOv10 منه خيارًا ممتازًا للتطبيقات في الوقت الفعلي والنشر على الأجهزة ذات الموارد المحدودة.
- المراقبة في الوقت الفعلي: للكشف السريع عن الكائنات في أنظمة الأمان، كما هو مستكشف في مشاريع نظام إنذار الأمان مع Ultralytics YOLOv8.
- Edge AI: مثالي للنشر على الأجهزة المحمولة والمدمجة وأجهزة إنترنت الأشياء مثل NVIDIA Jetson.
- تحليلات البيع بالتجزئة: لتحليل العملاء والمخزون في الوقت الفعلي، كما هو الحال في الذكاء الاصطناعي لإدارة مخزون البيع بالتجزئة بشكل أكثر ذكاءً.
- إدارة حركة المرور: للكشف الفعال عن المركبات وتحليل تدفق حركة المرور لتحسين إدارة حركة المرور.
الخلاصة
يعتبر كل من RTDETRv2 و YOLOv10 من نماذج الكشف عن الأجسام القوية، لكنهما يخدمان أولويات مختلفة. RTDETRv2 هو الخيار الأمثل للتطبيقات المتخصصة حيث يكون تحقيق أعلى دقة ممكنة هو الهدف الوحيد، وتتوفر موارد حسابية وافرة. تتفوق بنية المحولات الخاصة به في فهم المشاهد المعقدة ولكن على حساب تعقيد النموذج وسرعة الاستدلال واستخدام الذاكرة العالي.
في المقابل، يقدم YOLOv10 حلاً أكثر توازناً وعملية للغالبية العظمى من السيناريوهات الواقعية. فهو يوفر مزيجًا فائقًا من السرعة والكفاءة والدقة، مما يجعله منافسًا للغاية حتى في أعلى مستويات الأداء. بفضل تكامله داخل نظام Ultralytics البيئي القوي، يستفيد YOLOv10 من سهولة الاستخدام التي لا مثيل لها، والدعم الشامل، ومتطلبات الذاكرة المنخفضة، وسير عمل التدريب الفعال. بالنسبة للمطورين والباحثين الذين يبحثون عن نموذج عالي الأداء وفعال من حيث الموارد وسهل النشر، فإن YOLOv10 هو الخيار الواضح.
قد يفكر المستخدمون المهتمون بنماذج أخرى عالية الأداء أيضًا في استكشاف Ultralytics YOLO11 للحصول على أحدث التطورات أو YOLOv8 للحصول على خيار ناضج ومتعدد الاستخدامات. لمزيد من المقارنات، راجع مقالاتنا حول YOLOv10 مقابل YOLOv8 و RT-DETR مقابل YOLO11.