YOLOv5 مقابل RTDETRv2: مقارنة تقنية مفصلة
يعد اختيار النموذج الأمثل لاكتشاف الأجسام قرارًا حاسمًا لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج لتلبية مختلف احتياجات المشروع. تقدم هذه الصفحة مقارنة تقنية بين Ultralytics YOLOv5وRTDETRv2، مع التركيز على الفروق المعمارية ومعايير الأداء وملاءمتها للتطبيقات المختلفة.
YOLOv5: مُحسَّن للسرعة والكفاءة
Ultralytics YOLOv5 هو كاشف للأجسام أحادي المرحلة معتمد على نطاق واسع ويشتهر بسرعة الاستدلال السريع والكفاءة التشغيلية. تتكون بنية YOLOv5 من:
- العمود الفقري: CSPDarknet53، المسؤول عن استخراج الميزات.
- الرقبة: PANET، تُستخدم لدمج الميزات.
- الرأس: رأس YOLOv5 مصمم لمهام الكشف.
يتوفر YOLOv5 بأحجام متعددة (n، s، m، l، x)، مما يوفر للمستخدمين خيارات للموازنة بين السرعة والدقة بناءً على متطلباتهم الخاصة.
نقاط القوة:
- سرعة الاستدلال: يتفوق YOLOv5 في السرعة، مما يجعله خيارًا ممتازًا لتطبيقات الوقت الحقيقي مثل أنظمة الإنذار الأمني.
- الكفاءة: نماذج YOLOv5 صغيرة الحجم، وتتطلب موارد حاسوبية أقل، وهي مناسبة للنشر على الحافة مثل Raspberry Pi و NVIDIA Jetson.
- تعدد الاستخدامات: قابلة للتكيف مع مختلف بيئات الأجهزة، بما في ذلك الأجهزة محدودة الموارد.
- سهولة الاستخدام: موثقة بشكل جيد ومباشر للتنفيذ باستخدامحزمة Ultralytics Python و Ultralytics HUB.
نقاط الضعف:
- مقايضة الدقة: مع تحقيق دقة عالية، قد توفر النماذج الأكبر مثل RTDETRv2 دقة أعلى في التخطيط المتوسط، خاصة في السيناريوهات المعقدة.
حالات الاستخدام المثالية:
- سيناريوهات اكتشاف الأجسام في الوقت الحقيقي بما في ذلك المراقبة بالفيديو والذكاء الاصطناعي في إدارة حركة المرور.
- حوسبة الحافة وعمليات النشر المتنقلة.
- التطبيقات التي تتطلب معالجة سريعة، مثل الروبوتات(ROS Quickstart) والمركبات ذاتية القيادة.
RTDETRv2: محول الكشف في الوقت الحقيقي عالي الدقة في الوقت الحقيقي
إن RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متطور للكشف عن الأجسام يعطي الأولوية للدقة العالية والأداء في الوقت الحقيقي. تم تقديمه في ورقة بحثية بعنوان"RT-DETRv2: خط الأساس المحسّن مع حقيبة الأجسام المجانية لمحول الكشف في الوقت الحقيقي" في 2023-04-17 للمؤلفين وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وقوانزونغ وانغ، ويي ليو من بايدو. بُنيت RTDETRv2 على بنية محول الرؤية (ViT)، وهي تتفوق في التطبيقات التي تتطلب تحديد موقع الكائن وتصنيفه بدقة.
البنية والمميزات الرئيسية:
تستفيد RTDETRv2 من بنية قائمة على المحولات، مما يمكّنها من التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. يسمح هذا النهج للنموذج بتقييم أهمية مناطق الصور المختلفة، مما يؤدي إلى تحسين استخراج الميزة وتحسين الدقة، خاصةً في المشاهد المعقدة.
نقاط القوة:
- دقة فائقة: توفر بنية المحول دقة محسّنة في اكتشاف الأجسام، لا سيما في البيئات المعقدة كما هو موضح في سيناريوهات مثل الرؤية-أي-في-إدارة الحشود.
- القدرة في الوقت الحقيقي: تحقق سرعات استدلال تنافسية، خاصةً عند استخدام تسريع الأجهزة مثل وحدات معالجة الرسومات NVIDIA T4.
- استخراج الميزات القوية: تلتقط محولات الرؤية بفعالية السياق العالمي والتفاصيل المعقدة، وهي مفيدة في تطبيقات مثل استخدام الرؤية الحاسوبية لتحليل صور الأقمار الصناعية.
نقاط الضعف:
- حجم نموذج أكبر: تحتوي نماذج RTDETRv2، وخاصةً المتغيرات الأكبر حجمًا، على عدد معلمات وعمليات تشغيل FLOP أعلى من YOLOv5 مما يستلزم المزيد من الموارد الحاسوبية.
- سرعة الاستدلال: على الرغم من أن سرعة الاستدلال في الوقت الحقيقي، إلا أن سرعة الاستدلال قد تكون أقل مقارنةً بأسرع نماذج YOLOv5 خاصةً على الأجهزة الأقل قوة.
حالات الاستخدام المثالية:
يُعد RTDETRv2 مناسبًا على النحو الأمثل للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتكون الموارد الحاسوبية كافية. وتشمل هذه التطبيقات:
- القيادة الذاتية: للإدراك البيئي الموثوق والدقيق في الذكاء الاصطناعي في السيارات ذاتية القيادة.
- الروبوتات: تمكين الروبوتات من التفاعل بدقة مع محيطها، وهو أمر ضروري للمهام التي تمت مناقشتها في"من الخوارزميات إلى الأتمتة: دور الذكاء الاصطناعي في الروبوتات".
- التصوير الطبي: للكشف الدقيق عن الشذوذ، والمساعدة في التشخيص كما هو موضح في الذكاء الاصطناعي في الرعاية الصحية ومن المحتمل أن يكون مفيدًا في مجالات مثل استخدام yolo11 11 من أجل الكشف عن الأورام في التصوير الطبي.
- تحليل الصور عالية الدقة: التطبيقات التي تتطلب تحليلاً مفصلاً للصور الكبيرة، مثل صور الأقمار الصناعية أو الفحص الصناعي، كما هو موضح في تحسين-التصنيع-بالتصوير بالكمبيوتر.
جدول مقارنة النماذج
الطراز | الحجم (بكسل) |
مافال 50-95 |
السرعة CPU ONNX (مللي ثانية) |
السرعة T4 T4TensorRT10 (مللي ثانية) |
بارامز (م) |
(ب) |
---|---|---|---|---|---|---|
RTDETRRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRV2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRV2-X | 640 | 54.3 | - | 15.03 | 76 | 259 |
يولوف5ن | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
يولوف5م | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
يولوف5ل | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
الخاتمة
يعد كل من RTDETRv2 و YOLOv5 نموذجين قويين لاكتشاف الأجسام، وقد صُمم كل منهما لأولويات مختلفة. يُفضّل RTDETRRv2 عندما تكون الدقة أمرًا بالغ الأهمية وتتوفر الموارد الحاسوبية. وعلى العكس من ذلك، يتفوق YOLOv5 في السيناريوهات التي تتطلب أداءً وكفاءة في الوقت الفعلي، خاصةً على المنصات محدودة الموارد.
بالنسبة للمستخدمين الذين يستكشفون نماذج أخرى، تقدم Ultralytics حديقة حيوانات نموذجية واسعة، بما في ذلك:
- YOLOv8 و YOLO11: ورثة YOLOv5 مما يوفر المزيد من التطورات في الأداء والكفاءة كما هو موضح فيUltralytics Ultralytics YOLOv8 يتحول إلى عام واحد: عام من الإنجازات والابتكارات" و"لقد وصلYOLO11 Ultralytics : إعادة تعريف ما هو ممكن في الذكاء الاصطناعي".
- YOLO: النماذج المصممة باستخدام البحث عن البنية العصبية لتحقيق الأداء الأمثلYOLO من Deci AI).
- FastSAM و MobileSAM: لمهام تجزئة المثيل في الوقت الحقيقي (FastSAM و MobileSAM).
يجب أن يعتمد الاختيار بين RTDETRv2 أو YOLOv5 أو نماذج Ultralytics الأخرى على المتطلبات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع مراعاة التوازن بين الدقة والسرعة وتوافر الموارد بعناية. استشر وثائقUltralytics ومستودع GitHub للحصول على تفاصيل شاملة وأدلة التنفيذ.