YOLOv8 مقابل RTDETRv2: مقارنة تقنية شاملة
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح المشروع. تتعمق هذه المقارنة في الفروق التقنية بين YOLOv8الذي يعتمد على شبكة CNN متعددة الاستخدامات من شركة Ultralytics ونموذج RTDETRv2، وهو نموذج متطور قائم على المحولات من Baidu. ومن خلال تحليل بنيتيهما ومقاييس الأداء ومتطلبات الموارد، نهدف إلى توجيه المطورين والباحثين نحو الحل الأمثل لاحتياجاتهم الخاصة.
تصور الاختلافات في الأداء
يوضح الرسم البياني أدناه المفاضلة بين السرعة والدقة لمختلف أحجام النماذج، مع تسليط الضوء على كيفية حفاظ YOLOv8 على كفاءة فائقة في جميع المجالات.
تحليل الأداء: السرعة مقابل الدقة
يعرض الجدول التالي مقارنة مباشرة للمقاييس الرئيسية. في حين أن RTDETRv2 يحقق دقة عالية مع أكبر نماذجه، فإن YOLOv8 يُظهر ميزة كبيرة في سرعة الاستدلال وكفاءة البارامترات، خاصة على أجهزة CPU حيث تواجه نماذج المحولات غالبًا اختناقات في زمن الاستجابة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Ultralytics YOLOv8: معيار تعدد الاستخدامات والسرعة
تم الإطلاق في أوائل عام 2023, YOLOv8 يمثل قفزة كبيرة إلى الأمام في عائلة YOLO حيث يقدم إطار عمل موحد لمهام الرؤية الحاسوبية المتعددة. تم تصميمه لتوفير أفضل مفاضلة ممكنة بين السرعة والدقة، مما يجعله مناسبًا للغاية لتطبيقات الوقت الحقيقي التي تتراوح من الأتمتة الصناعية إلى البنية التحتية للمدن الذكية.
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المنظمةUltralytics
- التاريخ: 2023-01-10
- جيثب:ultralytics
- المستندات:وثائقYOLOv8
الميزات المعمارية الرئيسية
يستخدم YOLOv8 رأس كشف خالٍ من المرساة، مما يبسّط عملية التدريب ويحسّن التعميم عبر أشكال الأجسام المختلفة. تتميز بنيته بعمود فقري للشبكة المظلمة الجزئية المتقاطعة (CSP) لاستخراج الميزات بكفاءة وشبكة تجميع المسار (PAN) - شبكة تجميع المسار (PAN) - شبكة تجميع المسار (PAN) - شبكة تجميع المسار (PPN) لدمج قوي متعدد المقاييس. وخلافاً للعديد من المنافسين، يدعم YOLOv8 أصلاً تصنيف الصور، وتجزئة النماذج، وتقدير الوضع، والكشف عن الأجسام الموجهة (OBB) ضمن واجهة برمجة تطبيقات واحدة سهلة الاستخدام.
نقاط القوة
- كفاءة استثنائية: يحسّن استخدام الذاكرة والحمل الحسابي، مما يسمح بالنشر على الأجهزة المتطورة مثل NVIDIA Jetson و Raspberry Pi.
- سرعة التدريب: يتطلب ذاكرة CUDA ووقتًا أقل بكثير للتدريب مقارنةً بالبنى القائمة على المحولات.
- نظام بيئي غني: مدعوم بتوثيق شامل، ودعم مجتمعي نشط، وتكامل سلس مع أدوات مثل TensorRT و OpenVINO.
- سهولة الاستخدام: تتيح تجربة "pip install ultralytics" للمطورين بدء التدريب والتنبؤ في دقائق.
RTDETRv2: دفع دقة المحولات
إن RTDETRv2 هو تطوير لمحول الكشف في الوقت الحقيقيRT-DETR، تم تطويره للاستفادة من قدرات السياق العالمي لمحوّلات الرؤية (ViTs) مع محاولة التخفيف من مشاكل زمن الوصول المتأصلة فيها. ويهدف إلى التغلب على نماذج YOLO في معايير الدقة من خلال الاستفادة من آليات الانتباه الذاتي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2024-07-24 (الإصدار 2)
- اركسيف:ورقةRT-DETRv2
- جيثبRT-DETR
نظرة عامة على البنية
يستخدم RTDETRv2 نهجًا هجينًا، باستخدام العمود الفقري لشبكة CNN (عادةً شبكة ريسنت) لاستخراج الميزات التي تتم معالجتها بعد ذلك بواسطة مُشَفِّر-مُفَكِّك تشفير محول. تسمح آلية الانتباه الذاتي للنموذج بفهم العلاقات بين الأجزاء البعيدة من الصورة، مما يساعد في المشاهد المعقدة ذات الانسداد. يقدم الإصدار 2 عامل أخذ عينات منفصلة ويحسن استقرار التدريب الديناميكي.
نقاط القوة والضعف
- نقاط القوة:
- السياق العام: ممتاز في التعامل مع علاقات الأجسام المعقدة والانسدادات بسبب طبيعته التحويلية.
- دقة عالية: تحقق أكبر النماذج درجاتmAP أعلى قليلاً على مجموعة بيانات COCO مقارنةً بـ YOLOv8x.
- خالي من المرساة: مثل YOLOv8 فهو يلغي الحاجة إلى ضبط صندوق التثبيت اليدوي.
- نقاط الضعف:
- كثيفة الاستخدام للموارد: ارتفاع عدد عمليات التدوير المتعرجة وعدد المعلمات يجعلها أبطأ على وحدات المعالجة المركزية وتتطلب وحدات معالجة رسومات باهظة الثمن للتدريب.
- دعم المهام المحدود: يركز في المقام الأول على اكتشاف الأجسام، ويفتقر إلى تعدد المهام الأصلية (التجزئة، والوضعية، وما إلى ذلك) في إطار عمل Ultralytics .
- النشر المعقد: يمكن أن تكون بنية المحولات أكثر صعوبة في تحسينها للأهداف المتنقلة والمضمنة مقارنةً بشبكات CNN النقية.
مقارنة تفصيلية: البنية وسهولة الاستخدام
كفاءة التدريب والذاكرة
يكمن أحد الاختلافات الأكثر تميزاً في عملية التدريب. حيث تشتهر النماذج القائمة على المحولات مثل RTDETRv2 بأنها متعطشة للبيانات وكثيفة الذاكرة. وغالبًا ما تتطلب ذاكرةCUDA أكثر بكثير من ذاكرةCUDA وحقبات تدريب أطول للتقارب مقارنةً بنماذج CNN مثل YOLOv8. للباحثين أو الشركات الناشئة ذات الموارد المحدودة GPU , Ultralytics YOLOv8 يوفر عائقًا أكثر سهولة للدخول، مما يسمح بتدريب مخصص فعال على أجهزة من فئة المستهلكين.
تعدد الاستخدامات والنظام البيئي
بينما يُعد RTDETRv2 منافسًا أكاديميًا قويًا لمهام الكشف البحتة، إلا أنه يفتقر إلى النظام البيئي الشامل الذي يحيط بنماذج Ultralytics . إن YOLOv8 ليس مجرد نموذج، بل هو جزء من منصة تدعم:
- إدارة البيانات: سهولة التعامل مع مجموعات البيانات مثل COCO و Objects365.
- MLOPS: التكامل مع Weights & Biases, Cometو Ultralytics HUB.
- النشر: التصدير بنقرة واحدة إلى تنسيقات مثل ONNXو CoreML و TFLite لدعم الأجهزة المتنوعة.
مراعاة الأجهزة
إذا كان هدف النشر الخاص بك يتضمن الاستدلالCPU (مثل الخوادم القياسية وأجهزة الكمبيوتر المحمولة) أو الأجهزة الطرفية منخفضة الطاقة, YOLOv8 هو الخيار الأفضل بشكل كبير بسبب بنيته المحسّنة ل CNN. من الأفضل تخصيص RTDETRv2 للسيناريوهات ذات التسريع المخصص GPU المتطورة.
حالات الاستخدام المثالية
متى تختار YOLOv8
YOLOv8 هو الخيار المفضل للغالبية العظمى من عمليات النشر في العالم الحقيقي. فتوازنها بين السرعة والدقة وسهولة الاستخدام يجعلها مثالية من أجل:
- تحليلات الوقت الحقيقي: مراقبة حركة المرور، وتحليلات البيع بالتجزئة، والتحليلات الرياضية حيث يكون ارتفاع معدل الإطارات في الثانية أمرًا بالغ الأهمية.
- حوسبة الحافة: تشغيل الذكاء الاصطناعي على الطائرات بدون طيار أو الروبوتات أو تطبيقات الأجهزة المحمولة حيث تكون الطاقة والحوسبة مقيدة.
- تطبيقات متعددة المهام: المشاريع التي تتطلب تتبع الكائنات وتجزئتها وتصنيفها في وقت واحد.
متى تختار RTDETRv2
يتألق RTDETRv2 في مجالات محددة حيث تكون التكلفة الحسابية ثانوية بالنسبة لمكاسب الدقة الهامشية:
- البحث الأكاديمي: دراسة خصائص محولات الرؤية.
- المعالجة المستندة إلى السحابة: المعالجة المجمعة للصور على مزارع الخوادم القوية حيث يكون زمن الاستجابة أقل أهمية من اكتشاف الأجسام الصعبة والمغلقة.
مثال على الكود: البدء باستخدام YOLOv8
صُممت واجهة برمجة تطبيقات Ultralytics من أجل البساطة. يمكنك تحميل نموذج مُدرَّب مسبقًا أو تشغيل التنبؤات أو بدء التدريب ببضعة أسطر من كود Python .
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)
الخلاصة
في حين أن RTDETRv2 يوضح إمكانات بنيات المحولات في تحقيق دقة عالية, Ultralytics YOLOv8 يظل الخيار الأفضل للرؤية الحاسوبية العملية على مستوى الإنتاج. تؤدي كفاءة بنية YOLOv8 المعمارية إلى استنتاج أسرع، وتكاليف تدريب أقل، وتوافق أوسع للأجهزة. علاوةً على ذلك، يضمن نظام Ultralytics البيئي القوي حصول المطورين على الأدوات والوثائق والدعم المجتمعي اللازم لتفعيل حلول الذكاء الاصطناعي الخاصة بهم بكفاءة.
لأولئك الذين يبحثون عن أحدث ما توصلت إليه التكنولوجيا الحديثة في الأداء والكفاءة، نوصي أيضاً باستكشاف YOLO11الذي يعمل على تحسين إرث YOLO مع مفاضلة أفضل بين الدقة والسرعة.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف المزيد من الخيارات داخل نظام Ultralytics أو مقارنة نماذج SOTA الأخرى، فراجع هذه الموارد:
- YOLO11: أحدث طراز YOLO المتطور.
- YOLOv10: كاشف الأجسام من البداية إلى النهاية في الوقت الفعلي.
- RT-DETR: محول الكشف في الوقت الحقيقي الأصلي.
- YOLOv9: يركز على معلومات التدرج القابلة للبرمجة.