YOLOv8 مقابل RTDETRv2: مقارنة فنية شاملة
في المشهد المتطور بسرعة لرؤية الحاسوب، يعد اختيار نموذج اكتشاف الكائنات الصحيح أمرًا بالغ الأهمية لنجاح المشروع. تتعمق هذه المقارنة في الفروق الفنية الدقيقة بين YOLOv8، القوة القائمة على CNN متعددة الاستخدامات من Ultralytics، و RTDETRv2، وهو نموذج متطور قائم على المحولات من Baidu. من خلال تحليل هياكلها ومقاييس الأداء ومتطلبات الموارد، نهدف إلى توجيه المطورين والباحثين نحو الحل الأمثل لاحتياجاتهم الخاصة.
تصور اختلافات الأداء
يوضح الرسم البياني أدناه المفاضلات بين السرعة والدقة لأحجام النماذج المختلفة، مع تسليط الضوء على كيفية حفاظ YOLOv8 على كفاءة فائقة في جميع المجالات.
تحليل الأداء: السرعة مقابل الدقة
يعرض الجدول التالي مقارنة مباشرة للمقاييس الرئيسية. في حين أن RTDETRv2 يحقق دقة عالية مع أكبر نماذجه، يُظهر YOLOv8 ميزة كبيرة في سرعة الاستدلال وكفاءة المعلمات، خاصة على أجهزة CPU حيث غالبًا ما تواجه نماذج المحولات اختناقات في زمن الوصول.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Ultralytics YOLOv8: معيار التنوع والسرعة
يمثل YOLOv8، الذي تم إطلاقه في أوائل عام 2023، قفزة كبيرة إلى الأمام في عائلة YOLO، حيث يقدم إطار عمل موحد لمهام رؤية الكمبيوتر المتعددة. لقد تم تصميمه لتوفير أفضل مقايضة ممكنة بين السرعة والدقة، مما يجعله مناسبًا للغاية للتطبيقات في الوقت الفعلي التي تتراوح من الأتمتة الصناعية إلى البنية التحتية للمدن الذكية.
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المؤسسة:Ultralytics
- التاريخ: 2023-01-10
- GitHub:ultralytics/ultralytics
- المستندات:توثيق YOLOv8
الميزات المعمارية الرئيسية
تستخدم YOLOv8 رأس خاليًا من anchor للكشف، مما يبسط عملية التدريب ويحسن التعميم عبر أشكال الكائنات المختلفة. يتميز هيكلها بـ Cross-Stage Partial (CSP) Darknet backbone لاستخراج الميزات بكفاءة و Path Aggregation Network (PAN)-FPN neck لدمج قوي متعدد المقاييس. على عكس العديد من المنافسين، تدعم YOLOv8 أصلاً تصنيف الصور و تقسيم المثيلات و تقدير الوضعية و الكشف عن الكائنات الموجهة (OBB) داخل واجهة برمجة تطبيقات واحدة سهلة الاستخدام.
نقاط القوة
- كفاءة استثنائية: يعمل على تحسين استخدام الذاكرة والحمل الحسابي، مما يسمح بالنشر على الأجهزة الطرفية مثل NVIDIA Jetson و Raspberry Pi.
- سرعة التدريب: يتطلب ذاكرة CUDA ووقتًا أقل بكثير للتدريب مقارنةً بالبنى القائمة على المحولات.
- نظام بيئي ثري: مدعومًا بوثائق شاملة، ودعم مجتمعي نشط، وعمليات تكامل سلسة مع أدوات مثل TensorRT و OpenVINO.
- سهولة الاستخدام: تتيح تجربة "pip install ultralytics" للمطورين بدء التدريب والتنبؤ في دقائق.
RTDETRv2: دفع دقة المحولات
RTDETRv2 هو تطور لـ Real-Time Detection Transformer (RT-DETR)، الذي تم تطويره لتسخير إمكانات السياق الشامل لمحولات الرؤية (ViTs) مع محاولة التخفيف من مشكلات زمن الوصول المتأصلة فيها. يهدف إلى التغلب على نماذج YOLO في معايير الدقة من خلال الاستفادة من آليات الانتباه الذاتي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24 (إصدار v2)
- Arxiv:RT-DETRv2 Paper
- GitHub:lyuwenyu/RT-DETR
نظرة عامة على البنية
يستخدم RTDETRv2 نهجًا هجينًا، باستخدام العمود الفقري للشبكة العصبونية الالتفافية (CNN) (عادةً ResNet) لاستخراج الميزات التي تتم معالجتها بعد ذلك بواسطة وحدة ترميز وفك ترميز تعتمد على المحولات. تتيح آلية الانتباه الذاتي للنموذج فهم العلاقات بين الأجزاء البعيدة من الصورة، مما يساعد في المشاهد المعقدة التي تتضمن إعاقة. يقدم الإصدار 2 عامل تشغيل أخذ عينات منفصل ويحسن ثبات التدريب الديناميكي.
نقاط القوة والضعف
- نقاط القوة:
- Global Context: ممتاز في التعامل مع علاقات الأجسام المعقدة والانسدادات بسبب طبيعته المستندة إلى المحولات.
- دقة عالية: تحقق أكبر النماذج درجات mAP أعلى قليلاً على مجموعة بيانات COCO مقارنةً بـ YOLOv8x.
- خالٍ من المرتكزات (Anchor-Free): على غرار YOLOv8، فإنه يلغي الحاجة إلى الضبط اليدوي لمربع الارتكاز.
- نقاط الضعف:
- تستهلك الكثير من الموارد: يؤدي ارتفاع عدد عمليات الفاصلة العائمة والمعلمات إلى إبطائها على وحدات المعالجة المركزية ويتطلب وحدات معالجة الرسوميات باهظة الثمن للتدريب.
- دعم محدود للمهام: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى تنوع المهام المتعددة الأصلي (التقسيم، والوضع، وما إلى ذلك) لإطار Ultralytics.
- نشر معقد: يمكن أن يكون تحسين بنية المحولات أكثر صعوبة للأهداف المحمولة والمضمنة مقارنة بشبكات CNN النقية.
مقارنة تفصيلية: البنية وسهولة الاستخدام
كفاءة التدريب والذاكرة
يكمن أحد أبرز الاختلافات في عملية التدريب. تشتهر النماذج القائمة على المحولات (Transformer) مثل RTDETRv2 بأنها تستهلك الكثير من البيانات وتتطلب ذاكرة مكثفة. غالبًا ما تتطلب ذاكرة CUDA أكبر بكثير وفترات تدريب أطول للوصول إلى نقطة التقارب مقارنة بالشبكات العصبية الالتفافية (CNN) مثل YOLOv8. بالنسبة للباحثين أو الشركات الناشئة ذات موارد وحدة معالجة الرسومات (GPU) المحدودة، يوفر Ultralytics YOLOv8 حاجز دخول أكثر سهولة، مما يسمح بتدريب مخصص فعال على أجهزة ذات مستوى استهلاكي.
تعدد الاستخدامات والنظام البيئي
في حين أن RTDETRv2 هو منافس أكاديمي قوي لمهام الكشف البحتة، إلا أنه يفتقر إلى النظام البيئي الشامل الذي يحيط بنماذج Ultralytics. YOLOv8 ليس مجرد نموذج؛ إنه جزء من نظام أساسي يدعم:
- إدارة البيانات: سهولة التعامل مع مجموعات البيانات مثل COCO و Objects365.
- MLOps: التكامل مع Weights & Biases و Comet و Ultralytics HUB.
- النشر: تصدير بنقرة واحدة إلى تنسيقات مثل ONNX و CoreML و TFLite لدعم الأجهزة المتنوعة.
اعتبارات الأجهزة
إذا كان هدف النشر الخاص بك يتضمن الاستدلال على وحدة المعالجة المركزية CPU (مثل الخوادم القياسية وأجهزة الكمبيوتر المحمولة) أو الأجهزة الطرفية منخفضة الطاقة، فإن YOLOv8 هو الخيار الأفضل بشكل قاطع نظرًا لبنية CNN المحسّنة. يُفضل الاحتفاظ بـ RTDETRv2 للسيناريوهات التي تتضمن تسريعًا مخصصًا لوحدة معالجة الرسومات GPU المتطورة.
حالات الاستخدام المثالية
متى تختار YOLOv8
YOLOv8 هو الخيار المفضل للغالبية العظمى من عمليات النشر في العالم الحقيقي. إن توازنه بين السرعة و الدقة و سهولة الاستخدام يجعله مثاليًا لما يلي:
- تحليلات في الوقت الفعلي: مراقبة حركة المرور، وتحليلات البيع بالتجزئة، والتحليلات الرياضية حيث يكون FPS العالي أمرًا بالغ الأهمية.
- الحوسبة الطرفية: تشغيل الذكاء الاصطناعي على الطائرات بدون طيار أو الروبوتات أو تطبيقات الأجهزة المحمولة حيث تكون الطاقة والحوسبة مقيدتين.
- تطبيقات متعددة المهام: المشاريع التي تتطلب تتبع الكائنات والتقسيم والـ classify في وقت واحد.
متى تختار RTDETRv2
يتألق RTDETRv2 في المجالات المتخصصة حيث تكون التكلفة الحسابية ثانوية لمكاسب الدقة الهامشية:
- البحث الأكاديمي: دراسة خصائص محولات الرؤية.
- المعالجة المستندة إلى السحابة: المعالجة الدفعية للصور على مزارع خوادم قوية حيث يكون زمن الوصول أقل أهمية من اكتشاف الأجسام الصعبة والمحجوبة.
مثال على التعليمات البرمجية: البدء في استخدام YOLOv8
تم تصميم Ultralytics API من أجل البساطة. يمكنك تحميل نموذج مُدرَّب مسبقًا، أو تشغيل التنبؤات، أو بدء التدريب ببضعة أسطر فقط من كود Python.
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)
الخلاصة
في حين أن RTDETRv2 يوضح إمكانات بنى المحولات في تحقيق دقة عالية، تظل Ultralytics YOLOv8 الخيار الأفضل لرؤية الكمبيوتر العملية والإنتاجية. تؤدي كفاءة بنية YOLOv8 إلى استدلال أسرع وتكاليف تدريب أقل وتوافق أوسع للأجهزة. علاوة على ذلك، يضمن نظام Ultralytics البيئي القوي حصول المطورين على الأدوات والوثائق ودعم المجتمع اللازم لإضفاء الحيوية على حلول الذكاء الاصطناعي الخاصة بهم بكفاءة.
بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه الأداء والكفاءة، نوصي أيضًا باستكشاف YOLO11، الذي يزيد من تحسين إرث YOLO مع مقايضات أفضل بين الدقة والسرعة.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف المزيد من الخيارات في نظام Ultralytics البيئي أو مقارنة نماذج SOTA الأخرى، فراجع هذه الموارد:
- YOLO11: أحدث نموذج YOLO SOTA.
- YOLOv10: كاشف أجسام شامل في الوقت الفعلي.
- RT-DETR: كاشف المحولات الأصلي للكشف في الوقت الفعلي.
- YOLOv9: يركز على معلومات التدرج القابلة للبرمجة.