RTDETRv2 مقابل YOLOv8: تحويل الكشف عن الكائنات في الوقت الفعلي
تطور مجال الرؤية الحاسوبية بسرعة، حيث انتقل من الشبكات العصبية التلافيفية التقليدية (CNN) إلى البنى الهجينة التي تدمج محولات. ومن النماذج البارزة في هذا التحول نموذج RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) ونموذج Ultralytics YOLOv8. في حين أن كلا النموذجين يهدفان إلى حل تحدي الكشف عن الكائنات في الوقت الحقيقي، إلا أنهما يتعاملان مع المشكلة بفلسفات وتصميمات معمارية مختلفة تمامًا.
يقدم هذا الدليل مقارنة تقنية لمساعدة المطورين والباحثين والمهندسين على اختيار النموذج المناسب لاحتياجاتهم الخاصة في مجال النشر، مع مراعاة عوامل مثل سرعة الاستدلال والدقة وكفاءة التدريب.
نظرات عامة على النموذج
قبل الخوض في المقاييس، من الضروري فهم النسب والأهداف المعمارية لكل نموذج.
RTDETRv2
يعتمد RTDETRv2 على نجاح RT-DETR الأصلي، الذي كان أول كاشف قائم على المحولات يتحدى حقًا YOLO في سيناريوهات الوقت الفعلي. تم تطويره بواسطة باحثين في Baidu، ويستفيد من محور محول الرؤية لالتقاط السياق العام، وهي ميزة غالبًا ما تفتقر إليها شبكات CNN الخالصة. وتتمثل سمة مميزة له في قدرته على التنبؤ من البداية إلى النهاية، مما يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS).
- المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
- المؤسسة:بايدو
- التاريخ: يوليو 2024 (ورقة v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:RT-DETR Repository
Ultralytics YOLOv8
YOLOv8، الذي أطلقته Ultralytics يمثل قمة الكفاءة في مجال الكشف عن الأجسام باستخدام شبكات CNN. ويقدم هذا النظام رأس كشف بدون مرساة وعمود فقري CSPDarknet مجدد. صُمم YOLOv8 متعدد الاستخدامات، YOLOv8 مجرد جهاز كشف، بل يدعم بشكل أساسي مهام مثل تقسيم الحالات وتقدير الوضع والتصنيف. ويدعمه نظام بيئي قوي للبرمجيات يبسط كل شيء بدءًا من إدارة مجموعات البيانات وحتى النشر.
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المؤسسة:Ultralytics
- التاريخ: 10 يناير 2023
- الوثائق:وثائق YOLOv8
مقارنة البنية التقنية
يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للمعلومات البصرية.
محولات الرؤية مقابل شبكات CNN
يستخدم RTDETRv2 مشفرًا هجينًا يعالج ميزات الصورة باستخدام آليات الانتباه. وهذا يسمح للنموذج بـ"رؤية" الصورة بأكملها دفعة واحدة، وفهم العلاقة بين الأجسام البعيدة بشكل فعال. هذا السياق الشامل مفيد بشكل خاص في المشاهد المزدحمة أو عندما تكون الأجسام محجوبة. ومع ذلك، فإن هذا يأتي بتكلفة: عادةً ما تتطلب المحولات GPU (VRAM) أكبر بكثير أثناء التدريب ويمكن أن تكون أبطأ في التכנס مقارنة بنظيراتها من CNN.
في المقابل، YOLOv8 على شبكات التلافيف العميقة. تتميز شبكات CNN بقدرتها الاستثنائية على استخراج الميزات المحلية مثل الحواف والأنسجة. YOLOv8 ذلك من خلال "Bag of Freebies" — تعديلات معمارية تعمل على تحسين الدقة دون زيادة تكلفة الاستدلال. والنتيجة هي نموذج خفيف الوزن للغاية، يتم تدريبه بشكل أسرع على أجهزة المستهلكين ويتم نشره بكفاءة على الأجهزة المتطورة مثل Raspberry Pi.
بنية NMS
أحد أسباب شهرة RTDETRv2 هو تصميمه NMS. YOLOv8 أجهزة الكشف التقليدية مثل YOLOv8 العديد من المربعات المحددة المتداخلة وتستخدم تقنية Non-Maximum Suppression (NMS) لتصفيتها. يتنبأ RTDETRv2 بمجموعة الأجسام الدقيقة مباشرة.
ملاحظة: يتبنى YOLO26 الأحدث أيضًا تصميمًا شاملاً NMS ويجمع بين هذه الميزة المعمارية وسرعة Ultralytics المميزة.
مقاييس الأداء
يُقارن الجدول التالي أداء أحجام النماذج المختلفة. في حين يُظهر RTDETRv2 دقة مذهلة (mAP)، YOLOv8 كفاءة فائقة من حيث عدد المعلمات والحمل الحسابي (FLOPs)، مما يُترجم مباشرة إلى السرعة على الأجهزة المقيدة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
النقاط الرئيسية
- الذكاء الاصطناعي ذو زمن الاستجابة المنخفض: YOLOv8n Nano) هو فريد من نوعه من حيث السرعة الفائقة، حيث يبلغ زمن الاستجابة حوالي 1.47 مللي ثانية على GPU T4 GPU حافظ على الأداء في الوقت الفعلي على وحدات المعالجة المركزية. يفتقر RTDETRv2 إلى نموذج "نانو" مماثل للبيئات ذات الموارد المحدودة للغاية.
- الحد الأقصى للدقة: يحقق RTDETRv2-x معدل mAP أعلى قليلاً mAP 54.3) مقارنةً بـ YOLOv8x 53.9)، مما يظهر قوة آلية الانتباه للمحول في عمليات التحقق المعقدة مثل COCO.
- كفاءة الحوسبة: يتطلب YOLOv8 عددًا أقل من FLOPs للحصول على مستويات أداء مماثلة، مما يجعله أكثر ملاءمة للبطارية في عمليات النشر على الأجهزة المحمولة.
النظام البيئي وسهولة الاستخدام
مقاييس الأداء لا تعكس سوى نصف الحقيقة. بالنسبة لفرق الهندسة، غالبًا ما تكون سهولة التكامل والصيانة هي العامل الحاسم.
ميزة Ultralytics البيئي: YOLOv8 من Ultralytics الناضج، الذي يوفر تجربة سلسة "جاهزة للاستخدام".
- واجهة برمجة تطبيقات موحدة: يمكنك التبديل بين YOLOv8 و YOLO11وحتى RT-DETR واحد من التعليمات البرمجية.
- دعم المنصة: توفر Ultralytics أدوات قائمة على الويب للتدريب وتصور النتائج وإدارة مجموعات البيانات دون الحاجة إلى كتابة أكواد نمطية.
- نشر واسع النطاق: تتيح أوضاع التصدير المدمجة التحويل الفوري إلى تنسيقات مثل ONNX و TensorRT و CoreML و TFLite.
RTDETRv2 مستقل مقابل التكامل: في حين أن مستودع RTDETRv2 الرسمي هو قاعدة بيانات تركز على الأبحاث، Ultralytics بدمج RT-DETR مباشرة في حزمتها. وهذا يعني أنه يمكنك الاستفادة من مزايا بنية RTDETRv2 مع الاستمتاع Ultralytics سهلة الاستخدام.
مثال على الكود: التدريب والتنبؤ
فيما يلي Python يوضح كيفية استخدام كلتا البنيتين ضمن Ultralytics . وهذا يسلط الضوء على نمطية المكتبة.
from ultralytics import RTDETR, YOLO
# --- Option 1: Using YOLOv8 ---
# Load a pretrained YOLOv8 model (recommended for edge devices)
model_yolo = YOLO("yolov8n.pt")
# Train on a custom dataset
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# --- Option 2: Using RT-DETR ---
# Load a pretrained RT-DETR model (recommended for high-accuracy tasks)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run inference on an image
# Note: RT-DETR models predict without NMS natively
results = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the results
results[0].show()
تطبيقات عملية في أرض الواقع
مجالات تفوق RTDETRv2
تجعل البنية القائمة على المحولات RTDETRv2 مثالية للسيناريوهات التي تتطلب دقة فائقة وموارد أجهزة وفيرة (مثل المعالجة من جانب الخادم باستخدام وحدات معالجة رسومات قوية).
- التصوير الطبي: الكشف عن التشوهات الدقيقة في الأشعة السينية حيث يساعد السياق العام على التمييز بين الأنسجة المتشابهة.
- تحليل الحشود: تتبع الأفراد في الحشود الكثيفة حيث عادةً ما يؤدي الحجب إلى إرباك شبكات CNN القياسية.
- المراقبة الجوية: تحديد الأجسام الصغيرة في لقطات عالية الدقة ملتقطة بواسطة طائرات بدون طيار حيث تكون العلاقة بين معالم الأرض مهمة.
أين يتفوق YOLOv8
YOLOv8 الحل الأمثل للتطبيقات المتنوعة والمحدودة الموارد التي تتطلب توازناً بين السرعة والموثوقية.
- إنترنت الأشياء المدمج: يعمل على أجهزة مثل NVIDIA Orin Nano لمراقبة حركة المرور في المدن الذكية.
- الروبوتات: تجنب العوائق في الوقت الفعلي حيث كل مللي ثانية من زمن الاستجابة مهمة لمنع الاصطدامات.
- التصنيع: فحص خط التجميع عالي السرعة حيث يجب أن يواكب النموذج سرعة الحزام الناقل.
- تعدد المهام: التطبيقات التي تحتاج إلى OBB للأجسام الدوارة أو تقدير الوضع لرصد سلامة العمال.
التوقعات المستقبلية: أفضل ما في العالمين مع YOLO26
بينما وضع RTDETRv2 الكشف NMS في المقدمة، استمر هذا المجال في التقدم. تم إصدار YOLO26 الفجوة بين هاتين البنيتين بشكل فعال.
يضم YOLO26 تصميم End-to-End NMS الذي ابتكرته محولات الطاقة، ولكنه ينفذه ضمن بنية عالية التحسين CPU. بفضل ميزات مثل MuSGD Optimizer وإزالة Distribution Focal Loss (DFL)، يوفر YOLO26 استقرار التدريب والوعي بالسياق العام لمحولات الطاقة مع السرعة الفائقة واستهلاك الذاكرة المنخفض YOLO . بالنسبة للمشاريع الجديدة التي ستبدأ في عام 2026، فإن النظر في YOLO26 يضمن حلاً مستقبليًا يجمع بين نقاط القوة في كل من RTDETRv2 و YOLOv8.
الخلاصة
YOLOv8 كل من RTDETRv2 و YOLOv8 أدوات استثنائية في ترسانة مهندس الرؤية الحاسوبية. RTDETRv2 هو خيار قوي للبحوث ونشر الخوادم المتطورة حيث لا تشكل ذاكرة VRAM قيدًا ويكون السياق العام أمرًا بالغ الأهمية. YOLOv8، من ناحية أخرى، تنوعًا لا مثيل له ودعمًا للنظام البيئي وكفاءة، مما يجعلها الخيار العملي للغالبية العظمى من عمليات نشر الذكاء الاصطناعي التجارية والمتطورة.
بالنسبة للمطورين الذين يبحثون عن المزيج المثالي بين هاتين الفلسفتين — سرعة معالجة شاملة دون الحاجة إلى محول — نوصي بالاطلاع على وثائق YOLO26 لمعرفة كيف يمكن للجيل التالي من الذكاء الاصطناعي البصري تسريع سير عملك.
مزيد من القراءة
- استكشف مقاييسYOLO لفهم mAP .
- تعرف على تصدير النموذج للنشر على أجهزة iOS و Android و Edge.
- تحقق من الطرز الأخرى المدعومة مثل YOLO11 و SAM .