YOLOv8 RTDETRv2: نظرة متعمقة على الكشف عن الكائنات في الوقت الفعلي
لطالما هيمنت الشبكات العصبية التلافيفية (CNN) على مجال اكتشاف الأجسام ، ولكن ظهور البنى القائمة على المحولات قد أدخل نماذج جديدة وجذابة. تستكشف هذه المقارنة التقنية الاختلافات بين Ultralytics YOLOv8، المعيار الصناعي للرؤية المتعددة الاستخدامات في الوقت الفعلي، و RTDETRv2 (Real-Time DEtection TRansformer version 2)، وهو نموذج قوي موجه للبحث من Baidu.
بينما YOLOv8 الكفاءة المثبتة لشبكات CNN في توفير السرعة وسهولة الاستخدام، يستفيد RTDETRv2 من محولات الرؤية لالتقاط السياق العام، مما يوفر نهجًا مختلفًا للدقة.
مقارنة مقاييس الأداء
يُقارن الجدول التالي بين مقاييس الأداء الرئيسية. في حين يُظهر RTDETRv2 دقة عالية في COCOYOLOv8 مجموعة أوسع من أحجام النماذج (من Nano إلى X-Large) وسرعات استدلال فائقة على الأجهزة القياسية، مما يبرز تحسينه للاستخدام في العالم الواقعي.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
نظرة عامة على النموذج
Ultralytics YOLOv8
YOLOv8 يمثل قفزة كبيرة في YOLO وهو مصمم ليكون نموذج الذكاء الاصطناعي البصري الأكثر سهولة في الاستخدام والأكثر قدرة في العالم. ويقدم بنية متطورة خالية من المراسي توازن بين دقة الكشف ووقت الاستدلال عبر مجموعة كبيرة ومتنوعة من الأجهزة المستهدفة، من أجهزة NVIDIA المدمجة إلى واجهات برمجة التطبيقات السحابية.
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المؤسسة:Ultralytics
- تاريخ الإصدار: 10 يناير 2023
- الإطار: PyTorch مع تصدير أصلي إلى ONNX و OpenVINO و CoreML و TFLite)
- GitHub:ultralytics/ultralytics
RTDETRv2
RTDETRv2 هو تطور لـ Real-Time DEtection TRansformer (RT-DETR). ويهدف إلى حل مشكلة التكلفة الحسابية العالية التي ترتبط عادةً بـ Vision Transformers (ViTs) باستخدام مشفر هجين فعال وإزالة الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS) من خلال بنية فك التشفير الخاصة بالمحول.
- المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
- المنظمة: بايدو
- تاريخ الإصدار: 17 أبريل 2023 ( RT-DETR الأصلي)، يوليو 2024 (ورقة v2)
- الإطار: PyTorch
- GitHub:lyuwenyu/RT-DETR
- Arxiv:RT-DETRv2 Paper
الاختلافات المعمارية
يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للسمات البصرية.
YOLOv8 يستخدم هيكل أساسي قائم على CNN مع وحدة C2f (عنق زجاجة جزئي عبر المراحل مع اثنين من التلافيف). يعزز هذا التصميم تدفق التدرج وغنى الميزات مع الحفاظ على حجم خفيف الوزن. ويستخدم رأسًا خاليًا من المراسي، والذي يتنبأ بمراكز الكائنات مباشرةً بدلاً من تعديل مربعات المراسي المحددة مسبقًا. وهذا يبسط عملية التدريب ويحسن التعميم على أشكال الكائنات غير المنتظمة.
يستخدم RTDETRv2 مشفرًا هجينًا يعالج الميزات متعددة النطاقات. على عكس المحولات التقليدية التي تتطلب حسابات معقدة، يفصل RTDETRv2 التفاعل داخل النطاق (باستخدام CNNs) والاندماج عبر النطاقات (باستخدام Attention)، مما يحسن السرعة بشكل كبير. وتتمثل ميزته المميزة في محول فك التشفير مع اختيار الاستعلامات IoU مما يسمح له بإخراج مجموعة ثابتة من المربعات المحيطة دون الحاجة إلى NMS.
NMS NMS
تقليديًا، YOLOv8 أجهزة الكشف عن الأجسام مثل YOLOv8 تقنية Non-Maximum Suppression (NMS) لتصفية المربعات المتداخلة. تتميز بنية المحول في RTDETRv2 بكونها NMS بشكل أساسي. ومع ذلك، فإن أحدث Ultralytics ، YOLO26، يتميز الآن أيضًا بتصميم NMS من البداية إلى النهاية، حيث يجمع بين أفضل سرعة CNN وبساطة المحول.
النظام البيئي وسهولة الاستخدام
وهنا يظهر الفرق بوضوح أكبر بالنسبة للمطورين والمهندسين.
Ultralytics البيئي:
YOLOv8 مجرد نموذج؛ إنه جزء من منصة ناضجة. ultralytics توفر Python واجهة موحدة لـ التدريب, التحقق, التنبؤ، و تصدير.
- تعدد الاستخدامات: دعم أصلي لتقسيم الحالات، وتقدير الوضع، والتصنيف، و OBB. RTDETRv2 هو في الأساس مستودع أبحاث يركز على الكشف.
- أوضاع التصدير: بسطر واحد من التعليمات البرمجية، يتم تصدير YOLOv8 إلى ONNXو TensorRTو CoreML و TFLite مما يضمن النشر السلس على الأجهزة المحمولة والأجهزة الطرفية.
- المجتمع: يضمن مجتمع ضخم يضم ملايين المستخدمين توفر البرامج التعليمية والأدلة والتكاملات الخارجية (مثل Ultralytics و Comet) متاحة بسهولة.
نظام RTDETRv2: RTDETRv2 هو مستودع على مستوى الأبحاث. على الرغم من أنه يقدم نتائج أكاديمية ممتازة، إلا أنه غالبًا ما يتطلب مزيدًا من التكوين اليدوي لمجموعات البيانات المخصصة ويفتقر إلى الصقل "الجاهز للاستخدام" الذي يتميز به Ultralytics . قد يجد المستخدمون صعوبة في نشره على أجهزة حافة مقيدة مثل Raspberry Pi دون بذل جهد هندسي كبير.
مثال على التعليمات البرمجية: بساطة Ultralytics
تدريب YOLOv8 بديهي ويتطلب الحد الأدنى من الكود النمطي:
from ultralytics import YOLO
# Load a pretrained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train on a custom dataset with one command
# The system handles data loading, augmentation, and logging automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for production
model.export(format="onnx")
كفاءة التدريب واستخدام الموارد
كفاءة الذاكرة: تم تصميمYOLO Ultralytics YOLO لتحقيق الكفاءة. وعادةً ما تتطلب GPU (VRAM) أقل أثناء التدريب مقارنةً بالبنى القائمة على المحولات. وهذا يتيح للباحثين تدريب أحجام دفعات أكبر على بطاقات المستهلكين (مثل NVIDIA 3060/4070)، مما يتيح الوصول إلى الذكاء الاصطناعي عالي الأداء للجميع.
يمكن أن يكون RTDETRv2، الذي يعتمد على آليات الانتباه، أكثر استهلاكًا للذاكرة. غالبًا ما تتطلب المحولات جداول تدريب أطول للتقارب الكامل مقارنة بالتقارب السريع لشبكات CNN مثل YOLOv8.
استقرار التدريب: YOLOv8 من التطور الشامل للمعلمات الفائقة في COCO مما ينتج عنه عمليات تدريب مستقرة مع الحد الأدنى من الضبط. توفر Ultralytics Ultralytics لتصور المقاييس وإدارة التجارب بسهولة.
تطبيقات عملية في أرض الواقع
أين يتفوق YOLOv8
YOLOv8 "سكين الجيش السويسري" للرؤية الحاسوبية، وهو مثالي لـ:
- Edge AI & IoT: يعمل على أجهزة منخفضة الطاقة مثل Android أو الكاميرات الذكية.
- الروبوتات: التنقل في الوقت الفعلي وتجنب العوائق حيث كل مللي ثانية من زمن الاستجابة مهمة.
- الفحص الصناعي: خطوط التجميع عالية السرعة التي تتطلب الكشف والتجزئة و OBB (للأجزاء الدوارة) في وقت واحد.
- تحليلات رياضية: تتبع الحركات السريعة للاعبين باستخدام تقدير الوضع.
أين يتناسب RTDETRv2
RTDETRv2 هو منافس قوي في:
- المعالجة من جانب الخادم: التطبيقات التي تعمل على وحدات معالجة رسومات قوية حيث قيود الذاكرة أقل.
- فهم المشاهد المعقدة: سيناريوهات يمكن فيها لآلية الانتباه الشامل أن تفصل بشكل أفضل بين الكائنات المتداخلة في الحشود الكثيفة.
- البحث: معايير أكاديمية حيث mAP الهدف الأساسي mAP الحصول على آخر 0.1٪ من mAP .
المستقبل: أدخل YOLO26
على الرغم من أن YOLOv8 RTDETRv2 كلاهما ممتازان، إلا أن هذا المجال يتطور بسرعة. أصدرت Ultralytics YOLO26، الذي يجمع بين نقاط القوة في كلا النظامين.
لماذا الترقية إلى YOLO26؟
- NMS بشكل أصلي: مثل RTDETRv2، يزيل YOLO26 NMS مما يبسط خطوط النشر ويثبت زمن الاستدلال، ولكنه يفعل ذلك ضمن YOLO الفعال.
- MuSGD Optimizer: مستوحى من ابتكارات تدريب LLM (مثل Kimi K2 من Moonshot AI)، يضمن هذا المحسن الهجين تدريبًا مستقرًا وتقاربًا أسرع.
- مُحسّن لـ Edge: يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة، مما يجعله أكثر عملية بشكل ملحوظGPU مقارنةً بالأنظمة الثقيلة التي تعتمد على محولات.
- إزالة DFL: تعمل إزالة Distribution Focal Loss على تبسيط الرسم البياني للنموذج، مما يجعل التصدير إلى وحدات NPU المدمجة أكثر سلاسة.
بالنسبة للمطورين الذين يبحثون عن دقة المحولات الحديثة مع سرعة ونظام Ultralytics فإن YOLO26 هو الخيار الموصى به للمشاريع الجديدة في عام 2026.
ملخص
| ميزة | Ultralytics YOLOv8 | RTDETRv2 |
|---|---|---|
| البنية | CNN (C2f، بدون مذيع) | مشفر هجين + مفكك محول |
| NMS | نعم (قياسي) | لا ( NMS أصلاً) |
| سرعة التدريب | التقارب السريع | أبطأ، يتطلب المزيد من العصور |
| دعم المهام | الكشف، والتقسيم، والتصنيف، والتصنيف، OBB | detect بشكل أساسي |
| سهولة الاستخدام | عالية (واجهة برمجة تطبيقات بسيطة، وثائق شاملة) | معتدل (مستودع الأبحاث) |
| النشر | تصدير بنقرة واحدة (ONNX، TRT، CoreML) | يلزم التصدير اليدوي |
بالنسبة لمعظم المستخدمين، YOLOv8 (و YOLO26 الأحدث) أفضل توازن بين الأداء والتنوع وتجربة المطور. إن قدرته على التوسع من الأجهزة الصغيرة إلى المجموعات الضخمة، إلى جانب Ultralytics الشاملة، تجعله الخيار الأكثر أمانًا وقوة لأنظمة الإنتاج.