YOLOv8 RTDETRv2: مقارنة تقنية متعمقة
يتطور مجال الرؤية الحاسوبية باستمرار، حيث توسع البنى الجديدة حدود الإمكانيات في مجال الكشف عن الأجسام في الوقت الفعلي. ومن النماذج البارزة التي حظيت باهتمام كبير Ultralytics YOLOv8 RTDETRv2 من Baidu. يقدم هذا الدليل مقارنة تقنية شاملة بين هذين النموذجين القويين، ويستكشف بنيتهما ومقاييس أدائهما وسيناريوهات النشر المثالية.
نظرة عامة على YOLOv8
YOLOv8 Ultralytics YOLOv8 علامة فارقة في عائلة نماذج YOLO You Only Look Once). وهو يعتمد على سنوات من الأبحاث الأساسية لتوفير سرعة ودقة واستخدام سهل استثنائيين لمجموعة واسعة من المهام.
الخصائص الرئيسية:
- المؤلفون: جلين جوشر، أيوش شوراسيا، وجينغ تشيو
- المنظمة: Ultralytics
- التاريخ: 10 يناير 2023
- GitHub: Ultralytics
- المستندات: YOLOv8
الهيكلة ونقاط القوة
YOLOv8 بنية مبسطة تعمل على تحسين استخراج الميزات وانحدار المربع المحيط. وهو كاشف خالٍ من المراسي، مما يبسط رأس التنبؤ ويقلل من عدد تعديلات المعلمات الفائقة المطلوبة أثناء التدريب. تضمن هذه البنية توازنًا رائعًا في الأداء بين سرعة الاستدلال والدقة المتوسطة (mAP)، مما يجعلها مناسبة للغاية للنشر في العالم الحقيقي على كل من الأجهزة الطرفية وخوادم السحابة.
علاوة على ذلك، YOLOv8 متطلبات ذاكرة أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات. وهذا يسمح للمطورين بتدريب النماذج على وحدات معالجة الرسومات القياسية للمستهلكين دون مواجهة أخطاء نفاد الذاكرة.
تعدد الاستخدامات
YOLOv8 إحدى نقاط القوة المميزة لـ YOLOv8 تنوعها الأصلي. في حين تركز العديد من النماذج على الصناديق المحددة فقط، YOLOv8 دعمًا جاهزًا للاستخدام لاكتشاف الكائنات وتجزئة الحالات وتصنيف الصور وتقدير الوضع واكتشاف الصناديق المحددة الموجهة (OBB).
نظرة عامة على RTDETRv2
RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) مبني على RT-DETR الأصلي، ويهدف إلى توفير آليات الانتباه القوية لمحولات الرؤية لتطبيقات الكشف عن الأشياء في الوقت الحقيقي.
الخصائص الرئيسية:
- المؤلفون: وينيو لوف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
- المنظمة: Baidu
- التاريخ: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR
- المستندات: RTDETRv2 README
الهيكلة ونقاط القوة
يستفيد RTDETRv2 من بنية هجينة تجمع بين شبكة عصبية تلافيفية (CNN) وهيكل مشفر-مفكك محول. وهذا يسمح للنموذج بالتقاط العلاقات المكانية المعقدة والسياق العام من خلال آليات الانتباه الذاتي. من خلال استخدام مجموعة من استراتيجيات التدريب "bag-of-freebies"، يحقق RTDETRv2 mAP تنافسية في مجموعات البيانات المعيارية القياسية مثل COCO .
نقاط الضعف
على الرغم من دقتها العالية، فإن طبيعة RTDETRv2 القائمة على المحولات تؤدي إلى استهلاك أكبر للذاكرة وأوقات تدريب أبطأ مقارنة بهياكل CNN الخالصة. تتطلب المحولات بطبيعتها المزيد من ذاكرة VRAM، مما يجعل تدريبها على الأجهزة ذات الموارد المحدودة أمراً صعباً. بالإضافة إلى ذلك، في حين أن RTDETRv2 قوية في الكشف، إلا أنها تفتقر إلى تعدد المهام (مثل الوضع والتجزئة) المتأصل في Ultralytics .
مقارنة الأداء
عند تقييم نماذج الإنتاج، فإن المفاضلة بين حجم النموذج وسرعة الاستدلال والدقة أمر بالغ الأهمية. يقدم الجدول أدناه مقارنة مباشرة بين متغيرات YOLOv8 RTDETRv2.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
الأجهزة والمقاييس
تم قياس السرعات باستخدام مثيل Amazon EC2 P4d. تم الاستفادة من CPU ONNX، بينما تم اختبار GPU باستخدام TensorRT.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLOv8 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv8
YOLOv8 خيار قوي لـ:
- نشر متعدد المهام متعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا للكشف والتجزئة والتصنيف وتقدير الوضع داخل نظام Ultralytics .
- أنظمة الإنتاج الراسخة: بيئات الإنتاج الحالية المبنية بالفعل على YOLOv8 مع خطوط إنتاج مستقرة ومختبرة جيدًا.
- دعم واسع من المجتمع والنظام البيئي: تطبيقات تستفيد من البرامج التعليمية الشاملة YOLOv8OLOv8، وعمليات الدمج مع أطراف ثالثة، وموارد المجتمع النشطة.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics
اختيار النموذج لا يقتصر على المقاييس الأولية؛ فالنظام البيئي للبرمجيات المحيط به أمر بالغ الأهمية لإنتاجية المطورين. يشتهر Ultralytics بسهولة استخدامه، حيث يوفر Python موحدة تبسط دورة حياة التعلم الآلي بأكملها.
من إدارة مجموعات البيانات إلى التدريب الموزع، Ultralytics الكود النمطي المعقد. يستفيد المطورون من الأوزان المعدة مسبقًا والمتاحة بسهولة والتكامل السلس مع منصات مثل Hugging Face وأدوات المراقبة. يضمن هذا النظام البيئي الذي يتم صيانته جيدًا التطوير النشط والتحديثات المتكررة والدعم القوي من المجتمع.
علاوة على ذلك، تعد كفاءة التدريب سمة مميزةYOLO Ultralytics YOLO . فهي مُحسّنة للغاية من أجل التوافق السريع وتقليل مساحة الذاكرة المستخدمة أثناء عملية التدريب، مما يسرع بشكل كبير من دورات التجريب مقارنةً بأجهزة الكشف القائمة على المحولات مثل RTDETRv2.
نظرة إلى المستقبل: قوة YOLO26
بينما YOLOv8 قوة دافعة، يجب على المطورين الباحثين عن أحدث التقنيات التفكير في الترقية إلى YOLO26 المرتقب، والذي سيصدر في يناير 2026. يعيد YOLO26 تعريف أحدث التقنيات من خلال العديد من الابتكارات الثورية:
- تصميم شامل NMS: يزيل YOLO26 المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، مما يؤدي إلى سير عمل نشر أسرع وأكثر حتمية.
- إزالة DFL: تعمل إزالة فقدان بؤرة التوزيع على تبسيط النموذج لتحسين التوافق مع الأجهزة ذات الحواف المنخفضة والطاقة المنخفضة.
- مُحسّن MuSGD: من خلال دمج ابتكارات تدريب LLM، يضمن مُحسّن MuSGD تشغيل تدريب أكثر استقرارًا وتقاربًا أسرع.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن بشكل كبير للبيئات التي تفتقر إلى وحدات معالجة رسومات مخصصة.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة للصور الجوية والروبوتات.
من البدائل الحديثة الأخرى التي تستحق الاستكشاف ضمن Ultralytics ما يلي YOLO11، الذي يوفر أداءً قويًا للمشاريع القديمة، على الرغم من أن YOLO26 موصى به لجميع عمليات النشر الجديدة.
مثال على الكود: التدريب والاستدلال
بساطة Ultralytics تطبيقات Ultralytics تعني أنه يمكنك تحميل النماذج وتدريبها ونشرها في بضع أسطر فقط من Python . تأكد من أن لديك PyTorch قبل تشغيل المثال التالي.
from ultralytics import YOLO
# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")
# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)
# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
results[0].show()
# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
جاهز للنشر
Ultralytics التصدير بنقرة واحدة إلى العديد من التنسيقات، بما في ذلك ONNX و TensorRT و CoreML مما يبسط خيارات نشر النماذج عبر بنى الأجهزة المختلفة.
الخلاصة
يوفر كل من YOLOv8 RTDETRv2 إمكانات قوية للكشف عن الكائنات في الوقت الفعلي. يبرهن RTDETRv2 على قوة المحولات في التقاط السياق العام، مما يجعله مناسبًا لمهام الاستدلال المكاني المعقدة حيث لا تشكل سرعة الاستدلال وعبء الذاكرة قيودًا أساسية.
ومع ذلك، بالنسبة للمطورين الذين يولون الأولوية لتحقيق توازن استثنائي بين السرعة والدقة وكفاءة الموارد، تظلYOLO Ultralytics YOLO هي الخيار الأفضل. إن الطبيعة الخفيفة YOLOv8 إلى جانب سهولة استخدامها التي لا مثيل لها، وتعدد استخداماتها في العديد من مهام الرؤية، ونظامها المفتوح المصدر المزدهر، تجعلها الحل الأمثل لبيئات الإنتاج القابلة للتطوير. بالنسبة لأولئك الذين يبحثون عن قمة الأداء المطلق، يوفر YOLO26 الذي تم إصداره مؤخرًا كفاءة لا مثيل لها NMS والتي لا تزال رائدة في هذا المجال.