RTDETRv2 ضد YOLOv6-3.0: محولات عالية الدقة تلبي السرعة الصناعية
غالبًا ما ينطوي اختيار بنية الكشف عن الكائنات المثالية على التنقل بين المفاضلة بين الدقة المطلقة وزمن الوصول للاستدلال. تستكشف هذه المقارنة الفنية RTDETRv2، وهو نموذج قائم على محول الرؤية مصمم لمهام عالية الدقة، و YOLOv6-3.0، وهو كاشف قائم على CNN مصمم خصيصًا للسرعة والكفاءة الصناعية. من خلال تحليل بنياتها ومقاييس الأداء وخصائص النشر، نساعدك في تحديد أفضل حل لتطبيقات رؤية الحاسوب الخاصة بك.
RTDETRv2: دفع الحدود باستخدام محولات الرؤية
يمثل RTDETRv2 (Real-Time Detection Transformer v2) تطورًا كبيرًا في اكتشاف الكائنات، حيث يستفيد من قوة المحولات لالتقاط السياق العام داخل الصور. على عكس CNNs التقليدية التي تعالج الميزات المحلية، يستخدم RTDETRv2 آليات الانتباه الذاتي لفهم العلاقات بين الكائنات البعيدة، مما يجعله فعالاً للغاية للمشاهد المعقدة.
المؤلفون: ويني يو ليو، ييان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة:بايدو
التاريخ: 2023-04-17 (الأولي)، 2024-07-24 (v2)
Arxiv:RT-DETR: DETRs Beat YOLOs on Real-time Object Detection
GitHub:RT-DETR Repository
المستندات:RTDETRv2 Documentation
الابتكارات المعمارية
تعتبر بنية RTDETRv2 تصميمًا هجينًا. وهي تستخدم CNN backbone قياسيًا (عادةً ResNet أو HGNet) لاستخراج الميزات الأولية، يليه ترميز-فك ترميز transformer. يسمح هذا الهيكل للنموذج بمعالجة الميزات متعددة النطاقات بفعالية مع إلغاء الحاجة إلى المكونات المصممة يدويًا مثل مربعات الربط و Non-Maximum Suppression (NMS).
ميزة المحولات (Transformer)
تتفوق مكونات محول الرؤية (ViT) في RTDETRv2 في حل الغموض في المشاهد المزدحمة. من خلال تحليل سياق الصورة بالكامل في وقت واحد، يقلل النموذج من النتائج الإيجابية الخاطئة الناتجة عن الانسداد أو فوضى الخلفية.
نقاط القوة والضعف
نقاط القوة:
- دقة فائقة: يحقق بشكل عام متوسط دقة أعلى (mAP) على مجموعات البيانات مثل COCO مقارنة بالشبكات العصبية التلافيفية CNNs ذات الحجم المماثل.
- تصميم خالٍ من المرتكزات (Anchor-Free Design): يبسط مسار الكشف عن طريق إزالة مربعات الارتكاز، مما يقلل من ضبط المعلمات الفائقة.
- Global Context: ممتاز في detect الأجسام في البيئات المزدحمة أو المشوشة حيث تكون الميزات المحلية غير كافية.
نقاط الضعف:
- التكلفة الحسابية: يتطلب FLOPs وذاكرة GPU أعلى بشكل ملحوظ، خاصة أثناء التدريب.
- الكمون: على الرغم من أنه "في الوقت الفعلي"، إلا أنه يتخلف عمومًا عن شبكات CNN المحسّنة مثل YOLOv6 في سرعة الاستدلال الخام على الأجهزة المكافئة.
- نهم البيانات: غالبًا ما تتطلب نماذج Transformer مجموعات بيانات تدريب أكبر وجداول تدريب أطول للوصول إلى نقطة التقارب.
YOLOv6-3.0: مسرع السرعة الصناعية
يركز YOLOv6-3.0، الذي تم تطويره بواسطة Meituan، بشكل مباشر على احتياجات التطبيقات الصناعية: زمن انتقال منخفض وإنتاجية عالية. يقوم بتحسين نموذج كاشف الكائنات ذو المرحلة الواحدة الكلاسيكي لزيادة الكفاءة إلى أقصى حد على الأجهزة التي تتراوح من الأجهزة الطرفية إلى وحدات معالجة الرسوميات (GPUs).
المؤلفون: تشويي لي، لولو لي، ييفي قنغ، هونغليانغ جيانغ، مينغ تشنغ، بو تشانغ، زايدان كه، شياومينغ شو، و شيانغشيانغ تشو
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:YOLOv6 v3.0: إعادة تحميل كاملة النطاق
GitHub:مستودع YOLOv6
المستندات:مستندات Ultralytics YOLOv6
تعرف على المزيد حول YOLOv6-3.0
أُحسِنت لتحقيق الكفاءة
يتضمن YOLOv6-3.0 فلسفة تصميم "مراعية للأجهزة". وهو يستخدم Efficient Reparameterization Backbone (نمط RepVGG) الذي يبسط الشبكة إلى مجموعة بسيطة من الالتواءات 3x3 أثناء الاستدلال، مما يلغي تعقيد الفروع المتعددة. بالإضافة إلى ذلك، فإنه يستخدم تقنيات التقطير الذاتي أثناء التدريب لتعزيز الدقة دون إضافة تكلفة الاستدلال.
نقاط القوة والضعف
نقاط القوة:
- سرعة استثنائية: يوفر زمن وصول منخفض جدًا، مما يجعله مثاليًا لخطوط التصنيع عالية السرعة و الروبوتات.
- سهولة النشر: يسهل تصدير الهيكل المعاد تحديده إلى تنسيقات مثل ONNX و TensorRT لتحقيق أقصى قدر من الأداء.
- كفاءة الأجهزة: مُحسَّن للاستفادة الكاملة من وحدات حساب وحدة معالجة الرسوميات (GPU)، مما يقلل من وقت الخمول.
نقاط الضعف:
- سقف الدقة: على الرغم من قدرته التنافسية، قد يواجه صعوبة في مطابقة ذروة دقة النماذج القائمة على المحولات في السيناريوهات المرئية المعقدة للغاية.
- تنوع محدود: يركز بشكل أساسي على الاكتشاف (detection)، ويفتقر إلى الدعم الأصلي لمهام مثل تقسيم المثيل أو تقدير الوضع الموجودة في الأطر الأحدث.
تحليل الأداء: السرعة مقابل الدقة
غالبًا ما يعتمد الاختيار بين RTDETRv2 و YOLOv6-3.0 على القيود المحددة لبيئة النشر. يهيمن RTDETRv2 في السيناريوهات التي تتطلب أعلى دقة ممكنة، بينما يفوز YOLOv6-3.0 بالسرعة والكفاءة الخام.
يقارن الجدول التالي المقاييس الرئيسية. لاحظ كيف يحقق YOLOv6-3.0 وقت استجابة أقل (سرعة أعلى) عند مقاييس نموذج مماثلة، بينما يدفع RTDETRv2 للحصول على درجات mAP أعلى على حساب كثافة الحساب (FLOPs).
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
التدريب ومتطلبات الموارد
عند تطوير نماذج مخصصة، تختلف تجربة التدريب اختلافًا كبيرًا.
- استخدام الذاكرة: يتطلب RTDETRv2 ذاكرة وصول عشوائي مرئية كبيرة لوحدة معالجة الرسومات (GPU VRAM) نظرًا للتعقيد التربيعي لآليات الانتباه. غالبًا ما يتطلب تدريب متغيرات "Large" أو "X-Large" وحدات معالجة رسومات (GPUs) متطورة. في المقابل، فإن نماذج Ultralytics YOLO و YOLOv6 أكثر كفاءة في استخدام الذاكرة بشكل عام، مما يسمح بالتدريب على الأجهزة الاستهلاكية أو مثيلات السحابة الأصغر.
- التقارب: تحتاج النماذج القائمة على المحولات عادةً إلى epochs أطول لتعلم التسلسلات الهرمية المكانية التي تلتقطها الشبكات العصبية التلافيفية بشكل حدسي، مما قد يزيد من تكاليف الحوسبة السحابية.
متوازن بشكل مثالي: ميزة Ultralytics
في حين أن RTDETRv2 و YOLOv6-3.0 يتفوقان في مكانتيهما الخاصتين، فإن Ultralytics YOLO11 يقدم حلاً موحدًا يعالج قيود كليهما. فهو يجمع بين سهولة الاستخدام وسرعة شبكات CNN مع تحسينات معمارية تنافس دقة المحولات.
لماذا يفضل المطورون والباحثون نماذج Ultralytics بشكل متزايد؟
- تعدد الاستخدامات: على عكس YOLOv6، الذي يقتصر على الاكتشاف، تدعم Ultralytics كلاً من image classification و segmentation و pose estimation و Oriented Bounding Box (OBB) detection ضمن واجهة برمجة تطبيقات واحدة.
- نظام بيئي مُدار بشكل جيد: توفر منصة Ultralytics تحديثات متكررة ودعمًا مجتمعيًا واسعًا وعمليات تكامل سلسة مع أدوات مثل MLflow و TensorBoard و Ultralytics HUB.
- سهولة الاستخدام: مع فلسفة "التعليمات البرمجية المنخفضة"، يمكنك تدريب النماذج الحديثة والتحقق من صحتها ونشرها ببضعة أسطر فقط من أوامر Python أو CLI.
- موازنة الأداء: يوفر YOLO11 نقطة التقاء ممتازة لسرعة الاستدلال في الوقت الفعلي والدقة العالية، وغالبًا ما يتفوق على إصدارات YOLO الأقدم ويضاهي المحولات المعقدة في السيناريوهات العملية.
مثال على التعليمات البرمجية
اختبر بساطة واجهة برمجة التطبيقات Ultralytics. يوضح المثال التالي كيفية تحميل نموذج مدرب مسبقًا وتشغيل الاستدلال على صورة:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Process results
for result in results:
result.show() # Display results on screen
result.save(filename="result.jpg") # Save results to disk
الخلاصة
تعتبر كل من RTDETRv2 و YOLOv6-3.0 علامات بارزة في تاريخ رؤية الكمبيوتر. يعتبر RTDETRv2 خيارًا ممتازًا للبحث والسيناريوهات التي تكون فيها الدقة هي الأولوية المطلقة، بغض النظر عن التكلفة الحسابية. يخدم YOLOv6-3.0 القطاع الصناعي جيدًا، حيث يوفر سرعة قصوى للبيئات الخاضعة للرقابة.
ومع ذلك، بالنسبة لمعظم التطبيقات الواقعية التي تتطلب حلاً قويًا ومتعدد الاستخدامات وسهل النشر، يبرز Ultralytics YOLO11 باعتباره الخيار الأفضل. إن جمعه بين الأداء المتطور والبصمة الصغيرة للذاكرة والنظام البيئي المزدهر يمكّن المطورين من الانتقال من النموذج الأولي إلى الإنتاج بثقة وسرعة.
استكشف نماذج أخرى
اكتشف كيف تتم مقارنة الهياكل المختلفة للعثور على الملاءمة المثالية لمشروعك: