YOLOv6.0 مقابل RTDETRv2: الموازنة بين السرعة الصناعية ودقة المحولات الصناعية
غالبًا ما ينطوي اختيار البنية المثلى للكشف عن الأجسام على المفاضلة بين زمن الاستنتاج ودقة الكشف. تفحص هذه المقارنة التقنية مقاربتين متميزتين لهذا التحدي: YOLOv6.0، وهو نموذج قائم على شبكة CNN صممته شركة Meituan للسرعة الصناعية، و RTDETRv2، وهي بنية محول الرؤية (ViT) من Baidu المصممة لتحقيق دقة المحول في تطبيقات الوقت الحقيقي.
YOLOv6.0
المؤلفون: تشوي لي، ولولو لي، ويفي جينغ، وهونغليانغ جيانغ، ومنغ تشنغ، وبو تشانغ، وبو تشانغ، وزيدان كي، وشياومينغ شو، وشيانغ شيانغ شيانغ تشو
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: YOLOv6 v3.0: إعادة تحميل كامل النطاق
GitHub: YOLOv6
Docs: وثائقUltralytics YOLOv6
يمثل YOLOv6.0 تطورًا كبيرًا في سلالة الكاشف أحادي المرحلة، وهو مصمم خصيصًا للتطبيقات الصناعية حيث تكون كفاءة الأجهزة ذات أهمية قصوى. وهو يقدم "إعادة تحميل كامل النطاق" للبنية المعمارية التي تتضمن استراتيجيات دمج الميزات المتقدمة واستراتيجيات التدريب لزيادة الإنتاجية على وحدات معالجة الرسومات.
البنية والميزات الرئيسية
تركز بنية YOLOv6.0 على التصميم الملائم للأجهزة. وهي تستخدم عمودًا فقريًا فعّالًا لإعادة المعادلات (RepBackbone) يسمح للنموذج بالحصول على قدرات استخراج ميزات معقدة أثناء التدريب مع الانهيار في بنية مبسطة للاستدلال. تشمل الابتكارات المعمارية الرئيسية ما يلي:
- التسلسل ثنائي الاتجاه (BiC): وحدة نمطية في الرقبة تعمل على تحسين دقة دمج الميزات دون عقوبة حسابية كبيرة.
- التدريب بمساعدة المرساة (AAT): استراتيجية تجمع بين مزايا النماذج القائمة على المرساة والنماذج الخالية من المرساة أثناء مرحلة التدريب لتثبيت التقارب.
- التقطير الذاتي: يستخدم إطار العمل حلقة تدريب بين المعلم والطالب حيث يتعلم النموذج من تنبؤاته الخاصة، مما يعزز الدقة دون زيادة حجم النموذج.
نقاط القوة
- الكفاءة الصناعية: تم تحسين النموذج بشكل واضح لـ TensorRT حيث يوفر زمن انتقال منخفض بشكل استثنائي على وحدات معالجة الرسومات NVIDIA .
- الكمون المنخفض عند الحافة: مع متغيرات "لايت" محددة، تعمل بشكل جيد على أجهزة CPU المحمولة، مما يجعلها مناسبة للماسحات الضوئية الصناعية المحمولة باليد.
- دعم التحويل الكمي: يتميز بدعم قوي للتدريب الواعي بالتقدير الكمي (QAT)، مما يمنع فقدان الدقة بشكل كبير عند الانتقال إلى دقة INT8.
نقاط الضعف
- حدود المهمة: صُمم YOLOv6 في المقام الأول للكشف عن الصندوق المحدود. فهو يفتقر إلى الدعم الأصلي للمهام المعقدة مثل تقدير الوضعية أو اكتشاف الصندوق المحدود الموجه (OBB) الموجود في أطر أكثر تنوعًا.
- تعقيد التدريب: يمكن أن يؤدي الاعتماد على التقطير الذاتي وخطوات إعادة التقطير المتخصصة إلى جعل خط أنابيب التدريب أكثر هشاشة وأصعب في التخصيص مقارنةً بنماذج YOLO القياسية.
حالات الاستخدام المثالية
- التصنيع عالي السرعة: اكتشاف العيوب على سيور النقل سريعة الحركة حيث يكون زمن الاستجابة بالمللي ثانية أمرًا بالغ الأهمية.
- الروبوتات المدمجة: أنظمة الملاحة على منصات مثل NVIDIA Jetson حيث يتم تخصيص موارد الحوسبة بشكل صارم.
RTDETRv2
المؤلفون: وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وغوانزونغ وانغ، ويي ليو
المنظمة: بايدو
التاريخ: 2023-04-17 (أصلي)، 2024-07-24 (الإصدار 2)
Arxiv: RT-DETRv2: خط الأساس المحسّن مع حقيبة المجانية
GitHub: RT-DETR
Docs: وثائقUltralytics RT-DETR
يتحدى RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) هيمنة الشبكات الشبكية ذات الشبكات المتكاملة (CNNs) من خلال إثبات أن المحولات يمكنها تحقيق سرعات في الوقت الحقيقي. وهو يعتمد على نموذج DETR (محول الكشف) ولكنه يعالج التقارب البطيء والتكاليف الحسابية العالية المرتبطة عادةً بآليات الانتباه.
البنية والميزات الرئيسية
يستخدم RTDETRv2 برنامج ترميز هجين يعالج الميزات متعددة المقاييس بكفاءة. على عكس المحولات التقليدية التي تعالج جميع رقع الصور بالتساوي، يركز RTDETRv2 الاهتمام على المناطق ذات الصلة في وقت مبكر من خط الأنابيب.
- مشفر هجين فعال: يفصل بين التفاعل داخل النطاق والاندماج عبر النطاقات لتقليل النفقات الحسابية الزائدة.
- اختيار الاستعلامIoU: يحدد استعلامات الكائنات الأولية عالية الجودة من مخرجات أداة التشفير، مما يحسن من تهيئة وحدة فك التشفير ويسرّع من التقارب.
- تصميم خالٍ من المرساة: يلغي الحاجة إلى المعالجة اللاحقة للقمع غير الأقصىNMS، مما يبسّط خط أنابيب النشر ويقلل من تباين زمن الاستجابة في المشاهد المزدحمة.
نقاط القوة
- الوعي بالسياق العالمي: تسمح آلية الانتباه الذاتي للنموذج "برؤية" الصورة بأكملها في آنٍ واحد، مما يؤدي إلى اكتشاف أفضل للأجسام المحجوبة مقارنةً بنماذج CNNs التي تعتمد على مجالات الاستقبال المحلية.
- سقف دقة عالية: يحقق باستمرار أعلى mAP أعلى باستمرار على مجموعة بياناتCOCO لمقياس نموذج معين مقارنةً بالعديد من نظائر CNN.
- NMS: يجعل غياب NMS وقت الاستدلال أكثر تحديدًا، وهي ميزة مهمة لأنظمة الوقت الحقيقي.
نقاط الضعف
- كثافة الذاكرة: تتطلب المحولات المزيد من ذاكرة الوصول العشوائي (VRAM) أثناء التدريب والاستدلال بسبب التعقيد التربيعي لمصفوفات الانتباه (على الرغم من أن RTDETR تعمل على تحسين ذلك).
- جوع البيانات: تتطلب محولات الرؤية عمومًا مجموعات بيانات أكبر وجداول زمنية أطول للتدريب حتى تتقارب بشكل كامل مقارنةً بمحوّلات الرؤية مثل YOLOv6.
حالات الاستخدام المثالية
- مشاهد حركة المرور المعقدة: الكشف عن المشاة والمركبات في البيئات الكثيفة والفوضوية حيث يكون الانسداد شائعًا.
- القيادة الذاتية: التطبيقات التي تتطلب إدراكاً عالي الموثوقية حيث تفوق تكلفة الكشف الفائت تكلفة متطلبات الأجهزة الأعلى قليلاً.
مقارنة الأداء
يقارن الجدول التالي بين أداء YOLOv6.0 وRTDETRv2. بينما تتفوق RTDETRv2 على RTDETRv2 من حيث الدقة، يحتفظ YOLOv6.0 بميزة في سرعة الاستدلال الخام، خاصةً على مقياس "النانو".
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0 م | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0L | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
التحليل
- السرعة مقابل الدقة: في
YOLOv6-3.0nخفيف الوزن بشكل لا يصدق (استنتاج 1.17 مللي ثانية)، مما يجعلها ملكًا بلا منازع للأجهزة المقيدة للغاية. ومع ذلك، إذا كانت الدقة هي الأولوية,RTDETRv2-sيوفر مستوى أعلى بكثير mAP (48.1) منYOLOv6-3.0s(45.0) وإن كان ذلك بضعف زمن الاستدلال تقريبًا (5.03 مللي ثانية مقابل 2.66 مللي ثانية). - سلوك التحجيم: كلما زاد حجم النموذج، تضيق الفجوة.
RTDETRv2-l(53.4 mAP) يتفوق علىYOLOv6-3.0l(52.8 mAP) مع وجود عدد أقل من المعلمات (42 مليونًا مقابل 59.6 مليونًا)، مما يوضح كفاءة المعلمات في بنية المحول، على الرغم من أن وحدات FLOP تظل متشابهة. - الآثار المترتبة على الأجهزة: تكمن ميزة YOLOv6 في هيكلية الـ CNN النقية التي تتوافق مباشرةً مع مسرعات الأجهزة. يتطلب RTDETRv2 أجهزة يمكنها التعامل بكفاءة مع عمليات مضاعفة المصفوفات وعمليات الانتباه لتحقيق سرعته النظرية.
اعتبارات النشر
عند النشر على الأجهزة المتطورة، تذكر أن "المعلمات" لا ترتبط دائمًا بالسرعة تمامًا. في حين أن RTDETRv2 قد يحتوي على عدد أقل من المعلمات في بعض التكوينات، إلا أن أنماط الوصول إلى الذاكرة (الانتباه) يمكن أن تكون أبطأ على الأجهزة القديمة مقارنةً بالالتفافات المحسّنة للغاية في YOLOv6.
منهجيات التدريب
يختلف المشهد التدريبي لهذين النموذجين اختلافًا كبيرًا، مما يؤثر على الموارد المطلوبة للتطوير.
يتبع YOLOv6.0 ممارسات التعلم العميق القياسية لشبكات CNN. فهو يستفيد من جداول التدريب الأقصر (عادةً 300-400 حقبة) واستهلاك أقل لذاكرة GPU . يتم التعامل مع تقنيات مثل التقطير الذاتي داخليًا ولكنها تضيف طبقة من التعقيد إلى حساب دالة الخسارة.
يتطلب RTDETRv2، كونه يعتمد على المحولات، يتطلب بشكل عام المزيد من CUDA أثناء التدريب. إن التعقيد التربيعي لآلية الانتباه فيما يتعلق بحجم الصورة يعني أن أحجام الدفعات غالباً ما تحتاج إلى تقليل أحجام الدفعات، أو استخدام وحدات معالجة رسومات أكثر قوة. علاوة على ذلك، غالبًا ما تستفيد المحولات من آفاق تدريب أطول لتعلم العلاقات المكانية بشكل كامل دون تحيزات استقرائية.
ميزة Ultralytics
في حين أن كلاً من YOLOv6 و RTDETR يقدمان ميزات مقنعة لمنافذ محددة, Ultralytics YOLO11 حلًا موحدًا يوازن بين أفضل ما في العالمين. فهو يدمج كفاءة شبكات CNN مع التحسينات المعمارية الحديثة التي تنافس دقة المحولات، وكل ذلك ضمن نظام بيئي مصمم لإنتاجية المطورين.
لماذا تختار نماذج Ultralytics
- سهولة الاستخدام: توفر Ultralytics واجهة برمجة تطبيقات Pythonic API التي تلخص تعقيدات التدريب والنشر. يمكنك تدريب نموذج متطور في ثلاثة أسطر من التعليمات البرمجية.
- توازن الأداء: صُمم YOLO11 لتقديم مفاضلة مثالية. فهو يوفر سرعات استدلال في الوقت الحقيقي مماثلة لسرعة YOLOv6 مع تحقيق مستويات دقة تتحدى RTDETR، دون الحاجة إلى الذاكرة الضخمة للمحولين.
- تعدد الاستخدامات: على عكس YOLOv6 (الاكتشاف فقط)، تدعم نماذج Ultralytics أصلاً تجزئة المثيل وتقدير الوضعية والتصنيف واكتشاف الصندوق المحدد الموجه (OBB).
- نظام بيئي جيد الصيانة: مع التحديثات المتكررة، والتوثيق الشامل، والدعم المجتمعي، لن تُترك أبدًا بمفردك لتصحيح الأخطاء.
- كفاءة التدريب: تشتهر نماذج Ultralytics بكفاءة خطوط أنابيب التدريب الخاصة بها، مما يسمح بالتكرار السريع حتى على الأجهزة المتواضعة.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
الخلاصة
يُعدّ كل من YOLOv6.0 وRTDETRv2 إنجازين رائعين في مجال الرؤية الحاسوبية. YOLOv6.0 هو الخيار العملي لخطوط الأنابيب الصناعية الصارمة حيث تكون الأجهزة ثابتة والسرعة هي المقياس الوحيد المهم. يعد RTDETRv2 خيارًا ممتازًا للأبحاث والتطبيقات المتطورة حيث تكون الدقة في المشاهد المعقدة أمرًا بالغ الأهمية وتكون موارد الأجهزة وفيرة.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية, Ultralytics YOLO11 يظل الخيار الأفضل. فهو يوفر "نقطة رائعة" من الأداء وتعدد الاستخدامات وسهولة الاستخدام التي تسرّع الرحلة من المفهوم إلى الإنتاج. سواء أكنت باحثًا يحتاج إلى تجارب سريعة أو مهندسًا يقوم بالنشر على آلاف الأجهزة المتطورة، فإن نظام Ultralytics البيئي يوفر الأدوات اللازمة لضمان النجاح.
استكشف نماذج أخرى
إذا كنت مهتمًا بإجراء المزيد من المقارنات، يمكنك استكشاف هذه الموارد في وثائق Ultralytics :