YOLOv6-3.0 ضد RTDETRv2: الموازنة بين السرعة الصناعية ودقة المحولات
غالبًا ما ينطوي اختيار بنية الكشف عن الكائنات المثالية على مفاضلة بين زمن الوصول للاستدلال ودقة الكشف. تقارن هذه المقارنة الفنية بين منهجين متميزين لهذا التحدي: YOLOv6-3.0، وهو نموذج قائم على CNN تم تصميمه بواسطة Meituan للسرعة الصناعية، و RTDETRv2، وهي بنية محول الرؤية (ViT) من Baidu مصممة لجلب دقة المحولات إلى تطبيقات الوقت الفعلي.
YOLOv6-3.0
المؤلفون: تشوي لي، لولو لي، ييفي قنغ، هونغ ليانغ جيانغ، منغ تشنغ، بو تشانغ، زيدان كه، شياو مينغ شو، و شيانغ شيانغ تشو
المنظمة: ميتوان
التاريخ: 2023-01-13
Arxiv: YOLOv6 v3.0: A Full-Scale Reloading
GitHub: meituan/YOLOv6
المستندات: Ultralytics YOLOv6 Documentation
يمثل YOLOv6-3.0 تطورًا كبيرًا في سلالة الكشف أحادي المرحلة، وهو مصمم خصيصًا للتطبيقات الصناعية حيث تكون كفاءة الأجهزة ذات أهمية قصوى. يقدم "إعادة تحميل كاملة النطاق" للهيكل، ويتضمن دمجًا متقدمًا للميزات واستراتيجيات التدريب لزيادة الإنتاجية إلى أقصى حد على وحدات معالجة الرسوميات GPUs.
البنية والميزات الرئيسية
يركز هيكل YOLOv6-3.0 على التصميم الملائم للأجهزة. يستخدم Efficient Reparameterization Backbone (RepBackbone) الفعال الذي يسمح للنموذج بالحصول على قدرات استخراج ميزات معقدة أثناء التدريب مع الانهيار في هيكل مبسط للاستدلال. تشمل الابتكارات المعمارية الرئيسية ما يلي:
- الربط ثنائي الاتجاه (BiC): وحدة في العنق تعمل على تحسين دقة دمج الميزات دون فرض عقوبة حسابية كبيرة.
- التدريب بمساعدة المرتكزات (AAT): استراتيجية تجمع بين فوائد النماذج القائمة على المرتكزات والخالية من المرتكزات خلال مرحلة التدريب لتحقيق استقرار التقارب.
- التقطير الذاتي: يستخدم الإطار حلقة تدريب المعلم والطالب حيث يتعلم النموذج من تنبؤاته الخاصة، مما يعزز الدقة دون زيادة حجم النموذج.
نقاط القوة
- الكفاءة الصناعية: تم تحسين النموذج بشكل صريح لنشر TensorRT، مما يوفر زمن انتقال منخفض للغاية على وحدات معالجة الرسومات NVIDIA.
- زمن انتقال منخفض على الحافة: مع متغيرات "Lite" محددة، فإنه يعمل بشكل جيد على أجهزة CPU المحمولة، مما يجعله مناسبًا للماسحات الضوئية الصناعية المحمولة.
- Quantization Support: يتميز بدعم قوي للتدريب المدرك للتكميم (QAT)، مما يمنع فقدانًا كبيرًا في الدقة عند الانتقال إلى دقة INT8.
نقاط الضعف
- قيود المهمة: تم تصميم YOLOv6 في المقام الأول لاكتشاف مربعات الإحاطة. يفتقر إلى الدعم الأصلي للمهام المعقدة مثل تقدير الوضع أو اكتشاف مربعات الإحاطة الموجهة (OBB) الموجودة في الأطر الأكثر تنوعًا.
- تعقيد التدريب: يمكن أن يجعل الاعتماد على التقطير الذاتي وخطوات إعادة المعلمات المتخصصة خط أنابيب التدريب أكثر هشاشة ويصعب تخصيصه مقارنة بنماذج YOLO القياسية.
حالات الاستخدام المثالية
- تصنيع عالي السرعة: اكتشاف العيوب على أحزمة النقل سريعة الحركة حيث يكون زمن الوصول بالمللي ثانية أمرًا بالغ الأهمية.
- الروبوتات المدمجة: أنظمة الملاحة على منصات مثل NVIDIA Jetson حيث يتم تخصيص موارد الحوسبة بشكل صارم.
تعرف على المزيد حول YOLOv6-3.0
RTDETRv2
المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
المنظمة: Baidu
التاريخ: 2023-04-17 (الأصلي), 2024-07-24 (v2)
Arxiv: RT-DETRv2: Improved Baseline with Bag-of-Freebies
GitHub: lyuwenyu/RT-DETR
المستندات: Ultralytics RT-DETR Documentation
يتحدى RTDETRv2 (Real-Time Detection Transformer v2) هيمنة CNNs من خلال إثبات أن المحولات يمكن أن تحقق سرعات في الوقت الفعلي. إنه يبني على نموذج DETR (Detection Transformer) ولكنه يعالج التقارب البطيء والتكاليف الحسابية العالية المرتبطة عادةً بـ آليات الانتباه.
البنية والميزات الرئيسية
يستخدم RTDETRv2 وحدة ترميز هجينة تعالج ميزات متعددة المقاييس بكفاءة. بخلاف المحولات التقليدية التي تعالج جميع رقع الصور بالتساوي، يركز RTDETRv2 الانتباه على المناطق ذات الصلة في وقت مبكر من خط الأنابيب.
- مشفر هجين فعال: يفصل التفاعل داخل النطاق والاندماج عبر النطاقات لتقليل النفقات الحسابية.
- تحديد الاستعلام المدرك لـ IoU: يحدد استعلامات الكائن الأولية عالية الجودة من خرج المشفر، مما يحسن تهيئة وحدة فك الترميز ويسرع التقارب.
- تصميم خالٍ من المرتكزات (Anchor-Free Design): يلغي الحاجة إلى معالجة ما بعد المعالجة Non-Maximum Suppression (NMS)، مما يبسط مسار النشر ويقلل من تباين زمن الوصول في المشاهد المزدحمة.
نقاط القوة
- Global Context Awareness: تسمح آلية الانتباه الذاتي للنموذج "برؤية" الصورة بأكملها مرة واحدة، مما يؤدي إلى تحسين detect الأجسام المحجوبة مقارنة بالشبكات العصبونية التفافية (CNNs) التي تعتمد على مجالات الاستقبال المحلية.
- سقف دقة عالي: يحقق باستمرار درجات mAP أعلى على مجموعة بيانات COCO لمقياس نموذج معين مقارنة بالعديد من نظائر CNN.
- بدون NMS: إن عدم وجود NMS يجعل وقت الاستدلال أكثر تحديدًا، وهي ميزة كبيرة للأنظمة في الوقت الفعلي.
نقاط الضعف
- كثافة الذاكرة: تتطلب المحولات المزيد من VRAM بشكل ملحوظ أثناء التدريب والاستدلال بسبب التعقيد التربيعي لمصفوفات الانتباه (على الرغم من أن RTDETR يحسن هذا).
- نهم البيانات: تتطلب Vision Transformers عمومًا مجموعات بيانات أكبر وجداول تدريب أطول للوصول إلى نقطة التقارب الكامل مقارنة بالشبكات العصبية التلافيفية (CNNs) مثل YOLOv6.
حالات الاستخدام المثالية
- مشاهد مرورية معقدة: الكشف عن المشاة والمركبات في البيئات الكثيفة والفوضوية حيث يكون الانسداد شائعًا.
- القيادة الذاتية: التطبيقات التي تتطلب إدراكًا عالي الموثوقية حيث تفوق تكلفة الكشف الفائت تكلفة متطلبات الأجهزة الأعلى قليلاً.
مقارنة الأداء
يقارن الجدول التالي أداء YOLOv6-3.0 و RTDETRv2. بينما يدفع RTDETRv2 حدود الدقة، يحتفظ YOLOv6-3.0 بميزة في سرعة الاستدلال الخام، لا سيما على نطاق "Nano".
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
التحليل
- السرعة مقابل الدقة: في
YOLOv6-3.0nخفيف الوزن بشكل لا يصدق (1.17 مللي ثانية للاستدلال)، مما يجعله الملك بلا منازع للأجهزة ذات الموارد المحدودة للغاية. ومع ذلك، إذا كانت الدقة هي الأولوية،RTDETRv2-sيوفر mAP أعلى بكثير (48.1) منYOLOv6-3.0s(45.0) على الرغم من مضاعفة وقت الاستدلال تقريبًا (5.03 مللي ثانية مقابل 2.66 مللي ثانية). - سلوك القياس: مع زيادة حجم النموذج، تضيق الفجوة.
RTDETRv2-l(53.4 mAP) يتفوق علىYOLOv6-3.0l(52.8 mAP) مع عدد أقل من المعلمات (42 مليون مقابل 59.6 مليون)، مما يدل على كفاءة معلمات بنية المحولات، على الرغم من أن FLOPs تظل قابلة للمقارنة. - تأثيرات الأجهزة: تكمن ميزة YOLOv6 في هيكل CNN الخالص الخاص به والذي يتوافق بشكل مباشر جدًا مع مسرّعات الأجهزة. يتطلب RTDETRv2 أجهزة يمكنها التعامل بكفاءة مع عمليات ضرب المصفوفات والانتباه لتحقيق سرعتها النظرية.
اعتبارات النشر
عند النشر على الأجهزة الطرفية، تذكر أن "المعلمات" لا ترتبط دائمًا ارتباطًا مثاليًا بالسرعة. في حين أن RTDETRv2 قد يكون لديه عدد أقل من المعلمات في بعض التكوينات، إلا أن أنماط الوصول إلى الذاكرة الخاصة به (الانتباه) يمكن أن تكون أبطأ على الأجهزة القديمة مقارنةً بالتلافيف المحسّنة للغاية في YOLOv6.
منهجيات التدريب
يختلف المشهد التدريبي لهذين النموذجين اختلافًا كبيرًا، مما يؤثر على الموارد المطلوبة للتطوير.
YOLOv6-3.0 يتبع ممارسات التعلم العميق القياسية للشبكات العصبية الالتفافية (CNNs). يستفيد من جداول التدريب الأقصر (عادةً 300-400 حقبة) وانخفاض استهلاك ذاكرة وحدة معالجة الرسوميات (GPU). يتم التعامل مع تقنيات مثل التقطير الذاتي داخليًا ولكنها تضيف طبقة من التعقيد إلى حساب دالة الخسارة.
يتطلب RTDETRv2، كونه يعتمد على المحولات، يتطلب بشكل عام المزيد من CUDA أثناء التدريب. إن التعقيد التربيعي لآلية الانتباه فيما يتعلق بحجم الصورة يعني أن أحجام الدفعات غالباً ما تحتاج إلى تقليل أحجام الدفعات، أو استخدام وحدات معالجة رسومات أكثر قوة. علاوة على ذلك، غالبًا ما تستفيد المحولات من آفاق تدريب أطول لتعلم العلاقات المكانية بشكل كامل دون تحيزات استقرائية.
ميزة Ultralytics
في حين أن كلاً من YOLOv6 و RTDETR يقدمان ميزات مقنعة لمجالات محددة، فإن Ultralytics YOLO11 يوفر حلاً موحدًا يوازن بين أفضل ما في العالمين. فهو يدمج كفاءة CNNs مع التحسينات المعمارية الحديثة التي تنافس دقة المحولات، كل ذلك داخل نظام بيئي مصمم لإنتاجية المطورين.
لماذا تختار نماذج Ultralytics؟
- سهولة الاستخدام: توفر Ultralytics واجهة برمجة تطبيقات Pythonic تجرد تعقيدات التدريب والنشر. يمكنك تدريب نموذج حديث في ثلاثة أسطر من التعليمات البرمجية.
- موازنة الأداء: تم تصميم YOLO11 لتقديم موازنة مثالية. فهو يوفر سرعات استدلال في الوقت الفعلي مماثلة لـ YOLOv6 مع تحقيق مستويات دقة تنافس RTDETR، دون التحميل الزائد للذاكرة الهائلة للمحولات.
- تعدد الاستخدامات: على عكس YOLOv6 (detection فقط)، تدعم نماذج Ultralytics أصلاً Instance Segmentation و Pose Estimation و Classification و Oriented Bounding Box (OBB) detection.
- نظام بيئي مُدار بشكل جيد: مع التحديثات المتكررة و الوثائق الشاملة ودعم المجتمع، لن تترك أبدًا لتصحيح الأخطاء بمفردك.
- كفاءة التدريب: تشتهر نماذج Ultralytics بخطوط أنابيب التدريب الفعالة الخاصة بها، مما يسمح بالتكرار السريع حتى على الأجهزة المتواضعة.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
الخلاصة
تعتبر كل من YOLOv6-3.0 و RTDETRv2 إنجازات رائعة في مجال رؤية الكمبيوتر. يعتبر YOLOv6-3.0 هو الخيار العملي لخطوط الأنابيب الصناعية البحتة حيث الأجهزة ثابتة والسرعة هي المقياس الوحيد الذي يهم. يعتبر RTDETRv2 خيارًا ممتازًا للبحث والتطبيقات المتطورة حيث تكون الدقة في المشاهد المعقدة أمرًا بالغ الأهمية وموارد الأجهزة وفيرة.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية، يظل Ultralytics YOLO11 هو الخيار الأفضل. إنه يوفر "نقطة التقاء" للأداء وتعدد الاستخدامات وسهولة الاستخدام التي تسرع الرحلة من المفهوم إلى الإنتاج. سواء كنت باحثًا يحتاج إلى تجارب سريعة أو مهندسًا يقوم بالنشر لآلاف الأجهزة الطرفية، فإن النظام البيئي Ultralytics يوفر الأدوات اللازمة لضمان النجاح.
استكشف نماذج أخرى
إذا كنت مهتمًا بإجراء المزيد من المقارنات، فاستكشف هذه الموارد في وثائق Ultralytics: