تخطي إلى المحتوى

YOLOv6-3.0 مقابل RTDETRv2: مقارنة فنية

يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية، حيث يوازن بين الدقة والسرعة والتكلفة الحسابية. تتعمق هذه المقارنة في نموذجين قويين ولكنهما متميزان من حيث البنية: YOLOv6-3.0، وهو كاشف عالي الأداء يعتمد على الشبكات العصبونية الالتفافية (CNN)، و RTDETRv2، وهو نموذج حديث يعتمد على المحولات في الوقت الفعلي. في حين أن YOLOv6-3.0 مصمم للتطبيقات الصناعية عالية السرعة، فإن RTDETRv2 يستفيد من محول الرؤية (ViT) لتحقيق دقة استثنائية.

تقدم هذه الصفحة تحليلاً متعمقًا لبنيتها ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في تحديد الأنسب لمشروعك.

YOLOv6-3.0

المؤلفون: تشوي لي، لولو لي، ييفي قنغ، هونغليانغ جيانغ، مينغ تشنغ، بو تشانغ، زيدان كه، شياومينغ شو، و شيانغشيانغ تشو
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
المستندات: https://docs.ultralytics.com/models/yolov6/

YOLOv6-3.0 هو إطار عمل للكشف عن الأجسام بمرحلة واحدة تم تطويره بواسطة Meituan، ومصمم خصيصًا للتطبيقات الصناعية حيث تكون سرعة الاستدلال أولوية قصوى. وهو يعتمد على هيكل YOLO الكلاسيكي مع العديد من التحسينات الرئيسية.

البنية والميزات الرئيسية

يقدم YOLOv6-3.0 تصميم شبكة عصبونية مدركة للأجهزة لزيادة الكفاءة. يتميز هيكلها بعمود فقري backbone فعال لإعادة المعلمات وعنق معاد تصميمه لتحقيق التوازن بين الدقة والسرعة. يشتمل النموذج أيضًا على إستراتيجية تدريب مُحسَّنة، بما في ذلك التقطير الذاتي، لتحسين الأداء دون زيادة حمل الاستدلال. إنه كاشف كلاسيكي للأجسام بمرحلة واحدة، مما يجعله سريعًا ومباشرًا بطبيعته.

نقاط القوة

  • سرعة استنتاج عالية: مُحسَّن للأداء السريع، مما يجعله مناسبًا للغاية للاستنتاج في الوقت الفعلي في البيئات الصناعية.
  • موازنة جيدة بين الدقة والسرعة: يوفر دقة تنافسية، خاصة مع متغيراته الأكبر، مع الحفاظ على إنتاجية عالية.
  • الكمية ودعم الأجهزة المحمولة: يوفر دعمًا قويًا لـ تحديد كمية النموذج ويتضمن متغيرات YOLOv6Lite مصممة خصيصًا للنشر على الأجهزة المحمولة أو المستندة إلى وحدة المعالجة المركزية CPU.

نقاط الضعف

  • تعددية المهام محدودة: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى الدعم المدمج للمهام الأخرى مثل التجزئة والتصنيف وتقدير الوضع الموجود في أطر عمل أكثر شمولاً مثل Ultralytics YOLO.
  • النظام البيئي والصيانة: على الرغم من أنه مفتوح المصدر، إلا أن نظامه البيئي ليس واسع النطاق أو نشطًا مثل منصة Ultralytics، مما قد يعني عددًا أقل من التحديثات ودعمًا مجتمعيًا أقل.

حالات الاستخدام المثالية

يتفوق YOLOv6-3.0 في السيناريوهات التي تكون فيها السرعة ذات أهمية قصوى:

  • الأتمتة الصناعية: مثالية لمراقبة الجودة ومراقبة العمليات في التصنيع.
  • الأنظمة الآنية: مثالية للتطبيقات ذات متطلبات الكمون الصارمة، مثل الروبوتات والمراقبة بالفيديو.
  • الحوسبة الطرفية: تصميمها الفعال والمتغيرات المحمولة تجعلها خيارًا قويًا للنشر على الأجهزة ذات الموارد المحدودة مثل NVIDIA Jetson.

تعرف على المزيد حول YOLOv6-3.0

RTDETRv2

المؤلفون: ونيو لو، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: Baidu
التاريخ: 2023-04-17
Arxiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو كاشف كائنات متطور يقوم بتكييف بنية المحولات للأداء في الوقت الفعلي. وهو يعتمد على إطار DETR الأصلي لتقديم دقة عالية من خلال التقاط سياق الصورة الشامل بشكل فعال.

البنية والميزات الرئيسية

يستخدم RTDETRv2 هيكل وحدة ترميز وفك ترميز المحولات، مما يسمح له بنمذجة التبعيات طويلة المدى بين الكائنات في المشهد. غالبًا ما يؤدي هذا الوعي بالسياق العالمي إلى دقة فائقة، خاصة في الصور المعقدة التي تحتوي على العديد من الكائنات المتداخلة. باعتباره كاشفًا خاليًا من المرساة، فإنه يبسط مسار الكشف عن طريق إلغاء الحاجة إلى تصميم مربع المرساة وقمع غير الحد الأقصى (NMS) في وحدة فك الترميز.

نقاط القوة

  • دقة عالية: تتيح بنية المحولات فهمًا عميقًا لسياق الصورة، مما يؤدي إلى دقة اكتشاف حديثة.
  • استخلاص ميزات قوي: يتفوق في التقاط كل من السياق العام والتفاصيل الدقيقة، مما يجعله قويًا في المشاهد المزدحمة.
  • إمكانية التشغيل في الوقت الفعلي: مُحسَّن للاستدلال السريع، خاصةً عند تسريعه بأدوات مثل TensorRT، مما يجعله قابلاً للتطبيق في التطبيقات في الوقت الفعلي.

نقاط الضعف

  • تكلفة حسابية عالية: تستهلك المحولات الكثير من الموارد. تحتوي نماذج RTDETRv2 بشكل عام على عدد أكبر من المعلمات و FLOPs من نظيراتها من CNN.
  • متطلبات تدريب عالية: يتطلب تدريب النماذج القائمة على المحولات عادةً بيانات أكثر بكثير، وأوقات تدريب أطول، وذاكرة CUDA أعلى بكثير، مما يجعلها أقل سهولة للمستخدمين ذوي الأجهزة المحدودة. في المقابل، تم تصميم نماذج Ultralytics YOLO للتدريب الفعال على وحدات معالجة الرسومات القياسية.

حالات الاستخدام المثالية

يُعد RTDETRv2 الأنسب للتطبيقات التي يكون فيها تحقيق أقصى دقة هو الهدف الأساسي:

  • القيادة الذاتية: الإدراك عالي الدقة أمر بالغ الأهمية لسلامة السيارات ذاتية القيادة.
  • الروبوتات المتقدمة: تمكن الروبوتات من التنقل والتفاعل مع البيئات الديناميكية المعقدة.
  • المراقبة عالية الدقة: مفيدة في أنظمة الأمان حيث يكون الاكتشاف الدقيق للأشياء الصغيرة أو المحجوبة ضروريًا.

تعرف على المزيد حول RTDETRv2

مقارنة الأداء: YOLOv6-3.0 مقابل RTDETRv2

يوفر الجدول أدناه مقارنة للأداء على مجموعة بيانات COCO.

النموذج الحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv6-3.0n 640 37.5 - 1.17 4.7 11.4
YOLOv6-3.0s 640 45.0 - 2.66 18.5 45.3
YOLOv6-3.0m 640 50.0 - 5.28 34.9 85.8
YOLOv6-3.0l 640 52.8 - 8.95 59.6 150.7
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

من المقاييس، يحقق RTDETRv2-x أعلى mAP، مما يدل على فوائد الدقة لبنية المحولات الخاصة به. ومع ذلك، يأتي هذا على حساب السرعة وحجم النموذج. في المقابل، توفر نماذج YOLOv6-3.0 أوقات استدلال أسرع بكثير مع عدد أقل من المعلمات. على سبيل المثال، YOLOv6-3.0s أسرع بمرتين تقريبًا من RTDETRv2-s مع تقديم mAP تنافسي يبلغ 45.0. يعتمد الاختيار بوضوح على أولوية المشروع: أقصى قدر من الدقة (RTDETRv2) أو السرعة والكفاءة المثلى (YOLOv6-3.0).

منهجيات التدريب

يتم تدريب YOLOv6-3.0 باستخدام ممارسات التعلم العميق القياسية الشائعة في الشبكات العصبية التلافيفية (CNNs)، بما في ذلك تقنيات مثل التقطير الذاتي لتحسين الأداء. تعتبر عملية التدريب الخاصة به فعالة بشكل عام وأقل استهلاكًا للموارد.

RTDETRv2، كونه نموذجًا قائمًا على المحولات، لديه نظام تدريب أكثر تطلبًا. غالبًا ما تتطلب هذه النماذج مجموعات بيانات أكبر وجداول تدريب أطول وذاكرة GPU أكبر بكثير للتقارب بفعالية. يمكن أن تجعل هذه العوائق الأعلى للدخول أقل عملية للفرق التي ليس لديها إمكانية الوصول إلى موارد الحوسبة عالية الأداء.

الخلاصة

يعتبر كل من YOLOv6-3.0 و RTDETRv2 من النماذج القوية في مجالات تخصصها. يعتبر YOLOv6-3.0 خيارًا ممتازًا للتطبيقات الصناعية حيث السرعة والكفاءة أمران بالغا الأهمية. يدفع RTDETRv2 حدود الدقة، مما يجعله مثاليًا للمهام عالية المخاطر حيث لا يمكن التغاضي عن الدقة.

ومع ذلك، بالنسبة لمعظم المطورين والباحثين، تقدم نماذج Ultralytics YOLO مثل YOLOv8 و YOLOv10 وأحدث YOLO11 حزمة شاملة أكثر جاذبية. توفر نماذج Ultralytics توازنًا استثنائيًا بين السرعة والدقة، وتتسم بالكفاءة العالية في التدريب، وتدعم مجموعة واسعة من المهام تتجاوز اكتشاف الكائنات، بما في ذلك التجزئة وتقدير الوضع والتصنيف.

علاوة على ذلك، فهي مدعومة بنظام بيئي قوي ويتم صيانته بنشاط، بما في ذلك الوثائق الشاملة و Python API بسيط والتكامل مع Ultralytics HUB لتبسيط التدريب والنشر. هذا المزيج من الأداء والتنوع وسهولة الاستخدام يجعل نماذج Ultralytics YOLO الخيار الموصى به لمجموعة واسعة من مشاريع رؤية الكمبيوتر.

استكشف نماذج أخرى

إذا كنت مهتمًا بمزيد من المقارنات، فيمكنك استكشاف نماذج أخرى في وثائق Ultralytics:



📅 تم إنشاؤه منذ سنة واحدة ✏️ تم التحديث منذ شهر واحد

تعليقات