YOLOv6.0 مقابل YOLOX: التعمق في السرعة الصناعية والدقة الخالية من المرساة
يعد اختيار البنية المثلى للكشف عن الأجسام قرارًا حاسمًا يؤثر على كفاءة وقدرة أنظمة الرؤية الحاسوبية. تفحص هذه المقارنة التقنية نظامي YOLOv6.0 و YOLOX، وهما نموذجان مؤثران شكّلا مشهد الكشف في الوقت الحقيقي. نقوم بتحليل ابتكاراتهما المعمارية ومقاييس الأداء المعيارية ومدى ملاءمتها لسيناريوهات النشر المختلفة.
YOLOv6.0: مصممة للكفاءة الصناعية
المؤلفون: تشوي لي، ولولو لي، ويفي جينغ، وهونغليانغ جيانغ، ومنغ تشنغ، وبو تشانغ، وبو تشانغ، وزيدان كي، وشياومينغ شو، وشيانغ شيانغ شيانغ تشو
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: YOLOv6 v3.0: إعادة تحميل كامل النطاق
GitHub: YOLOv6
Docs: وثائقUltralytics YOLOv6
تم تصميم YOLOv6.0، الذي تم تطويره من قبل قسم الذكاء الاصطناعي للرؤية في Meituan، خصيصًا للتطبيقات الصناعية حيث تكون موارد الأجهزة مقيدة في كثير من الأحيان، ومع ذلك فإن السرعة في الوقت الحقيقي غير قابلة للتفاوض. يركز على تعظيم إنتاجية خطوط أنابيب اكتشاف الكائنات على أجهزة GPU القياسية.
البنية والميزات الرئيسية
YOLOv6.0 سلسلة من "حقيبة من الرغبات المجانية" لتعزيز الدقة دون زيادة تكلفة الاستدلال.
- العمود الفقري القابل لإعادة المعلمات: يستخدم العمود الفقري EfficientRepbone الذي يسمح بهيكل معقد متعدد الفروع أثناء التدريب (التقاط الميزات الغنية) والذي ينهار إلى هيكل بسيط وسريع أحادي المسار أثناء الاستدلال.
- التدريب بمساعدة المرساة (AAT): بينما يعمل النموذج ككاشف بدون مرساة أثناء الاستدلال، فإنه يستخدم الفروع المساعدة القائمة على المرساة أثناء التدريب لتثبيت التقارب وتحسين الأداء.
- التقطير الذاتي: تقنية التقطير المعرفي حيث يتعلم نموذج الطالب من تنبؤات نموذج المعلم الخاص به، مما يحسن دقته دون تبعيات خارجية.
نقاط القوة والضعف
تكمن القوة الأساسية YOLOv6.0 في تحسين زمن الاستجابة. فهو يحقق سرعات استنتاج استثنائية على وحدات معالجة الرسومات NVIDIA عند تحسينه باستخدام TensorRTمما يجعله مرشحًا قويًا لأتمتة المصانع عالية الإنتاجية ومراقبة المدن الذكية. علاوةً على ذلك، يساعد دعمه للتدريب الواعي بالتقدير الكمي (QAT) في النشر على الأجهزة المتطورة ذات متطلبات الدقة المنخفضة.
ومع ذلك، فإن النموذج متخصص إلى حد ما. فهو يفتقر إلى تعدد المهام الأصلي متعدد المهام الموجود في الأطر الأوسع نطاقًا، مع التركيز بشكل حصري تقريبًا على الكشف. بالإضافة إلى ذلك، فإن نظامه البيئي، على الرغم من قوته، أصغر من المجتمع المحيط بنماذج Ultralytics مما قد يحد من توافر البرامج التعليمية للجهات الخارجية والأوزان المدربة مسبقًا لمجموعات البيانات المتخصصة.
YOLOX: البساطة والابتكار الخالي من المرساة
المؤلفون: Zheng Ge، وSongtao Liu، وFeng Wang، وZeming Li، وJian Sun
المنظمة ميجفيي
التاريخ: 2021-07-18
Arxiv: YOLOX: تجاوز سلسلة YOLO في عام 2021
جيثب: Megvii-BaseDetection/YOLOX
Docs: وثائق يولوكس
مثّل YOLOX نقلة نوعية من خلال إدخال أجهزة الكشف الخالية من المرتكزات في سلالة YOLO السائدة. ومن خلال إزالة الحاجة إلى مربعات الارتكاز المحددة مسبقًا، فقد سهّل عملية التصميم وحسّن التعميم عبر أشكال الأجسام المتنوعة.
البنية والميزات الرئيسية
يدمج YOLOX العديد من التقنيات المتقدمة لتعزيز الأداء مع الحفاظ على بنية نظيفة:
- الرأس المنفصل: على عكس إصدارات YOLO السابقة التي كانت تستخدم رأسًا مقترنًا (مشاركة الميزات للتصنيف والتوطين)، يفصل YOLOX بين هذه المهام، مما يؤدي إلى تقارب أسرع ودقة أفضل.
- تعيين التسمية SimOTA: استراتيجية تعيين التسمية الديناميكية المتقدمة التي تتعامل مع عملية التدريب على أنها مشكلة نقل مثالية، حيث تقوم تلقائيًا بتعيين العينات الإيجابية إلى الحقائق الأرضية بطريقة تقلل التكلفة.
- تعزيز قوي: يستخدم بكثافة MixUp وزيادات الفسيفساء، مما يسمح للنموذج بتعلم ميزات قوية حتى بدون عمود فقري مدرب مسبقًا.
نقاط القوة والضعف
تتفوق YOLOX في الدقة ومرونة البحث. إن طبيعته الخالية من المثبتات تجعله فعالاً بشكل خاص في الكشف عن الأجسام ذات نسب العرض إلى الارتفاع غير العادية، وغالباً ما يتفوق على المكافئات القائمة على المثبتات في هذه السيناريوهات. يتميز طراز YOLOX-Nano أيضًا بخفة وزنه بشكل ملحوظ (أقل من 1M معلمات)، مما يجعله مثاليًا لوحدات التحكم الدقيقة منخفضة الطاقة للغاية.
على الجانب السلبي، يمكن أن يكون YOLOX أكثر تكلفة من الناحية الحسابية من حيث عدد وحدات FLOP مقارنةً بالنماذج الأحدث مثل YOLOv6 أو YOLO11 لنفس المستوى من الدقة. وعلى الرغم من فعالية خط أنابيب التدريب الخاص به، إلا أنه يمكن أن يكون أبطأ بسبب حسابات تعيين التسمية الديناميكية المعقدة، ويتطلب بشكل عام المزيد من ذاكرة GPU أثناء التدريب مقارنةً بتطبيقات Ultralytics المحسّنة للغاية.
مقارنة الأداء: المقاييس والتحليل
يعرض الجدول التالي مقارنة بين مقاييس الأداء الرئيسية على مجموعة بياناتCOCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0 م | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0L | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
التحليل
تسلط البيانات الضوء على تباين واضح في فلسفة التصميم. YOLOv6.0 يهيمن على كفاءة الأجهزة. على سبيل المثال، فإن YOLOv6-3.0n يحقق وقت استدلال مذهل يبلغ 1.17 مللي ثانية على وحدات معالجة الرسومات T4، وهو أسرع بكثير من المعايير النموذجية للنماذج من فئته. إن YOLOv6-3.0l يتفوق أيضًا على أكبر طراز YOLOX (YOLOXx) في الدقة (52.8 مقابل 51.1 mAP) مع استخدام ما يقرب من نصف النقرات المسطحة.
YOLOXوعلى العكس، يفوز في فئة الوزن الخفيف جداً. يفوز في YOLOXnano معلمات أقل من 1 مليون، وهو إنجاز لا يكرره سوى عدد قليل من أجهزة الكشف الحديثة، مما يجعله مناسبًا بشكل فريد لتطبيقات إنترنت الأشياء المحددة حيث يكون تخزين الذاكرة هو عنق الزجاجة الأساسي وليس سرعة الحوسبة. ومع ذلك، بالنسبة للكشف للأغراض العامة، يميل YOLOX إلى طلب المزيد من المعلمات للحصول على دقة مماثلة لدقة YOLOv6.
اعتبارات الأجهزة
إذا كان هدف النشر الخاص بك هوGPU NVIDIA GPU حديثة (على سبيل المثال، Jetson Orin، T4، A100)، فمن المرجح أن يوفر YOLOv6.0 إنتاجية أفضل بسبب عموده الفقري المتخصص. أما إذا كنت تستهدف CPU عامة أو نظامًا مدمجًا قديمًا بحدود تخزين ضيقة للغاية، فقد يكون YOLOX Nano هو الأنسب.
ميزة Ultralytics: لماذا تختار YOLO11؟
في حين أن YOLOv6 و YOLOX يقدمان حلولاً قوية لمنافذ محددة, Ultralytics YOLO11 يمثل تتويجًا لأحدث ما توصلت إليه الأبحاث، حيث يقدم توازنًا فائقًا بين السرعة والدقة وسهولة الاستخدام للغالبية العظمى من المطورين.
تنوع لا مثيل له ونظام بيئي لا مثيل له
على عكس المنافسين الذين غالبًا ما يركزون فقط على اكتشاف الصندوق المحدد، يوفر YOLO11 دعمًا أصليًا لمجموعة واسعة من مهام الرؤية الحاسوبية، بما في ذلك تقسيم المثيل وتقدير الوضعية واكتشاف الكائنات الموجهة (OBB) والتصنيف. يتيح ذلك للمطورين حل المشاكل المعقدة متعددة المراحل باستخدام إطار عمل واحد.
وعلاوة على ذلك، تتم صيانة نظامUltralytics البيئي بنشاط، مما يضمن التوافق مع أحدث إصدارات Python وتحديثات PyTorch وأهداف النشر مثل CoreML, OpenVINOو ONNX.
الكفاءة وسهولة الاستخدام
صُمم YOLO11 من أجل كفاءة التدريب، وعادةً ما يتطلب ذاكرة GPU أقل من البدائل القائمة على المحولات (مثل RT-DETR) أو إصدارات YOLO الأقدم. وهذا يسمح للباحثين بتدريب نماذج أكبر على أجهزة من فئة المستهلكين. صُممت واجهة برمجة تطبيقات Python API) من أجل البساطة، مما يتيح للمستخدمين الانتقال من التثبيت إلى الاستدلال في بضعة أسطر من التعليمات البرمجية:
from ultralytics import YOLO
# Load the YOLO11 model (n, s, m, l, or x)
model = YOLO("yolo11n.pt")
# Perform inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
توازن الأداء في العالم الحقيقي
تُظهِر المعايير باستمرار أن YOLO11 يحقق أعلى من mAP بسرعات استدلال مماثلة أو أسرع من كل من YOLOv6 و YOLOv6 . هذا الأداء "الأمثل باريتو" يجعله الخيار الموصى به للتطبيقات التي تتراوح من المركبات ذاتية القيادة إلى تحليل التصوير الطبي.
الخلاصة
عند المقارنة بين YOLOv6.0 و YOLOX، يعتمد الاختيار بشكل كبير على القيود الخاصة بك. YOLOv6.0 هو الخيار المفضل لعمليات نشر GPU الصناعية الصارمة حيث يكون زمن الوصول إلى مستوى المللي ثانية أمرًا بالغ الأهمية. يظل YOLOX خيارًا قويًا للأبحاث في البنى الخالية من الارتكاز ولبيئات التخزين المقيدة للغاية من خلال نموذج Nano الخاص به.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل مستقبلي يجمع بين الأداء عالي المستوى ومنصة سهلة الاستخدام وغنية بالميزات, Ultralytics YOLO11 هو الفائز النهائي. حيث إن قدرته على التعامل بسلاسة مع مهام متعددة، إلى جانب التوثيق الشامل ودعم النشر الواسع، يسرّع من دورة حياة التطوير من المفهوم إلى الإنتاج.
استكشف المقارنات الأخرى لترى كيف تتراكم نماذج Ultralytics مقابل RT-DETR أو YOLOv7.