YOLOv6-3.0 ضد YOLOX: نظرة متعمقة على السرعة الصناعية ودقة التثبيت الخالية من المراسي
يُعد اختيار بنية الكشف عن العناصر المثالية قرارًا بالغ الأهمية يؤثر على كفاءة وقدرة أنظمة الرؤية الحاسوبية. تدرس هذه المقارنة الفنية YOLOv6-3.0 و YOLOX، وهما نموذجان مؤثران شكلا مشهد الكشف في الوقت الفعلي. نحلل ابتكاراتهم المعمارية ومقاييس أداء المعايير ومدى ملاءمتهم لسيناريوهات النشر المختلفة.
YOLOv6-3.0: مصمم للكفاءة الصناعية
المؤلفون: تشوي لي، لولو لي، ييفي قنغ، هونغ ليانغ جيانغ، منغ تشنغ، بو تشانغ، زيدان كه، شياو مينغ شو، و شيانغ شيانغ تشو
المنظمة: ميتوان
التاريخ: 2023-01-13
Arxiv: YOLOv6 v3.0: A Full-Scale Reloading
GitHub: meituan/YOLOv6
المستندات: Ultralytics YOLOv6 Documentation
تم تصميم YOLOv6-3.0، الذي تم تطويره بواسطة قسم Vision AI في Meituan، خصيصًا للتطبيقات الصناعية حيث غالبًا ما تكون موارد الأجهزة محدودة، ولكن السرعة في الوقت الفعلي غير قابلة للتفاوض. وهو يركز على زيادة إنتاجية خطوط أنابيب اكتشاف الكائنات على أجهزة GPU القياسية.
البنية والميزات الرئيسية
يقدم YOLOv6-3.0 سلسلة من "الحيل المجانية" لتعزيز الدقة دون زيادة تكلفة الاستدلال.
- العمود الفقري القابل لإعادة التهيئة: يستخدم EfficientRep backbone الذي يسمح بهيكل معقد ومتعدد الفروع أثناء التدريب (لالتقاط ميزات غنية) والذي ينهار إلى هيكل بسيط وسريع أحادي المسار أثناء الاستدلال.
- التدريب بمساعدة المرتكزات (AAT): بينما يعمل النموذج ككاشف خالي من المرتكزات أثناء الاستدلال، فإنه يستخدم فروعًا مساعدة قائمة على المرتكزات أثناء التدريب لتحقيق استقرار التقارب وتحسين الأداء.
- التقطير الذاتي: تقنية تقطير المعرفة حيث يتعلم نموذج الطالب من تنبؤات نموذج المعلم الخاص به، مما يحسن دقته دون تبعيات خارجية.
نقاط القوة والضعف
تكمن القوة الأساسية لـ YOLOv6-3.0 في تحسين زمن الوصول. إنه يحقق سرعات استدلال استثنائية على وحدات معالجة الرسومات NVIDIA عند تحسينها باستخدام TensorRT، مما يجعلها مرشحًا قويًا لأتمتة المصانع عالية الإنتاجية ومراقبة المدن الذكية. علاوة على ذلك، فإن دعمه لـ التدريب المدرك للتكميم (QAT) يساعد في النشر على الأجهزة الطرفية بمتطلبات دقة منخفضة.
ومع ذلك، فإن النموذج متخصص إلى حد ما. فهو يفتقر إلى تعدد استخدامات المهام المتعددة الأصلية الموجودة في الأطر الأوسع، ويركز بشكل حصري تقريبًا على detect. بالإضافة إلى ذلك، فإن نظامه البيئي، على الرغم من قوته، أصغر من المجتمع المحيط بنماذج Ultralytics، مما قد يحد من توافر البرامج التعليمية الخاصة بجهات خارجية والأوزان المدربة مسبقًا لمجموعات البيانات المتخصصة.
YOLOX: البساطة والابتكار الخالي من المرساة
المؤلفون: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv: YOLOX: Exceeding YOLO Series in 2021
GitHub: Megvii-BaseDetection/YOLOX
المستندات: YOLOX Documentation
مثلت YOLOX نقلة نوعية من خلال جلب أجهزة الكشف الخالية من المرساة إلى سلالة YOLO السائدة. من خلال إزالة الحاجة إلى مربعات الربط المحددة مسبقًا، فقد بسّطت عملية التصميم وحسّنت التعميم عبر أشكال الكائنات المتنوعة.
البنية والميزات الرئيسية
يدمج YOLOX العديد من التقنيات المتقدمة لتعزيز الأداء مع الحفاظ على بنية نظيفة:
- رأس غير مقترن: على عكس إصدارات YOLO السابقة التي استخدمت رأسًا مقترنًا (تشارك ميزات التصنيف والتوطين)، يفصل YOLOX هذه المهام، مما يؤدي إلى تقارب أسرع ودقة أفضل.
- تعيين تسمية SimOTA: استراتيجية متقدمة لتعيين التسمية الديناميكية تتعامل مع عملية التدريب كمشكلة نقل أمثل، وتقوم تلقائيًا بتعيين عينات إيجابية لحقائق أساسية بطريقة تقلل التكلفة.
- زيادة قوية: يستخدم بشكل كبير MixUp وزيادات الفسيفساء، مما يسمح للنموذج بتعلم ميزات قوية حتى بدون هياكل أساسية مدربة مسبقًا.
نقاط القوة والضعف
يتفوق YOLOX في الدقة ومرونة البحث. طبيعته الخالية من الارتكاز تجعله فعالاً بشكل خاص في الكشف عن الكائنات ذات نسب العرض إلى الارتفاع غير العادية، وغالبًا ما يتفوق على المكافئات القائمة على الارتكاز في هذه السيناريوهات. نموذج YOLOX-Nano خفيف الوزن بشكل ملحوظ (أقل من 1 مليون معلمة)، مما يجعله مثاليًا لوحدات التحكم الدقيقة منخفضة الطاقة للغاية.
على الجانب السلبي، يمكن أن يكون YOLOX أكثر تكلفة من الناحية الحسابية من حيث FLOPs مقارنة بالنماذج الأحدث مثل YOLOv6 أو YOLO11 لنفس مستوى الدقة. يمكن أن يكون خط أنابيب التدريب الخاص به، على الرغم من فعاليته، أبطأ بسبب حسابات تعيين الملصقات الديناميكية المعقدة، ويتطلب عمومًا المزيد من ذاكرة GPU أثناء التدريب مقارنة بتطبيقات Ultralytics المحسّنة للغاية.
مقارنة الأداء: المقاييس والتحليل
يعرض الجدول التالي مقارنة مباشرة لمقاييس الأداء الرئيسية على مجموعة بيانات COCO.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
التحليل
تسلط البيانات الضوء على تباعد واضح في فلسفة التصميم. YOLOv6-3.0 تهيمن على الكفاءة المدركة للأجهزة. على سبيل المثال، YOLOv6-3.0n تحقق وقت استدلال سريع جدًا يبلغ 1.17 مللي ثانية على وحدات معالجة الرسوميات T4، وهو أسرع بكثير من المعايير النموذجية لنماذج من فئتها. إن YOLOv6-3.0l يتجاوز أيضًا أكبر نموذج YOLOX (YOLOXx) في الدقة (52.8 مقابل 51.1 mAP) مع استخدام ما يقرب من نصف FLOPs.
YOLOX، وعلى العكس من ذلك، تحقق مكاسب في فئة الوزن الخفيف للغاية. إن YOLOXnano يحتوي على معلمات فرعية أقل من 1 مليون، وهي ميزة لا يكررها سوى عدد قليل من أجهزة الـ detect الحديثة، مما يجعله مناسبًا بشكل فريد لتطبيقات إنترنت الأشياء (IoT) المحددة حيث يكون تخزين الذاكرة هو العائق الأساسي وليس سرعة الحوسبة. ومع ذلك، بالنسبة إلى الـ detect للأغراض العامة، يميل YOLOX إلى طلب المزيد من المعلمات لتحقيق دقة مماثلة مقارنة بـ YOLOv6.
اعتبارات متعلقة بالأجهزة
إذا كان هدف النشر الخاص بك هو وحدة معالجة رسومات NVIDIA حديثة (مثل Jetson Orin، T4، A100)، فمن المحتمل أن توفر YOLOv6-3.0 إنتاجية أفضل نظرًا لعمودها الفقري المتخصص. إذا كنت تستهدف وحدة معالجة مركزية عامة أو نظامًا مضمنًا قديمًا بحدود تخزين ضيقة للغاية، فقد يكون YOLOX Nano هو الخيار الأفضل.
ميزة Ultralytics: لماذا تختار YOLO11؟
في حين أن YOLOv6 و YOLOX يقدمان حلولًا قوية لمجالات متخصصة محددة، فإن Ultralytics YOLO11 يمثل تتويجًا لأحدث الأبحاث، حيث يقدم توازنًا فائقًا بين السرعة والدقة وسهولة الاستخدام لغالبية المطورين.
تنوع ونظام بيئي لا مثيل لهما
على عكس المنافسين الذين غالبًا ما يركزون فقط على bounding box detection، يوفر YOLO11 دعمًا أصليًا لمجموعة واسعة من مهام رؤية الكمبيوتر، بما في ذلك Instance Segmentation، و Pose Estimation، و Oriented Object Detection (OBB)، و Classification. يتيح ذلك للمطورين حل المشكلات المعقدة متعددة المراحل باستخدام إطار عمل واحد.
علاوة على ذلك، يتم الحفاظ على النظام البيئي Ultralytics بنشاط، مما يضمن التوافق مع أحدث إصدارات python وتحديثات PyTorch وأهداف النشر مثل CoreML و OpenVINO و ONNX.
الكفاءة وسهولة الاستخدام
تم تصميم YOLO11 من أجل كفاءة التدريب، وعادةً ما يتطلب ذاكرة GPU أقل من البدائل القائمة على المحولات (مثل RT-DETR) أو إصدارات YOLO الأقدم. يتيح ذلك للباحثين تدريب نماذج أكبر على أجهزة من الدرجة الاستهلاكية. تم تصميم Python API من أجل البساطة، مما يتيح للمستخدمين الانتقال من التثبيت إلى الاستدلال في بضعة أسطر فقط من التعليمات البرمجية:
from ultralytics import YOLO
# Load the YOLO11 model (n, s, m, l, or x)
model = YOLO("yolo11n.pt")
# Perform inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for deployment
model.export(format="onnx")
موازنة الأداء في العالم الحقيقي
تُظهر معايير الأداء باستمرار أن YOLO11 تحقق درجات mAP أعلى بسرعات استدلال مماثلة أو أسرع من YOLOv6 و YOLOX. هذا الأداء "الأمثل لباريتو" يجعله الخيار الموصى به للتطبيقات التي تتراوح من المركبات ذاتية القيادة إلى تحليل التصوير الطبي.
الخلاصة
عند مقارنة YOLOv6-3.0 و YOLOX، يعتمد الاختيار بشكل كبير على قيودك المحددة. YOLOv6-3.0 هو الخيار الأمثل لعمليات نشر GPU الصناعية الصارمة حيث يكون زمن الوصول على مستوى المللي ثانية أمرًا بالغ الأهمية. يظل YOLOX خيارًا قويًا للبحث في الهياكل الخالية من المرساة ولبيئات التخزين المقيدة للغاية عبر نموذج Nano الخاص به.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل مقاوم للمستقبل يجمع بين الأداء المتميز ومنصة سهلة الاستخدام وغنية بالميزات، فإن Ultralytics YOLO11 هو الفائز المؤكد. إن قدرته على التعامل بسلاسة مع مهام متعددة، إلى جانب الوثائق الشاملة ودعم النشر الواسع، يسرع دورة حياة التطوير من المفهوم إلى الإنتاج.
استكشف مقارنات أخرى لترى كيف تتفوق نماذج Ultralytics على RT-DETR أو YOLOv7.