YOLOv6-3.0 مقابل YOLOX: نظرة متعمقة في تطور اكتشاف الكائنات في الوقت الفعلي
تطور مجال اكتشاف الأجسام بسرعة كبيرة، مع ظهور هياكل جديدة توسع باستمرار حدود السرعة والدقة. ومن المعالم البارزة في هذه الرحلة YOLOv6.YOLOv6 و YOLOX. ورغم أن كلاهما يهدف إلى تقديم أداء في الوقت الفعلي، إلا أنهما يختلفان بشكل كبير في فلسفاتهما المعمارية والتطبيقات المقصودة.
تم تطوير YOLOv6.YOLOv6 بواسطة Meituan، وهو مصمم خصيصًا للتطبيقات الصناعية، مع إعطاء الأولوية للإنتاجية العالية على الأجهزة المخصصة مثل وحدات معالجة الرسومات (GPU). على العكس من ذلك، قدم YOLOX من Megvii تصميمًا عالي الأداء للكشف بدون مرساة، والذي أصبح المفضل في مجتمع البحوث بفضل بنيته النظيفة وأدائه الأساسي القوي.
نظرات عامة على النموذج
YOLOv6-3.0: مسرع السرعة الصناعية
تم إصدار الإصدار 3.0 كـ "إعادة تحميل كاملة" للإصدار الأصلي YOLOv6 ويركز بشكل كبير على تحسينات الهندسة من أجل النشر. ويستخدم هيكل أساسي من نوع RepVGG يتسم بالكفاءة أثناء الاستدلال ولكنه معقد أثناء التدريب، مما يجعله الخيار الأفضل لأتمتة المصانع والمراقبة الثابتة حيث تتوفر GPU .
- المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
- المؤسسة:Meituan
- التاريخ: 2023-01-13
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:meituan/YOLOv6
YOLOX: الرائد الخالي من الـ Anchor
أعادت YOLOX إحياء YOLO في عام 2021 من خلال التحول إلى آلية خالية من المراسي وفصل رأس التنبؤ. أدى ذلك إلى تبسيط عملية التدريب من خلال إزالة الحاجة إلى تجميع مربعات المراسي يدويًا، وهي مشكلة شائعة في الأجيال السابقة. تسمح استراتيجية تعيين التسميات "SimOTA" الخاصة بها بالتعامل مع الانسداد ومقاييس الكائنات المتنوعة بشكل فعال.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 2021-07-18
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
تحليل الأداء
عند مقارنة هذه النماذج، يكون سياق الأجهزة أمراً بالغ الأهمية. تم تحسين YOLOv6. YOLOv6 بشكل كبير لـ TensorRT NVIDIA GPUs، وغالباً ما يظهر FPS متفوق في تلك البيئات المحددة. يوفر YOLOX ملف أداء متوازن يظل تنافسياً، لا سيما في تكويناته الخفيفة "Nano" و "Tiny" للأجهزة الطرفية.
يوضح الجدول أدناه مقاييس الأداء على COCO .
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
تفسير الأداء
بينما يُظهر YOLOv6. YOLOv6 معدل إطارات أعلى في الثانية على وحدات معالجة الرسومات (GPU) بفضل دمج كتل RepVGG، يظل YOLOX-Nano خيارًا خفيفًا للغاية بالنسبة لوحدات المعالجة المركزية (CPU) المحدودة، حيث يمتلك معلمات وعمليات FLOP أقل من أصغر YOLOv6 .
الاختلافات المعمارية الرئيسية
ابتكارات YOLOv6.0
يقدم YOLOv6 شبكة تجميع المسارات ثنائية الاتجاه (Bi-PAN)، والتي تعزز دمج الميزات عبر مستويات مختلفة. وهي تستخدم التدريب المدعوم بالمرساة (AAT)، وهو نهج هجين يستفيد من التعيين القائم على المرساة أثناء التدريب لتثبيت رأس الاستدلال الخالي من المرساة. علاوة على ذلك، فإنها تستخدم التقطير الذاتي بشكل مكثف لتعزيز دقة النماذج الأصغر دون زيادة تكلفة الاستدلال.
ابتكارات YOLOX
يتميز YOLOX بـ Decoupled Head، الذي يفصل مهام التصنيف والانحدار إلى فروع مختلفة. يؤدي هذا الفصل عادةً إلى تقارب أسرع ودقة أفضل. تعتبر SimOTA (Simplified Optimal Transport Assignment) ابتكاره الأساسي، حيث تعامل تعيين العلامات على أنه مشكلة نقل مثالية، وتقوم بتعيين العينات الإيجابية ديناميكيًا إلى الحقائق الأساسية استنادًا إلى وظيفة التكلفة الشاملة. وهذا يجعل YOLOX قويًا في المشاهد المزدحمة التي غالبًا ما توجد في تحليلات البيع بالتجزئة.
حالات الاستخدام والتطبيقات
مناسب بشكل مثالي لـ YOLOv6-3.0
- الفحص الصناعي: إن الإنتاجية العالية للنموذج على وحدات معالجة الرسومات T4 تجعله مثالياً للكشف عن العيوب في خطوط التجميع سريعة الحركة.
- مراقبة المدن الذكية: لمعالجة تدفقات الفيديو المتعددة في وقت واحد في الوقت الفعلي، مثل عد المركبات أو تحليل تدفق حركة المرور.
- أتمتة البيع بالتجزئة: أنظمة دفع سريعة تتطلب زمن انتقال منخفض على خوادم حافة مخصصة.
مناسب بشكل مثالي لـ YOLOX
- البحث الأكاديمي: بفضل قاعدة الكود النظيفة والمنطق الخالي من الروابط، يعد هذا البرنامج أساسًا ممتازًا لاختبار النظريات الجديدة في مجال الرؤية الحاسوبية.
- أجهزة Legacy Edge: تم تحسين إصدارات Nano و Tiny بشكل كبير لتناسب شرائح الهواتف المحمولة التي تعاني من محدودية شديدة في الموارد الحاسوبية، مثل إصدارات Raspberry Pi القديمة.
- الكشف للأغراض العامة: للمشاريع التي تتطلب توازنًا بين الدقة وسهولة الفهم دون تعقيد التدريب المدرك للتكمية.
ميزة النظام البيئي لـ Ultralytics
بينما يوفر كل من YOLOv6 و YOLOX إمكانيات قوية، فإن الاستفادة منهما عبر منظومة Ultralytics توفر مزايا واضحة للمطورين والشركات.
- واجهة برمجة تطبيقات موحدة وسهولة الاستخدام: Ultralytics حلقات التدريب المعقدة في Python بسيطة. سواء كنت تستخدم YOLOv6 أو YOLOX أو أحدث إصدار من YOLO26، يظل الكود متسقًا.
- تعدد الاستخدامات: على عكس المستودعات الأصلية التي تركز بشكل أساسي على الكشف، Ultralytics نطاق الدعم ليشمل تقسيم المثيلات وتقدير الوضع ومربع الحدود الموجه (OBB) عبر النماذج المدعومة.
- كفاءة التدريب: نماذج Ultralytics محسّنة لاستهلاك أقل للذاكرة أثناء التدريب. وهذا عامل حاسم مقارنة بالعديد من النماذج القائمة على المحولات (مثل RT-DETR)، والتي غالبًا ما تتطلب ذاكرة CUDA كبيرة.
- النشر: يتم التصدير إلى تنسيقات مثل ONNX وTensorRT وCoreML وOpenVINO بسلاسة، مما يضمن تشغيل نماذجك بكفاءة على أي جهاز.
- Ultralytics : تتيح لك Ultralytics إدارة مجموعات البيانات والتدريب في السحابة ونشر النماذج دون الحاجة إلى كتابة كود نمطي مكثف.
الجيل القادم: YOLO26
بالنسبة للمطورين الباحثين عن أحدث التقنيات، يتفوق نموذج YOLO26 على كل من YOLOX و YOLOv6 مجالات حاسمة، مما يمثل قفزة كبيرة إلى الأمام في عام 2026.
- تصميم شامل NMS: YOLO26 هو نظام شامل أصلاً، مما يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وينتج عن ذلك نشر أسرع وأبسط وتباين أقل في زمن الاستجابة.
- محسّن MuSGD: مستوحى من ابتكارات تدريب LLM، يضمن محسّن MuSGD الجديد ديناميكيات تدريب أكثر استقرارًا وتقاربًا أسرع، وهو الأول من نوعه في نماذج الرؤية.
- السرعة والكفاءة: من خلال إزالة فقدان التركيز التوزيعي (DFL) وتحسين الحوسبة الطرفية، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يفتح آفاقًا جديدة في مجال إنترنت الأشياء والروبوتات.
- دقة محسّنة: توفر ميزات مثل ProgLoss و STAL تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لتطبيقات التصوير الجوي والطائرات بدون طيار.
مثال على التعليمات البرمجية
تدريب النموذج باستخدام Ultralytics بسيط. يتولى إطار العمل زيادة البيانات وضبط المعلمات الفائقة والتسجيل تلقائيًا.
from ultralytics import YOLO
# Load a pretrained model (YOLO26 recommended for best performance)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
سواء اخترت القوة الصناعية لـ YOLOv6. YOLOv6، أو YOLOX الملائم للأبحاث، أو YOLO26 المتطور، فإن Ultralytics يضمن أن يظل سير عملك فعالاً وقابلاً للتطوير ومستعداً للمستقبل.