YOLOv6.0 مقابل YOLOv9: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات
يستمر تطور مجال الكشف عن الأجسام في الوقت الفعلي، مدفوعًا بمتطلبات الدقة العالية والكمون المنخفض والاستخدام الأفضل للأجهزة. تبحث هذه المقارنة الشاملة بين اثنين من المعالم الهامة في هذا المجال: YOLOv6.YOLOv6، الذي تم تطويره من أجل الإنتاجية الصناعية، و YOLOv9، الذي أدخل هياكل جديدة للتغلب على اختناقات معلومات التعلم العميق.
في حين أن كلا النموذجين يقدمان ابتكارات معمارية فريدة، فإن المطورين الذين يبحثون عن التوازن المثالي بين الأداء وسهولة النشر غالبًا ما ينتقلون إلى الأنظمة البيئية الحديثة. بالنسبة لأولئك الذين يبدؤون مشاريع جديدة، فإن Ultralytics الأصلي الشامل هو المعيار الموصى به، حيث يوفر دقة متطورة مع تجربة مطور أكثر بساطة بشكل ملحوظ.
YOLOv6.0: تحسين الإنتاجية الصناعية
تم تطوير YOLOv6.YOLOv6 بواسطة قسم Vision AI في Meituan، وقد تم تصميمه بعناية فائقة لتحقيق أقصى قدر من الإنتاجية في التطبيقات الصناعية، لا سيما على GPU .
- المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
- المؤسسة:Meituan
- التاريخ: 13 يناير 2023
- أرخايف:2301.05586
- GitHub:meituan/YOLOv6
الابتكارات المعمارية
أدخلت YOLOv6 عدة تعديلات أساسية لتحسين دمج الميزات وكفاءة الأجهزة. تتضمن البنية وحدة تسلسل ثنائي الاتجاه (BiC) في عنقها، مما يوفر إشارات تحديد الموقع الأكثر دقة. كما تستخدم استراتيجية التدريب بمساعدة المراسي (AAT). يجمع هذا النهج بين التوجيه الغني للتدريب القائم على المراسي وسرعة الاستدلال لنموذج خالٍ من المراسي، مما ينتج عنه أداء أفضل دون إبطاء عملية النشر.
يعتمد العمود الفقري على تصميم EfficientRep، الذي تم تحسينه بدقة ليكون متوافقًا مع الأجهزة من أجل GPU . وهذا يجعله عالي الكفاءة في سيناريوهات التصنيع الصناعي حيث تعتبر المعالجة المكثفة للدفعات أمرًا معتادًا.
نقاط القوة والضعف
تكمن القوة الأساسية لـ YOLOv6 في معدل الإطارات العالي على وحدات معالجة الرسومات (GPU) مثل NVIDIA مما يجعلها مناسبة لفهم تدفقات الفيديو عالية الكثافة. ومع ذلك، فإن اعتمادها الكبير على تحسينات الأجهزة المحددة يمكن أن يؤدي إلى زمن انتقال أقل من الأمثل على الأجهزة الطرفية CPU. علاوة على ذلك، قد يكون إعداد خط أنابيب التدريب الخاص بها معقدًا مقارنة بالأطر الأكثر توحيدًا.
YOLOv9: معلومات التدرج القابلة للبرمجة
صدر بعد عام واحد، YOLOv9 على حل مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة، مما يدفع الحدود النظرية لهياكل CNN.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
- التاريخ: 21 فبراير 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
الابتكارات المعمارية
تتمثل المساهمة الرئيسية YOLOv9 في معلومات التدرج القابلة للبرمجة (PGI)، والتي تضمن الاحتفاظ بالبيانات المهمة أثناء مرورها عبر طبقات الشبكة المتعددة، مما يتيح تحديثات أكثر موثوقية للوزن. إلى جانب PGI، يتميز النموذج بشبكة تجميع الطبقات الفعالة المعممة (GELAN). تعمل GELAN على تعظيم كفاءة المعلمات، مما يمكّن YOLOv9 تحقيق دقة فائقة باستخدام عدد أقل من عمليات FLOP الحسابية مقارنة بالعديد من النماذج السابقة.
نقاط القوة والضعف
YOLOv9 متوسط دقة متوسط (mAP) متميزًا في مجموعات البيانات المعيارية مثل COCO مما يجعله المفضل للباحثين الذين يعطون الأولوية للدقة الأولية. ومع ذلك، مثل YOLOv6 لا يزال يعتمد على تقنية Non-Maximum Suppression (NMS) التقليدية للمعالجة اللاحقة. وهذا يضيف زمن انتقال ويعقد مسار نشر النموذج، خاصة عند النقل إلى أجهزة الحافة باستخدام تنسيقات مثل ONNX TensorRT.
مقارنة الأداء
عند مقارنة هذه النماذج، من الضروري النظر إلى التوازن بين الدقة وعدد المعلمات وسرعة الاستدلال.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Ultralytics : تقديم YOLO26
بينما YOLOv9 YOLOv6. YOLOv6 و YOLOv9 بنى قوية، تتطلب بيئات الإنتاج نظامًا بيئيًا جيد الصيانة ومتطلبات ذاكرة منخفضة وسهولة استثنائية في الاستخدام. وهنا يأتي دور Ultralytics ونماذج مثل YOLO11 و YOLO26 المتطورة.
تم إصدار YOLO26 في أوائل عام 2026، وهو يعيد تعريف كفاءة النشر بشكل جذري من خلال القضاء على الاختناقات القديمة.
تصميم أصلي شامل
يتميز YOLO26 بتصميم شامل NMS، مما يلغي تمامًا الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression. وهذا يقلل بشكل كبير من تباين زمن الاستدلال ويبسط منطق النشر على الحافة.
ابتكارات YOLO26 الرئيسية
- MuSGD Optimizer: مستوحى من تدريب LLM (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD Muon. وهذا يوفر استقرارًا لا مثيل له في التدريب وتقاربًا أسرع لمهام الرؤية الحاسوبية.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : على عكس GPU YOLOv6 الشديد GPU ، تم تحسين YOLO26 بشكل كبير للأجهزة الطرفية. إن إزالة خسارة التركيز التوزيعي (DFL) تبسط الرأس، مما يجعله متوافقًا للغاية مع وحدات المعالجة المركزية منخفضة الطاقة وأجهزة الحوسبة الطرفية.
- ProgLoss + STAL: تعمل وظائف الخسارة المتقدمة على تحسين اكتشاف الأجسام الصغيرة بشكل كبير، وهو أمر بالغ الأهمية بالنسبة للصور الجوية والروبوتات.
- تنوع لا مثيل له: في حين أن YOLOv6 محرك كشف بحت، فإن YOLO26 يتعامل مع تقسيم الحالات والتصنيف وتقدير الوضع وكشف الصندوق المحيط الموجه (OBB) بسلاسة.
تدريب سلس مع Ultralytics
لا ينبغي أن يتطلب تدريب النماذج المتطورة استخدام bash معقدة. توفرPython Ultralytics Python تجربة مبسطة مع تحميل تلقائي للبيانات، واستخدام ضئيل CUDA وتتبع مدمج.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset using the robust MuSGD optimizer natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX with a single command
model.export(format="onnx")
حالات الاستخدام المثالية
يعتمد اختيار البنية المناسبة بشكل كامل على بيئة النشر المستهدفة:
- استخدم YOLOv6. YOLOv6 في: أتمتة المصانع واكتشاف العيوب حيث تتوفر وحدات معالجة الرسومات (GPU) من فئة الخوادم (مثل A100s) بكثرة وتحقق المعالجة المجمعة أقصى قدر من الإنتاجية.
- استخدم YOLOv9 : الأبحاث الأكاديمية أو المسابقات التي COCO الهدف الأساسي فيها COCO الحصول على أعلى معدل mAP مجموعات البيانات القياسية مثل COCO .
- استخدم YOLO26 في: جميع التطبيقات التجارية الحديثة تقريبًا. بفضل بنيته NMS واستهلاكه المنخفض للذاكرة، CPU عالية السرعة، فإنه مثالي لأنظمة الإنذار الأمنية، والتجزئة الذكية، وتتبع الأجسام في الوقت الفعلي على الأجهزة المدمجة.
من خلال الاستفادة من Ultralytics الشامل Ultralytics يمكن للمطورين تجربة YOLOv8و YOLO11 و YOLO26 بسهولة لإيجاد التوازن المثالي في الأداء لمواجهة التحديات المحددة التي يواجهونها في العالم الواقعي.