YOLOv6-3.0 مقابل YOLOv9: نظرة تقنية متعمقة في الكشف الحديث عن الأجسام
يستمر مشهد الكشف عن الأجسام في الوقت الفعلي في التطور، مدفوعاً بمتطلبات الدقة الأعلى، وزمن الانتقال الأقل، واستخدام أفضل للأجهزة. تبحث هذه المقارنة الشاملة في علامتين بارزتين في هذا المجال: YOLOv6-3.0، الذي طُوّر للإنتاجية الصناعية، وYOLOv9، الذي قدم بنيات جديدة للتغلب على اختناقات المعلومات في التعلم العميق.
بينما يقدم كلا النموذجين ابتكارات معمارية فريدة، غالباً ما ينتقل المطورون الذين يبحثون عن التوازن النهائي بين الأداء وبساطة النشر إلى النظم البيئية الحديثة. بالنسبة لأولئك الذين يبدأون مشاريع جديدة، فإن Ultralytics YOLO26 المصمم ليكون متكاملاً من البداية للنهاية هو المعيار الموصى به، حيث يوفر دقة متطورة مع تجربة مطور مبسطة بشكل ملحوظ.
YOLOv6-3.0: تحسين الإنتاجية الصناعية
تم تطوير YOLOv6-3.0 بواسطة قسم Vision AI في شركة Meituan، وقد تم تصميمه بعناية لتحقيق أقصى قدر من الإنتاجية في التطبيقات الصناعية، خاصة على أجهزة GPU.
- المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, and Xiangxiang Chu
- المنظمة: Meituan
- التاريخ: 13 يناير 2023
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
الابتكارات المعمارية
قدم YOLOv6-3.0 العديد من التعديلات الرئيسية لتعزيز دمج الميزات وكفاءة الأجهزة. تتضمن البنية وحدة تسلسل ثنائية الاتجاه (BiC) في عنق النموذج، مما يوفر إشارات تحديد موقع أكثر دقة. كما يستخدم استراتيجية التدريب بمساعدة المرساة (AAT). يجمع هذا النهج بين التوجيه الغني للتدريب القائم على المرساة وسرعة الاستدلال للنموذج الخالي من المراسي، مما يحقق أداءً أفضل دون إبطاء عملية النشر.
يعتمد العمود الفقري للنموذج على تصميم EfficientRep، الذي تم تحسينه بدقة ليكون صديقاً للأجهزة من أجل استدلال GPU. وهذا يجعله قادراً للغاية على التعامل مع سيناريوهات التصنيع الصناعي حيث تكون معالجة الدفعات الثقيلة هي القاعدة.
نقاط القوة والضعف
تكمن القوة الأساسية لـ YOLOv6-3.0 في معدل الإطارات العالي على وحدات معالجة الرسومات مثل NVIDIA T4، مما يجعله مناسباً لتدفقات فهم الفيديو عالية الكثافة. ومع ذلك، فإن اعتماده الكبير على تحسينات أجهزة محددة يمكن أن يؤدي إلى زمن انتقال غير مثالي على أجهزة الحافة التي تعتمد على CPU فقط. علاوة على ذلك، يمكن أن يكون إعداد خط أنابيب التدريب الخاص به معقداً مقارنة بالأطر الأكثر توحيداً.
YOLOv9: معلومات التدرج القابلة للبرمجة
تم إصدار YOLOv9 بعد عام، ويركز على حل مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة، مما يدفع الحدود النظرية لبنيات CNN.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
- التاريخ: 21 فبراير 2024
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
الابتكارات المعمارية
المساهمة الرئيسية لـ YOLOv9 هي معلومات التدرج القابلة للبرمجة (PGI)، والتي تضمن الاحتفاظ بالبيانات الحاسمة أثناء مرورها عبر طبقات الشبكة المتعددة، مما يسمح بتحديثات أكثر موثوقية للأوزان. وإلى جانب PGI، يتميز النموذج بـ شبكة تجميع الطبقات الفعالة المعممة (GELAN). تعمل GELAN على زيادة كفاءة المعلمات، مما يمكن YOLOv9 من تحقيق دقة فائقة مع عدد أقل من FLOPs الحسابية مقارنة بالعديد من سابقاتها.
نقاط القوة والضعف
يحقق YOLOv9 متوسط دقة (mAP) متميزاً على مجموعات بيانات قياسية مثل COCO، مما يجعله مفضلاً للباحثين الذين يعطون الأولوية للدقة الخام. ومع ذلك، مثل YOLOv6، فإنه لا يزال يعتمد على كبت غير الحد الأقصى (NMS) التقليدي للمعالجة اللاحقة. وهذا يضيف زمن انتقال ويعقد خط أنابيب نشر النموذج، خاصة عند النقل إلى أجهزة الحافة باستخدام تنسيقات مثل ONNX أو TensorRT.
مقارنة الأداء
عند مقارنة هذه النماذج، من الضروري النظر في التوازن بين الدقة وعدد المعلمات وسرعة الاستدلال.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
ميزة Ultralytics: تقديم YOLO26
بينما توفر YOLOv6-3.0 و YOLOv9 بنيات قوية، تتطلب بيئات الإنتاج نظاماً بيئياً مُداراً جيداً، ومتطلبات ذاكرة منخفضة، وسهولة فائقة في الاستخدام. وهنا تتفوق منصة Ultralytics ونماذج مثل YOLO11 و YOLO26 المتطور.
تم إصدار YOLO26 في أوائل عام 2026، وهو يعيد تعريف كفاءة النشر بشكل جذري من خلال القضاء على الاختناقات القديمة.
يتميز YOLO26 بتصميم End-to-End NMS-Free، مما يزيل تماماً الحاجة إلى معالجة كبت غير الحد الأقصى (NMS). وهذا يقلل بشكل كبير من تباين زمن استجابة الاستدلال ويبسط منطق النشر على الحافة.
ابتكارات YOLO26 الرئيسية
- محسن MuSGD: مستوحى من تدريب نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجاً من SGD و Muon. وهذا يجلب استقراراً لا مثيل له في التدريب وتقارباً أسرع لمهام الرؤية الحاسوبية.
- سرعة استدلال CPU أسرع بنسبة تصل إلى 43%: على عكس تركيز YOLOv6 الكبير على GPU، تم تحسين YOLO26 بشكل كبير لأجهزة الحافة. تؤدي إزالة خسارة بؤرة التوزيع (DFL) إلى تبسيط رأس النموذج، مما يجعله متوافقاً للغاية مع وحدات CPU منخفضة الطاقة وأجهزة حوسبة الحافة.
- ProgLoss + STAL: تعمل دوال الخسارة المتقدمة على تحسين الكشف عن الأجسام الصغيرة بشكل كبير، وهو أمر بالغ الأهمية لـ الصور الجوية والروبوتات.
- تعدد استخدامات لا مثيل له: بينما يعتبر YOLOv6 محرك كشف فقط، يتعامل YOLO26 مع تجزئة المثيلات، والتصنيف، وتقدير الوضعية، واكتشاف صندوق الإحاطة الموجه (OBB) بسلاسة.
تدريب سلس مع Ultralytics
لا ينبغي أن يتطلب تدريب النماذج المتطورة نصوص bash معقدة. توفر واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics تجربة مبسطة مع تحميل تلقائي للبيانات، وحد أدنى من استخدام ذاكرة CUDA، وتتبع مدمج.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset using the robust MuSGD optimizer natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX with a single command
model.export(format="onnx")حالات الاستخدام المثالية
يعتمد اختيار البنية الصحيحة تماماً على بيئة النشر المستهدفة الخاصة بك:
- استخدم YOLOv6-3.0 لـ: أتمتة المصانع واكتشاف العيوب حيث تتوفر وحدات GPU من فئة الخادم (مثل A100s) بكثرة وتعمل معالجة الدفعات على زيادة الإنتاجية إلى الحد الأقصى.
- استخدم YOLOv9 لـ: البحث الأكاديمي أو المسابقات حيث يكون الهدف الأساسي هو الحصول على أعلى mAP ممكن على مجموعات بيانات موحدة مثل COCO.
- استخدم YOLO26 لـ: جميع التطبيقات التجارية الحديثة تقريباً. إن بنيته الخالية من NMS، وبصمة الذاكرة المنخفضة، واستدلال CPU عالي السرعة تجعله مثالياً لـ أنظمة إنذار الأمن، وتجارة التجزئة الذكية، وتتبع الأجسام في الوقت الفعلي على الأجهزة المدمجة.
من خلال الاستفادة من نظام Ultralytics البيئي الشامل، يمكن للمطورين تجربة YOLOv8 و YOLO11 و YOLO26 بسهولة للعثور على توازن الأداء المثالي لتحدياتهم الواقعية المحددة.