YOLO YOLOv8: التطور المعماري في اكتشاف الكائنات
أدى السعي وراء الكشف عن الأجسام في الوقت الفعلي إلى ابتكارات مهمة في تصميم الشبكات العصبية. ومن بين البنى البارزة التي شكلت هذا المشهد، نجدYOLO التي طورها فريق البحث في Alibaba، و YOLOv8 التي أنشأتها Ultralytics. تستكشف هذه المقارنة الفروق التقنية بين هذين النموذجين، وتفحص استراتيجيات التدريب الخاصة بهما وكفاءتهما من الناحية المعمارية ومدى ملاءمتهما للنشر.
DAMO-YOLO
المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: YOLO
YOLOv8
المؤلفون: جلين جوشر، أيوش شوراسيا، وجينغ تشيو
المنظمة: Ultralytics
التاريخ: 2023-01-10
GitHub: ultralytics
المستندات: yolov8
فلسفات معمارية
يكمن الاختلاف الأساسي بين هذين النموذجين في أصل تصميمهما.YOLO بشكل كبير على استراتيجيات البحث الآلي، بينما YOLOv8 التصميم المعماري اليدوي من خلال اختبارات تجريبية مكثفة.
YOLO: البحث عن البنية العصبية (NAS)
YOLO نهجًا قائمًا على التكنولوجيا يسمى MAE-NAS (البحث الآلي عن بنية عصبية فعالة). بدلاً من تصميم الكتل يدويًا، استخدم المؤلفون البحث عن البنية العصبية لاكتشاف بنية أساسية فعالة في ظل قيود زمنية محددة.
المكونات المعمارية الرئيسية تشمل:
- MAE-NAS Backbone: هيكل مُحسّن تلقائيًا لتحقيق التوازن بين دقة الكشف وسرعة الاستدلال.
- RepGFPN الفعال: شبكة هرمية عامة للميزات (FPN) تستخدم إعادة المعلمات لتحسين دمج الميزات دون إضافة تكلفة الاستدلال.
- ZeroHead: رأس كشف خفيف الوزن مصمم لتقليل العبء الحسابي على طبقات الإخراج النهائية.
- AlignedOTA: استراتيجية ديناميكية لتخصيص التسميات تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار.
YOLOv8: تصميم يدوي محسّن
YOLOv8 على إرث YOLO حيث يقدم وحدة C2f (عنق الزجاجة الجزئي عبر المراحل مع اثنين من التلافيف). تم تصميم هذه الوحدة لتحسين معلومات تدفق التدرج، مما يسمح للشبكة بتعلم ميزات أكثر تعقيدًا مع الحفاظ على خفة وزنها.
تشمل الميزات المعمارية الرئيسية ما يلي:
- الكشف بدون مرساة: YOLOv8 مربعات المرساة، ويتنبأ بمراكز الكائنات مباشرة. وهذا يبسط NMS ويقلل من عدد المعلمات الفائقة التي يجب على المستخدمين ضبطها.
- الرأس المنفصل: يفصل بين فروع التصنيف والانحدار، مما يسمح لكل منها بالتقارب بشكل أكثر فعالية.
- تقنية Mosaic Augmentation: تقنية تدريب متقدمة تجمع أربع صور في صورة واحدة، مما يجبر النموذج على تعلم ثبات السياق والحجم.
مقاييس الأداء
يُقارن الجدول التالي أداءYOLO YOLOv8 COCO . في حينYOLO mAP مثير للإعجاب mAP التقطير المكثف، يوفر YOLOv8 سرعات استدلال فائقة وتعقيدًا أقل في النشر.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
كفاءة التدريب وتعقيده
يعد مسار التدريب أحد العوامل الحاسمة بالنسبة للمطورين.YOLO استراتيجية تقطير متطورة. لتحقيق نتائج من الدرجة الأولى، يجب أولاً تدريب نموذج "معلم" كبير لتوجيه النماذج "الطلابية" الأصغر حجماً. ورغم أن هذا ينتج دقة عالية، إلا أنه يعقد سير عمل التدريب بشكل كبير، ويزيد من متطلبات GPU ، ويطيل وقت التدريب.
في المقابل، تركز Ultralytics على كفاءة التدريب. YOLOv8 نهج "Bag of Freebies" حيث توفر الخيارات المعمارية واستراتيجيات التعزيز (مثل MixUp Mosaic) مكاسب في الدقة دون الحاجة إلى خط أنابيب تقطير متعدد المراحل. وهذا يجعل YOLOv8 أسرع YOLOv8 في التدريب على الأجهزة الاستهلاكية، مما يقلل من عوائق الدخول إلى مجموعات البيانات المخصصة.
كفاءة الموارد
عادةً ما تتميزYOLO Ultralytics YOLO بمتطلبات ذاكرة أقل أثناء التدريب والاستدلال مقارنةً بالنماذج المعقدة القائمة على Transformer أو خطوط التقطير. وهذا يسمح بأحجام دفعات أكبر وتجارب أسرع على وحدات معالجة الرسومات القياسية.
ميزة النظام البيئي لـ Ultralytics
بينماYOLO مساهمات أكاديمية مبتكرة، يوفر Ultralytics ميزة واضحة لتطوير التطبيقات في العالم الواقعي.
تنوع لا يمكن اكتشافه
YOLO تصميمYOLO في المقام الأول لاكتشاف الصناديق المحددة. على العكس من ذلك، فإن Ultralytics متعدد المهام بطبيعته. تتيح واجهة برمجة التطبيقات (API) الواحدة للمطورين القيام بما يلي:
- تقسيم المثيلات لإخفاء دقيق على مستوى البكسل.
- تقدير الوضع لتتبع الهيكل العظمي.
- مربع الحدود الموجه (OBB) للكشف عن الأجسام الجوية والمتدورة.
- تصنيف الصور لتصنيف الصور بالكامل.
سهولة الاستخدام والنشر
Ultralytics تجربة المستخدم المبسطة Ultralytics . تتيح حزمة Python إمكانية التدريب والتحقق والنشر بأقل من خمس أسطر من التعليمات البرمجية. علاوة على ذلك، تتيح خيارات التصدير الشاملة إمكانية التحويل السلس إلى ONNX و TensorRT و CoreML و TFLite و OpenVINO مما يضمن إمكانية نشر النماذج على كل شيء بدءًا من خوادم السحابة وحتى Raspberry Pis.
مستقبل الذكاء الاصطناعي في مجال الرؤية: YOLO26
بالنسبة للمطورين الذين يبحثون عن أحدث التقنيات لعام 2026، Ultralytics YOLO26. بناءً على نجاحات YOLOv8 YOLO11، تقدم YOLO26 تغييرات جوهرية في البنية من أجل السرعة والاستقرار.
تصميم شامل خالٍ من NMS
على عكسYOLO YOLOv8 اللذين يتطلبان معالجة لاحقة باستخدام تقنية Non-Maximum Suppression (NMS) لتصفية المربعات المتداخلة، فإن YOLO26 هو نظام متك امل من البداية إلى النهاية. هذا الاختراق، الذي تم ابتكاره في YOLOv10، يلغي NMS . وينتج عن ذلك تبسيط خطوط الإنتاج وتقليل زمن الاستجابة، خاصة في السيناريوهات التي تحتوي على العديد من الكائنات المكتشفة.
التحسين المتقدم ووظائف الخسارة
يدمج YOLO26 محرك MuSGD Optimizer، وهو مزيج من SGD Muon (مستوحى من ابتكارات تدريب LLM من Moonshot AI's Kimi K2). وهذا يوفر استقرار تدريب نماذج اللغة الكبيرة للرؤية الحاسوبية، مما يؤدي إلى تقارب أسرع. بالإضافة إلى ذلك، فإن إزالة Distribution Focal Loss (DFL) وإدخال ProgLoss و STAL (Soft Task-Aligned Loss) يحسنان الأداء بشكل كبير على الأجسام الصغيرة — وهو تحدٍ شائع في مجال الروبوتات وإنترنت الأشياء.
موازنة الأداء
تم تحسين YOLO26 للحوسبة الطرفية، حيث يوفر CPU أسرع بنسبة تصل إلى 43٪ مقارنةً بالأجيال السابقة. وهذا يجعله الخيار المثالي للتطبيقات التي تعمل على أجهزة لا تحتوي على وحدات معالجة رسومات مخصصة، متجاوزًا كفاءة الأساليب القديمة القائمة على NAS.
مثال على الكود: Ultralytics
يوضح المثال التالي مدى سهولة قيام المطور بالتبديل بين أجيال النماذج باستخدام Ultralytics . تتيح هذه المرونة إجراء مقارنة سريعة YOLOv8 YOLO26 الأحدث على مجموعة بيانات مخصصة.
from ultralytics import YOLO
# Load the models
model_v8 = YOLO("yolov8n.pt")
model_v26 = YOLO("yolo26n.pt") # Recommended for new projects
# Train YOLO26 on a custom dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model_v26.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the NMS-free architecture
# No post-processing tuning required
prediction = model_v26("https://ultralytics.com/images/bus.jpg")
prediction[0].show()
ملخص
YOLOv8 كل منYOLO YOLOv8 معالم بارزة في مجال الرؤية الحاسوبية.YOLO قوة البحث عن البنية العصبية والتقطير لتحقيق دقة عالية. ومع ذلك، بالنسبة لمعظم المطورين والباحثين والمؤسسات، Ultralytics YOLOv8—وبشكل خاص YOLO26الأحدث—توازنًا فائقًا.
إن الجمع بين نظام بيئي جيد الصيانة وسهولة الاستخدام ودعم المهام المتنوعة والميزات المتطورة مثل الكشف NMS يجعل Ultralytics المفضل لحلول الذكاء الاصطناعي القابلة للتطوير والمستقبلية. يمكن للمطورين الذين يبحثون عن خيارات أخرى عالية الأداء استكشاف RT-DETR للحصول على دقة قائمة على المحولات أو YOLO11 للحصول على قوة مثبتة.