Link to this sectionYOLOv5 مقابل DAMO-YOLO#
يشهد مجال الرؤية الحاسوبية اللحظية تطوراً مستمراً، حيث يسعى الباحثون والمهندسون جاهدين لتحقيق التوازن الأمثل بين الدقة والسرعة وسهولة الاستخدام. ومن بين النماذج البارزة التي صاغت هذا المسار نجد Ultralytics YOLOv5 ونموذج DAMO-YOLO من شركة Alibaba.
يقدم هذا الدليل تحليلاً تقنياً متعمقاً لبنيات هذه النماذج، ومقاييس الأداء، ومنهجيات التدريب لمساعدتك في اختيار النموذج المناسب لعملية النشر القادمة.
Link to this sectionخلفية النماذج#
قبل الغوص في التفاصيل التقنية، من المهم فهم الأصول وفلسفات التصميم الأساسية الكامنة وراء كل من نماذج الرؤية المؤثرة هذه.
Link to this sectionUltralytics YOLOv5#
تم تطوير YOLOv5 بواسطة Glenn Jocher وفريق العمل في Ultralytics، وقد أصبح معياراً صناعياً منذ إطلاقه. تم بناؤه محلياً على إطار العمل PyTorch، وركز على توفير تجربة مطور مبسطة وقدرات نشر قوية ومباشرة.
- المؤلف: Glenn Jocher
- المنظمة: Ultralytics
- التاريخ: 2020-06-26
- GitHub: https://github.com/ultralytics/yolov5
- الوثائق: توثيق Ultralytics YOLOv5
Link to this sectionDAMO-YOLO#
تم إنشاؤه بواسطة باحثين في Alibaba Group، ويركز DAMO-YOLO بشكل كبير على البحث في البنية العصبية (NAS) وتقنيات التقطير المتقدمة. وهو يدفع الحدود النظرية للأداء الخاص بالأجهزة، ويلبي بشكل قوي احتياجات بيئات الأبحاث والبيئات الطرفية التي تتطلب ضبطاً دقيقاً للغاية.
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المؤسسة: Alibaba Group
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
Link to this sectionالابتكارات المعمارية#
يستفيد كلا النموذجين من مفاهيم هيكلية فريدة لتحقيق أدائهما اللحظي، على الرغم من اختلاف نهجهما بشكل كبير.
Link to this sectionYOLOv5: الاستقرار وتعدد الاستخدامات#
يستخدم YOLOv5 بنية أساسية (Backbone) من نوع Modified CSP (Cross Stage Partial) مقترنة بنظام PANet (Path Aggregation Network) كعنق. هذا الهيكل فعال للغاية، ويقلل من استهلاك ذاكرة CUDA أثناء التدريب والاستنتاج.
تعد تعددية الاستخدامات عبر المهام إحدى أعظم نقاط قوة YOLOv5. فبعيداً عن توقعات مربعات الإحاطة (Bounding Boxes)، فإنه يوفر بنيات مخصصة لـ تجزئة الصور وتصنيف الصور، مما يسمح للمطورين بتوحيد خطوط أنابيب الرؤية الخاصة بهم حول إطار عمل واحد متماسك.
Link to this sectionDAMO-YOLO: البحث الآلي في البنية#
يتمثل الابتكار الأساسي لـ DAMO-YOLO في MAE-NAS Backbone. باستخدام بحث تطوري متعدد الأهداف، اكتشف فريق Alibaba بنيات أساسية توازن ديناميكياً بين دقة الكشف وسرعة الاستنتاج.
بالإضافة إلى ذلك، يتميز بعنق Efficient RepGFPN لتحسين دمج الميزات - وهو أمر مفيد للغاية لتغيرات النطاق المعقدة التي تظهر غالباً في تحليل صور الأقمار الصناعية. كما يبسط تصميم ZeroHead الخاص به طبقات التنبؤ النهائية لتقليل زمن الاستجابة، على الرغم من أن هذا التوليد الهيكلي المعقد قد يجعل البنية صلبة وأكثر صعوبة في التعديل للتطبيقات المخصصة.
غالباً ما تعاني البنيات القائمة على Transformer من استهلاك عالٍ لذاكرة VRAM. يستخدم كل من YOLOv5 وDAMO-YOLO تصميمات التفافية فعالة للحفاظ على انخفاض متطلبات الذاكرة، ولكن نماذج Ultralytics مُحسَّنة بشكل ملحوظ لوحدات معالجة الرسومات (GPUs) الموجهة للمستهلكين، مما يجعلها أكثر سهولة للباحثين المستقلين والشركات الناشئة.
Link to this sectionالأداء والمقاييس#
يتطلب تقييم كواشف الكائنات اللحظية النظر في مصفوفة من مقاييس mAP (متوسط الدقة)، وسرعة الاستنتاج، ومعايير حجم النموذج.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
بينما يحقق DAMO-YOLO درجات mAP تنافسية للغاية عند عدد معين من المعلمات، يُظهر YOLOv5 باستمرار سرعات TensorRT استثنائية وأعداد معلمات منخفضة بشكل لا يصدق لتكويناته الصغيرة (nano و small). يضمن توازن الأداء هذا أن يعمل YOLOv5 بكفاءة عبر سيناريوهات النشر الطرفي المتنوعة.
Link to this sectionكفاءة التدريب والنظام البيئي#
الدقة النظرية للنموذج تكون جيدة بقدر قابليته للتنفيذ العملي. وهنا تتباعد النماذج بشكل كبير.
Link to this sectionتعقيد التقطير#
يعتمد DAMO-YOLO بشكل كبير على منهجية تدريب متعددة المراحل. فهو ينفذ تقنية تقطير المعرفة من المعلم إلى الطالب تُعرف باسم AlignedOTA. وبينما يستخلص هذا أقصى أداء من نموذج الطالب، فإنه يتطلب تدريب نموذج معلم ضخم في البداية. وهذا يزيد بشكل كبير من وقت الحوسبة، وتكاليف الطاقة، والأجهزة المطلوبة، مما يشكل عنق زجاجة لفرق التعلم الآلي المرنة.
Link to this sectionميزة Ultralytics: سهولة الاستخدام#
في المقابل، يشتهر نظام Ultralytics البيئي عالمياً بواجهات برمجية (APIs) بديهية وكفاءة تدريب. وبدعم من التطوير النشط ومجتمع مفتوح المصدر ضخم، يمكن للمطورين تدريب النماذج والتحقق منها ونشرها بسلاسة.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")توفر Ultralytics أيضاً دعماً مدمجاً لـ تتبع التجارب عبر أدوات مثل Weights & Biases وComet ML، مما يخلق سير عمل خالٍ من الاحتكاك.
Link to this sectionحالات الاستخدام في العالم الحقيقي#
- يتفوق YOLOv5 في بيئات الإنتاج سريعة الخطى. وتجعله قابليته المباشرة للتصدير الخيار الأول لـ تحليلات التجزئة الذكية، واكتشاف عيوب التصنيع عالية السرعة، والتكامل في تطبيقات الهاتف المحمول عبر CoreML.
- يعد DAMO-YOLO مناسباً جداً للمقارنة المعيارية الأكاديمية الصارمة والسيناريوهات التي تتوفر فيها موارد حوسبة واسعة النطاق لتنفيذ عمليات تدريب مقطرة طويلة تهدف إلى انتزاع تحسينات طفيفة في mAP لأهداف أجهزة محددة وثابتة.
Link to this sectionحالات الاستخدام والتوصيات#
يعتمد الاختيار بين YOLOv5 وDAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
Link to this sectionمتى تختار YOLOv5#
يعد YOLOv5 خيارًا قويًا لـ:
- أنظمة الإنتاج المثبتة: عمليات النشر الحالية حيث يتم تقدير سجل YOLOv5 الطويل من الاستقرار، والوثائق الشاملة، ودعم المجتمع الضخم.
- التدريب محدود الموارد: البيئات ذات موارد GPU المحدودة حيث تكون خط أنابيب التدريب الفعال لـ YOLOv5 ومتطلبات الذاكرة الأقل ميزة.
- دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX وTensorRT وCoreML وTFLite.
Link to this sectionمتى تختار DAMO-YOLO#
يوصى باستخدام DAMO-YOLO من أجل:
- تحليلات الفيديو ذات الإنتاجية العالية: معالجة تدفقات الفيديو ذات معدل الإطارات العالي على بنية تحتية ثابتة لوحدات GPU من NVIDIA حيث يكون إنتاجية الدفعة-1 هو المقياس الأساسي.
- خطوط التصنيع الصناعية: السيناريوهات ذات قيود زمن انتقال GPU صارمة على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث في البنية العصبية: دراسة تأثيرات البحث الآلي في البنية (MAE-NAS) والهياكل الأساسية المعاد برمجتها بكفاءة على أداء الاكتشاف.
Link to this sectionمتى تختار Ultralytics (YOLO26)#
بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
- بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
Link to this sectionالتطور القادم: YOLO26#
إذا كنت تبدأ مشروعاً جديداً، فمن المستحسن بشدة التطلع إلى المستقبل. يبني Ultralytics YOLO26 على الأساس المذهل لـ YOLOv5، متضمناً تطورات ثورية تعيد تعريف أحدث تقنيات الرؤية بالذكاء الاصطناعي.
أُطلق YOLO26 وسط إشادة عالمية، وهو شامل (end-to-end) بشكل أصلي. يتميز بتصميم End-to-End NMS-Free، مما يلغي تماماً معالجة ما بعد الكشف (Non-Maximum Suppression) للحصول على نشر أسرع وأبسط بشكل كبير.
تشمل الابتكارات الرئيسية في YOLO26 ما يلي:
- محسن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLMs)، يضمن هذا الهجين من SGD وMuon تدريباً مستقراً للغاية وتقارباً سريعاً.
- استنتاج أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): محسن بشكل كبير للحوسبة الطرفية، مما يجعله مثالياً لأجهزة إنترنت الأشياء (IoT) التي تعمل بدون وحدات معالجة رسومات (GPUs) مخصصة.
- ProgLoss + STAL: وظائف فقدان (Loss functions) متقدمة تحسن بشكل كبير التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لـ صور الطائرات بدون طيار والروبوتات.
- تحسينات خاصة بالمهام: بدءاً من فقدان الزاوية المتخصص لـ مربعات الإحاطة الموجهة (OBB) إلى تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير وضعية الجسم (Pose estimation) بدقة، يتعامل YOLO26 مع المجالات المعقدة بسهولة.
Link to this sectionالخلاصة#
لقد رسخ كل من YOLOv5 وDAMO-YOLO مكانتهما في تاريخ كشف الكائنات. يظل DAMO-YOLO دراسة رائعة في البحث في البنية العصبية والتقطير. ومع ذلك، بالنسبة للمؤسسات التي تعطي الأولوية لـ نظام بيئي جيد الصيانة، وسهولة الاستخدام، ومسار سريع نحو الإنتاج، تظل نماذج Ultralytics لا تضاهى.
نوصي بشدة باستخدام منصة Ultralytics لتعليق وتدريب ونشر الجيل القادم من النماذج، مثل YOLO26، مما يضمن أن خط أنابيب الرؤية الحاسوبية الخاص بك جاهز للمستقبل وسريع ودقيق بشكل ملحوظ.