YOLOv5 مقابل DAMO-YOLO: مقارنة تقنية شاملة

يشهد مشهد رؤية الحاسوب في الوقت الفعلي تطوراً مستمراً، حيث يسعى الباحثون والمهندسون جاهدين لتحقيق التوازن المثالي بين الدقة والسرعة وسهولة الاستخدام. ومن أبرز النماذج التي شكلت هذا المسار Ultralytics YOLOv5 و DAMO-YOLO من شركة Alibaba.

يوفر هذا الدليل تحليلاً تقنياً متعمقاً لبنيتها ومقاييس أدائها ومنهجيات تدريبها لمساعدتك في اختيار النموذج المناسب لنشرك القادم.

خلفية النماذج

قبل الغوص في التفاصيل التقنية الدقيقة، من المهم فهم الأصول وفلسفات التصميم الأساسية وراء كل نموذج من هذه النماذج المؤثرة في مجال الرؤية الحاسوبية.

Ultralytics YOLOv5

أصبح YOLOv5، الذي طوره جلين جوشر وفريق Ultralytics، معياراً صناعياً منذ إطلاقه. وبفضل بنائه أصلاً على إطار عمل PyTorch، فقد أعطى الأولوية لتجربة مطور مبسطة وقدرات نشر قوية جاهزة للاستخدام فوراً.

اعرف المزيد حول YOLOv5

DAMO-YOLO

يركز DAMO-YOLO، الذي ابتكره باحثون في مجموعة Alibaba، بشكل كبير على البحث عن البنية العصبية (NAS) وتقنيات التقطير المتقدمة. وهو يدفع الحدود النظرية للأداء الخاص بالأجهزة، مما يلبي احتياجات الأبحاث وبيئات الحافة التي تتطلب ضبطاً دقيقاً للغاية.

اعرف المزيد عن DAMO-YOLO

الابتكارات المعمارية

يستفيد كلا النموذجين من مفاهيم هيكلية فريدة لتحقيق أدائهما في الوقت الفعلي، رغم اختلاف نهجهما بشكل كبير.

YOLOv5: الاستقرار وتعدد الاستخدامات

يستخدم YOLOv5 هيكلاً خلفياً من نوع Modified CSP (Cross Stage Partial) مقترناً بعنق PANet (Path Aggregation Network). هذا الهيكل فعال للغاية، مما يقلل من استخدام ذاكرة CUDA أثناء التدريب والاستدلال.

تعد إحدى نقاط قوة YOLOv5 الكبرى هي تعدد استخداماته عبر المهام. فبالإضافة إلى تنبؤات مربعات الإحاطة، فإنه يوفر بنيات مخصصة لتجزئة الصور وتصنيف الصور، مما يسمح للمطورين بتوحيد مسارات عمل الرؤية الخاصة بهم حول إطار عمل واحد متماسك.

DAMO-YOLO: البحث الآلي عن البنية

الابتكار الجوهري في DAMO-YOLO هو البنية الخلفية MAE-NAS. باستخدام البحث التطوري متعدد الأهداف، اكتشف فريق Alibaba بنيات خلفية توازن بين دقة الكشف وسرعة الاستدلال بشكل ديناميكي.

بالإضافة إلى ذلك، يتميز بعنق Efficient RepGFPN لتحسين دمج الميزات—وهو مفيد للغاية لتباينات المقاييس المعقدة التي تظهر غالباً في تحليل صور الأقمار الصناعية. يعمل تصميم ZeroHead الخاص به على تبسيط طبقات التنبؤ النهائية لتقليل زمن الاستجابة، رغم أن هذا التوليد الهيكلي المعقد يمكن أن يجعل البنية جامدة وأصعب في التعديل للتطبيقات المخصصة.

متطلبات الذاكرة

غالباً ما تعاني البنيات القائمة على Transformer من استهلاك مرتفع لذاكرة VRAM. يستخدم كل من YOLOv5 وDAMO-YOLO تصميمات التفافية فعالة للحفاظ على انخفاض متطلبات الذاكرة، لكن نماذج Ultralytics مُحسّنة بشكل ملحوظ لوحدات معالجة الرسوميات الموجهة للمستهلكين، مما يجعلها أكثر سهولة للباحثين المستقلين والشركات الناشئة.

الأداء والمقاييس

يتطلب تقييم كواشف الكائنات في الوقت الفعلي النظر في مصفوفة من مقاييس mAP (متوسط الدقة)، وسرعة الاستدلال، ومعايير حجم النموذج.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

في حين يحقق DAMO-YOLO درجات mAP تنافسية للغاية عند عدد معين من المعلمات، يظهر YOLOv5 باستمرار سرعات TensorRT استثنائية وأعداد معلمات منخفضة بشكل لا يصدق لإعداداته النانوية والصغيرة. يضمن توازن الأداء هذا عمل YOLOv5 بكفاءة عبر سيناريوهات نشر الحافة المتنوعة.

كفاءة التدريب والنظام البيئي

الدقة النظرية للنموذج جيدة بقدر قابليته للتنفيذ العملي. وهنا تتباعد النماذج بشكل كبير.

تعقيد التقطير

يعتمد DAMO-YOLO بشكل كبير على منهجية تدريب متعددة المراحل. وهو ينفذ تقنية تقطير المعرفة من المعلم إلى الطالب تُعرف باسم AlignedOTA. ورغم أن هذا يستخلص أقصى أداء من نموذج الطالب، فإنه يتطلب تدريب نموذج معلم ضخم في البداية. وهذا يزيد بشكل كبير من وقت الحوسبة وتكاليف الطاقة والأجهزة المطلوبة، مما يشكل عنق زجاجة لفرق تعلم الآلة الرشيقة.

ميزة Ultralytics: سهولة الاستخدام

في المقابل، يشتهر نظام Ultralytics البيئي عالمياً بواجهات برمجة التطبيقات (APIs) البديهية وكفاءة التدريب. وبدعم من التطوير النشط ومجتمع ضخم مفتوح المصدر، يمكن للمطورين تدريب النماذج والتحقق منها ونشرها بسلاسة.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

توفر Ultralytics أيضاً دعماً مدمجاً لتتبع التجارب عبر أدوات مثل Weights & Biases وComet ML، مما يخلق مسار عمل خالٍ من الاحتكاك.

حالات الاستخدام الواقعية

  • يتفوق YOLOv5 في بيئات الإنتاج سريعة الخطى. وتجعله قابليته المباشرة للتصدير الخيار الأول لـ تحليلات التجزئة الذكية، واكتشاف عيوب التصنيع عالي السرعة، والتكامل في تطبيقات الهاتف المحمول عبر CoreML.
  • يعد DAMO-YOLO مناسباً للغاية للمقارنات الأكاديمية الصارمة والسيناريوهات التي تتوفر فيها موارد حوسبة واسعة لتنفيذ عمليات تدريب مطولة ومقطرة تهدف إلى انتزاع تحسينات جزئية في mAP لأهداف أجهزة محددة وثابتة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv5 وDAMO-YOLO على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv5

YOLOv5 هو خيار قوي لـ:

  • أنظمة الإنتاج المثبتة: عمليات النشر الحالية التي يتم فيها تقدير سجل YOLOv5 الطويل من الاستقرار، والتوثيق المكثف، والدعم المجتمعي الهائل.
  • التدريب بموارد محدودة: البيئات ذات موارد GPU المحدودة حيث يكون خط أنابيب التدريب الفعال ومتطلبات الذاكرة الأقل لـ YOLOv5 ميزة كبيرة.
  • دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX، و TensorRT، و CoreML، و TFLite.

متى تختار DAMO-YOLO

يُنصح بـ DAMO-YOLO من أجل:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
  • خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

التطور القادم: YOLO26

إذا كنت تبدأ مشروعاً جديداً، يوصى بشدة بالتطلع نحو المستقبل. يبني Ultralytics YOLO26 على الأساس المذهل لـ YOLOv5، متضمناً تطورات ثورية تعيد تعريف أحدث تقنيات الرؤية بالذكاء الاصطناعي.

لماذا يجب الترقية إلى YOLO26؟

تم إطلاق YOLO26 وسط إشادة عالمية، وهو أصلاً من طرف إلى طرف. يتميز بتصميم End-to-End NMS-Free، مما يلغي تماماً معالجة ما بعد الـ Non-Maximum Suppression للحصول على نشر أسرع وأبسط بشكل ملحوظ.

تشمل الابتكارات الرئيسية في YOLO26 ما يلي:

  • مُحسّن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM)، يضمن هذا الهجين من SGD وMuon تدريباً مستقراً للغاية وتقارباً سريعاً.
  • استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): مُحسّن بشكل كبير لحوسبة الحافة، مما يجعله مثالياً لأجهزة إنترنت الأشياء (IoT) التي تعمل بدون وحدات معالجة رسوميات مخصصة.
  • ProgLoss + STAL: وظائف خسارة متقدمة تحسن بشكل كبير التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لـ صور الطائرات بدون طيار والروبوتات.
  • تحسينات خاصة بالمهام: من خسارة الزاوية المتخصصة لـ مربعات الإحاطة الموجهة (OBB) إلى تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير الوضعية بدقة، يتعامل YOLO26 مع المجالات المعقدة بسهولة.

خاتمة

لقد رسخ كل من YOLOv5 وDAMO-YOLO مكانتهما في تاريخ اكتشاف الكائنات. لا يزال DAMO-YOLO دراسة رائعة في البحث عن البنية العصبية والتقطير. ومع ذلك، بالنسبة للمؤسسات التي تعطي الأولوية لـ نظام بيئي جيد الصيانة، وسهولة الاستخدام، ومسار سريع للإنتاج، تظل نماذج Ultralytics لا مثيل لها.

نوصي بشدة باستخدام منصة Ultralytics لتعليق وتدريب ونشر الجيل التالي من النماذج، مثل YOLO26، لضمان أن يكون مسار عمل الرؤية الحاسوبية الخاص بك جاهزاً للمستقبل، وسريعاً، ودقيقاً بشكل ملحوظ.

قراءة إضافية

  • استكشف RT-DETR القائم على المحولات للتطبيقات عالية الدقة.
  • تعرف على نموذج YOLO11 من الجيل السابق.
  • اكتشف كيفية تحسين عمليات النشر باستخدام OpenVINO.

تعليقات