DAMO-YOLO مقابل YOLOv5: تعمق في الكشف عن الكائنات في الوقت الفعلي

تميز تطور الرؤية الحاسوبية بالابتكار المستمر في مجال الكشف عن الأجسام في الوقت الفعلي. اليوم، يواجه المطورون والباحثون عددًا لا يحصى من الخيارات المعمارية عند تصميم خطوط أنابيب الرؤية. تستكشف هذه المقارنة التقنية الشاملة الفروق الدقيقة بين YOLO و Ultralytics YOLOv5، وتسلط الضوء على هندستهما المعمارية ومنهجيات التدريب ومقاييس الأداء وسيناريوهات النشر المثالية.

مقدمة إلىYOLO

أطلقت مجموعة Alibaba GroupYOLO عدة تقنيات مبتكرة تهدف إلى توسيع حدود سرعة ودقة الكشف.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 23 نوفمبر 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO
الوثائق:ملف README.md

تعرف على المزيد حول DAMO-YOLO

الابتكارات المعمارية

تم بناء DAMO-YOLO على أساس من البحث عن البنية العصبية (NAS). استخدم المؤلفون MAE-NAS لتصميم هياكل العمود الفقري تلقائيًا التي توازن بين زمن الاستجابة والدقة. يقدم النموذج RepGFPN فعالاً (شبكة هرمية للميزات المعممة ذات المعلمات المعاد تعريفها) الذي يحسن دمج الميزات عبر مقاييس مختلفة. علاوة على ذلك، يدمج DAMO-YOLO تصميم "ZeroHead"، متخليًا عن رؤوس التنبؤ المعقدة متعددة الفروع لصالح بنية أبسط وأكثر كفاءة تعتمد بشكل كبير على إعادة المعلمات أثناء الاستدلال.

لتحسين التدريب، يستخدم النموذج AlignedOTA لتعيين التسميات وعملية تحسين التقطير المكثف، حيث يوجه نموذج "المعلم" الأكبر نموذج "الطالب" الأصغر لتحقيق دقة أعلى.

مقدمة إلى Ultralytics YOLOv5

Ultralytics YOLOv5 واحدة من أكثر بنى الرؤية استخدامًا في العالم، وتشتهر باستقرارها وسهولة استخدامها ونظامها البيئي الواسع النطاق.

المؤلفون: Glenn Jocher
المؤسسة:Ultralytics
التاريخ: 26 يونيو 2020
GitHub:ultralytics/yolov5
الوثائق:وثائق YOLOv5

تعرف على المزيد حول YOLOv5

معيار النظام البيئي

YOLOv5 معيار الصناعة من حيث سهولة الاستخدام. تم بناؤها أصلاً في PyTorch، ويستخدم بنية أساسية CSPNet عالية التحسين ورقبة PANet لتجميع الميزات بشكل قوي. على الرغم من أنه سبق الاتجاه الخالي من المراسي الذي شوهد في النماذج اللاحقة، إلا أن نهجه القائم على المراسي عالية الدقة، إلى جانب التعلم التلقائي للمراسي، يضمن أداءً ممتازًا فور استخدامه.

YOLOv5 القوة الحقيقية لـ YOLOv5 في نظامها البيئي الذي يتم صيانته جيدًا. فهي تتكامل بسلاسة مع أدوات التتبع مثل Comet و Weights & Biases، ويدعم التصدير بنقرة واحدة إلى تنسيقات مثل ONNXو TensorRTو CoreML.

البدء في استخدام YOLOv5

YOLOv5 التدريب بشكل لا يصدق على مجموعات البيانات المخصصة. YOLOv5 واجهة برمجة التطبيقات المبسطة على تقليل الاحتكاك من النموذج الأولي إلى الإنتاج، مما يجعله المفضل لدى فرق الهندسة الرشيقة.

مقارنة الأداء والمقاييس

عند مقارنة هذه النماذج، من الضروري النظر إلى التوازن بين متوسط الدقة (mAP) وسرعة الاستدلال وعدد المعلمات.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

تحليل المقايضات

يحقق DAMO-YOLO درجات mAP مبهرة بالنسبة لأحجام معلماته، مستفيدًا بشكل كبير من مرحلة تدريب التقطير الخاصة به. ومع ذلك، يأتي هذا على حساب كفاءة التدريب. تتطلب عملية التقطير متعددة المراحل تدريب نموذج معلم ثقيل أولاً، مما يزيد بشكل كبير من وقت حساب GPU وذاكرة VRAM اللازمين.

على العكس من ذلك، يوفر YOLOv5 متطلبات ذاكرة ممتازة. تشتهر نماذج Ultralytics YOLO بانخفاض استخدام الذاكرة أثناء التدريب والاستدلال مقارنة بخطوط أنابيب التقطير المعقدة أو النماذج القائمة على المحولات مثل RT-DETR. يتيح ذلك تدريب YOLOv5 بكفاءة على الأجهزة الاستهلاكية أو بيئات السحابة المتاحة مثل Google Colab.

التطبيقات الواقعية والتنوع

غالبًا ما يعتمد اختيار البنية الصحيحة على بيئة النشر.

أين يتفوق DAMO-YOLO

DAMO-YOLO هو نموذج مخصص حصريًا لـ الكشف عن الكائنات. إنه خيار ممتاز للبحث الأكاديمي، خاصة للفرق التي تدرس البحث عن البنية العصبية أو تلك التي تهدف إلى إعادة إنتاج تقنيات إعادة التوسيط المفصلة في الورقة. إذا كان المشروع يمتلك موارد حاسوبية واسعة لتنفيذ مرحلة تدريب التقطير ويركز فقط على استخلاص آخر جزء من الدقة لصناديق الإحاطة ثنائية الأبعاد، فإن DAMO-YOLO يعد منافسًا قويًا.

ميزة Ultralytics

في مجال الإنتاج الفعلي، تعد سهولة الاستخدام وتعدد استخدامات Ultralytics من العوامل التي تجعلها الخيار المفضل. في حين YOLOv5 أداة أساسية للكشف وتصنيف الصور، فإن Ultralytics الأوسع نطاقًا يتيح للمطورين التبديل بين المهام بسهولة.

على سبيل المثال، تدعم الإصدارات الأحدث من Ultralytics بشكل أساسي تقسيم المثيلات وتقدير الوضع وكشف الصندوق المحيط الموجه (OBB). تضمن هذه القدرة متعددة المهام أن تتمكن الفرق من استخدام Python واحدة وموحدة لخطوط الإنتاج المعقدة، مثل الجمع بين التعرف الآلي على لوحات الأرقام وتقسيم المركبات.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين DAMO-YOLO وYOLOv5 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

DAMO-YOLO خيار قوي لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار YOLOv5

YOLOv5 في الحالات التالية:

أنظمة الإنتاج المثبتة: العمليات المنشورة الحالية حيث تُقدر سجل YOLOv5 الطويل في الاستقرار، والتوثيق الشامل، والدعم المجتمعي الهائل.
التدريب محدود الموارد: البيئات ذات موارد GPU المحدودة حيث تكون خطة تدريب YOLOv5 الفعالة ومتطلبات الذاكرة الأقل مفيدة.
دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX وTensorRT وCoreML وTFLite.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

المستقبل: الانتقال إلى YOLO26

في حين YOLOv5 وYOLO رؤى أكاديمية مثيرة للاهتمام، إلا أن أحدث التقنيات قد تطورت. تم إصدار Ultralytics في يناير 2026، وهو يمثل قفزة هائلة إلى الأمام لمجتمع الرؤية.

تعرف على المزيد حول YOLO26

يعالج YOLO26 العقبات التقليدية التي تواجه نشر الحافة وعدم استقرار التدريب:

تصميم شامل بدون NMS: يلغي YOLO26 بطبيعته المعالجة اللاحقة لـ Non-Maximum Suppression. يبسط هذا الإنجاز منطق النشر ويقلل بشكل كبير من تباين زمن الاستجابة، مما يجعله مثاليًا للروبوتات عالية السرعة والأنظمة المستقلة.
مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مُحسِّن MuSGD (وهو هجين من SGD و Muon). وهذا يضمن تشغيل تدريب مستقر للغاية وتقاربًا أسرع بشكل ملحوظ.
سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: عن طريق الإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يحقق YOLO26 سرعات فائقة على CPUs والأجهزة الطرفية مقارنة بأسلافه مثل YOLO11 وYOLOv8.
ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لتحليل صور الطائرات بدون طيار الجوية وخلاصات مستشعرات إنترنت الأشياء.

مثال على التعليمات البرمجية: البساطة في العمل

تتيح لك Ultralytics تدريب النماذج ونشرها باستخدام بضع أسطر من التعليمات البرمجية. سواء كنت تستخدم YOLOv5 تقوم بالترقية إلى YOLO26 الموصى به، تظل الواجهة متسقة وبديهية.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

الخلاصة

لقد ساهم كل من DAMO-YOLO و YOLOv5 بشكل كبير في مشهد الرؤية الحاسوبية. يعرض DAMO-YOLO قوة البحث عن البنية العصبية والتقطير، مما يجعله دراسة مثيرة للاهتمام للباحثين. ومع ذلك، يظل YOLOv5 قوة عملية بفضل توازنه في الأداء، ومتطلبات الذاكرة المنخفضة، وسهولة الاستخدام التي لا مثيل لها.

بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، فإن التوصية هي الاستفادة من Ultralytics واعتماد YOLO26. فهي تجمع YOLOv5 النظام البيئي المحبوب وسهل الاستخدام لـ YOLOv5 والتطورات المعمارية الرائدة YOLOv5 يضمن دقة عالية المستوى واستنتاجات سريعة للغاية لكل من تطبيقات الذكاء الاصطناعي السحابية والحافة. قد يرغب المطورون أيضًا في استكشاف نماذج أخرى فعالة مثل YOLOv6 أو YOLOX اعتمادًا على قيود الأجهزة القديمة المحددة.