YOLOv5 مقابل DAMO-YOLO: مقارنة فنية شاملة

يتطور مجال الرؤية الحاسوبية في الوقت الفعلي باستمرار، حيث يسعى الباحثون والمهندسون إلى تحقيق التوازن المثالي بين الدقة والسرعة وسهولة الاستخدام. وهناك نموذجان بارزان شكّلا هذه الرحلة، وهما Ultralytics YOLOv5 و YOLO من Alibaba.

يقدم هذا الدليل تحليلاً تقنياً متعمقاً لهياكلها ومقاييس أدائها ومنهجيات التدريب الخاصة بها لمساعدتك في اختيار النموذج المناسب لنشره في المرة القادمة.

خلفيات النماذج

قبل الخوض في التفاصيل التقنية الدقيقة، من المهم فهم الأصول وفلسفات التصميم الأساسية وراء كل من نماذج الرؤية المؤثرة هذه.

Ultralytics YOLOv5

تم تطوير YOLOv5 بواسطة Glenn Jocher وفريق Ultralytics YOLOv5 معيارًا صناعيًا منذ إطلاقه. تم بناؤه أصلاً على PyTorch ، وأعطى الأولوية لتجربة مطور مبسطة وقدرات نشر قوية فور إصداره.

المؤلف: جلين جوتشر
المؤسسة:Ultralytics
التاريخ: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
الوثائق:وثائق Ultralytics YOLOv5

تعرف على المزيد حول YOLOv5

DAMO-YOLO

يركز DAMO-YOLO، الذي أنشأه باحثون في مجموعة علي بابا، بشكل كبير على البحث عن البنية العصبية (NAS) وتقنيات التقطير المتقدمة. إنه يدفع الحدود النظرية للأداء الخاص بالأجهزة، ويلبي بقوة احتياجات بيئات البحث والحوسبة الطرفية التي تتطلب ضبطًا دقيقًا للغاية.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

تعرف على المزيد حول DAMO-YOLO

الابتكارات المعمارية

يستفيد كلا النموذجين من مفاهيم هيكلية فريدة لتحقيق أدائهما في الوقت الفعلي، على الرغم من أن نهجيهما يختلفان بشكل كبير.

YOLOv5: الاستقرار والتنوع

YOLOv5 هيكل أساسي CSP (Cross Stage Partial) معدل مقترن برقبة PANet (Path Aggregation Network). هذه البنية عالية الكفاءة، وتقلل من CUDA خلال كل من التدريب والاستدلال.

تتمثل إحدى أكبر نقاط قوة YOLOv5 في تنوعها عبر المهام. فإلى جانب توقعات الصندوق المحيط، توفر بنى مخصصة لتقسيم الصور وتصنيفها، مما يتيح للمطورين توحيد خطوط إنتاج الرؤية الخاصة بهم حول إطار عمل واحد ومتماسك.

DAMO-YOLO: البحث الآلي عن البنية

الابتكار الأساسي في DAMO-YOLO هو MAE-NAS Backbone. باستخدام بحث تطوري متعدد الأهداف، اكتشف فريق Alibaba هياكل أساسية توازن ديناميكيًا بين دقة الكشف وسرعة الاستدلال.

بالإضافة إلى ذلك، يتميز برقبة Efficient RepGFPN لدمج الميزات المحسّن، وهو مفيد للغاية لاختلافات الحجم المعقدة التي غالبًا ما تُرى في تحليل صور الأقمار الصناعية. يعمل تصميم ZeroHead الخاص به على تبسيط طبقات التنبؤ النهائية لتقليل زمن الاستجابة، على الرغم من أن هذا التوليد الهيكلي المعقد يمكن أن يجعل البنية جامدة وأصعب في التعديل للتطبيقات المخصصة.

متطلبات الذاكرة

غالبًا ما تعاني البنى القائمة على المحولات من استهلاك عالٍ لذاكرة VRAM.YOLO كل من YOLOv5 YOLO تصميمات تلافيفية فعالة للحفاظ على انخفاض حجم الذاكرة، ولكن Ultralytics مُحسّنة بشكل ملحوظ لتناسب وحدات معالجة الرسومات (GPU) الاستهلاكية، مما يجعلها أكثر سهولة في الوصول إليها للباحثين المستقلين والشركات الناشئة.

الأداء والمقاييس

يتطلب تقييم أجهزة الكشف عن الأجسام في الوقت الفعلي النظر إلى مصفوفة من معلمات mAP متوسط الدقة) وسرعة الاستدلال وحجم النموذج.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

بينماYOLO mAP تنافسية للغاية في عدد معين من المعلمات، يظهر YOLOv5 أداءً استثنائيًا TensorRT ومعدلات معلمات منخفضة للغاية لتكويناته النانوية والصغيرة. يضمن هذا التوازن في الأداء YOLOv5 بكفاءة عبر سيناريوهات نشر متنوعة.

كفاءة التدريب والنظام البيئي

دقة النموذج النظرية لا تزيد عن قدرته على التطبيق العملي. وهنا تختلف النماذج بشكل كبير.

تعقيد عملية التقطير

يعتمد DAMO-YOLO بشكل كبير على منهجية تدريب متعددة المراحل. فهو يطبق تقنية تقطير المعرفة بين المعلم والطالب المعروفة باسم AlignedOTA. وبينما يستخلص هذا أقصى أداء من النموذج الطالب، فإنه يتطلب تدريب نموذج معلم ضخم في البداية. وهذا يزيد بشكل كبير من وقت الحوسبة وتكاليف الطاقة والأجهزة المطلوبة، مما يشكل عنق زجاجة لفرق تعلم الآلة الرشيقة.

Ultralytics : سهولة الاستخدام

على العكس من ذلك، يشتهر النظام البيئي لـ Ultralytics عالميًا بواجهات برمجة التطبيقات البديهية وكفاءة التدريب. بدعم من التطوير النشط ومجتمع المصادر المفتوحة الضخم، يمكن للمطورين تدريب النماذج والتحقق منها ونشرها بسلاسة.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

توفر Ultralytics دعمًا مدمجًا لتتبع التجارب عبر أدوات مثل Weights & Biases Comet مما يخلق سير عمل سلسًا.

حالات الاستخدام في العالم الحقيقي

YOLOv5 يتفوق في بيئات الإنتاج سريعة الوتيرة. سهولة تصديره تجعله الخيار الأول لـ تحليلات التجزئة الذكية، واكتشاف عيوب التصنيع عالية السرعة، والتكامل في تطبيقات الهاتف المحمول عبر CoreML.
DAMO-YOLO مناسب للغاية للمقارنات المعيارية الأكاديمية الصارمة والسيناريوهات التي تتوفر فيها موارد حاسوبية هائلة لتنفيذ عمليات تدريب طويلة ومقطرة تهدف إلى استخلاص تحسينات جزئية في mAP لأهداف أجهزة محددة وثابتة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv5 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv5

YOLOv5 خيار قوي لـ:

أنظمة الإنتاج المثبتة: العمليات المنشورة الحالية حيث تُقدر سجل YOLOv5 الطويل في الاستقرار، والتوثيق الشامل، والدعم المجتمعي الهائل.
التدريب محدود الموارد: البيئات ذات موارد GPU المحدودة حيث تكون خطة تدريب YOLOv5 الفعالة ومتطلبات الذاكرة الأقل مفيدة.
دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX وTensorRT وCoreML وTFLite.

متى تختار DAMO-YOLO

يوصى بـ DAMO-YOLO لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

التطور التالي: YOLO26

إذا كنت تبدأ مشروعًا جديدًا، فمن المستحسن للغاية أن تتطلع إلى المستقبل. يعتمد Ultralytics على الأساس المذهل لـ YOLOv5 حيث يدمج تطورات ثورية تعيد تعريف أحدث تقنيات الذكاء الاصطناعي في مجال الرؤية.

لماذا الترقية إلى YOLO26؟

تم إطلاق YOLO26 وسط إشادة عالمية، وهو نظام شامل من البداية إلى النهاية. يتميز بتصميم شامل NMS، مما يلغي تمامًا المعالجة اللاحقة لـ Non-Maximum Suppression (القمع غير الأقصى) من أجل نشر أسرع وأبسط بشكل كبير.

تشمل الابتكارات الرئيسية في YOLO26 ما يلي:

مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM)، يضمن هذا الهجين من SGD و Muon تدريبًا مستقرًا للغاية وتقاربًا سريعًا.
سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: تم تحسينه بشكل كبير للحوسبة الطرفية، مما يجعله مثاليًا لأجهزة إنترنت الأشياء التي تعمل بدون وحدات GPU مخصصة.
ProgLoss + STAL: دوال خسارة متقدمة تحسن بشكل كبير التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لصور الطائرات الجوية بدون طيار والروبوتات.
تحسينات خاصة بالمهام: من خسارة الزاوية المتخصصة لـ الصناديق المحيطة الموجهة (OBB) إلى تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير الوضعية الدقيق، يتعامل YOLO26 مع المجالات المعقدة بسهولة.

الخلاصة

لقد رسخ كل من YOLOv5 وDAMO-YOLO مكانتهما في تاريخ اكتشاف الكائنات. يظل DAMO-YOLO دراسة رائعة في البحث عن البنية العصبية والتقطير. ومع ذلك، بالنسبة للمؤسسات التي تعطي الأولوية لـنظام بيئي جيد الصيانة، وسهولة الاستخدام، ومسار سريع للإنتاج، تظل نماذج Ultralytics لا مثيل لها.

نوصي بشدة باستخدام Ultralytics لتعليق وتدريب ونشر الجيل التالي من النماذج، مثل YOLO26، لضمان أن يكون مسار الرؤية الحاسوبية الخاص بك مستقبليًا وسريعًا ودقيقًا بشكل ملحوظ.

مزيد من القراءة

استكشف المحولات القائمة على RT-DETR للتطبيقات عالية الدقة.
تعرف على الجيل السابق YOLO11 .
اكتشف كيفية تحسين عمليات النشر باستخدام OpenVINO.