YOLOv5 مقابل DAMO-YOLO: مقارنة فنية شاملة
يتطور مجال الرؤية الحاسوبية في الوقت الفعلي باستمرار، حيث يسعى الباحثون والمهندسون إلى تحقيق التوازن المثالي بين الدقة والسرعة وسهولة الاستخدام. وهناك نموذجان بارزان شكّلا هذه الرحلة، وهما Ultralytics YOLOv5 و YOLO من Alibaba.
يقدم هذا الدليل تحليلاً تقنياً متعمقاً لهياكلها ومقاييس أدائها ومنهجيات التدريب الخاصة بها لمساعدتك في اختيار النموذج المناسب لنشره في المرة القادمة.
خلفيات النماذج
قبل الخوض في التفاصيل الفنية، من المهم فهم الأصول والفلسفات التصميمية الأساسية الكامنة وراء كل من هذه النماذج البصرية المؤثرة.
Ultralytics YOLOv5
تم تطوير YOLOv5 بواسطة Glenn Jocher وفريق Ultralytics YOLOv5 معيارًا صناعيًا منذ إطلاقه. تم بناؤه أصلاً على PyTorch ، وأعطى الأولوية لتجربة مطور مبسطة وقدرات نشر قوية فور إصداره.
- المؤلف: جلين جوتشر
- المؤسسة:Ultralytics
- التاريخ: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- الوثائق:وثائق Ultralytics YOLOv5
DAMO-YOLO
تم إنشاءYOLO من قبل باحثين في مجموعة Alibaba،YOLO بشكل كبير على البحث في الهندسة العصبية (NAS) وتقنيات التقطير المتقدمة. وهو يدفع الحدود النظرية لأداء الأجهزة المحددة، ويلبي بشكل كبير احتياجات الأبحاث والبيئات المتطورة التي تتطلب ضبطًا شديدًا.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
الابتكارات المعمارية
يستفيد كلا النموذجين من مفاهيم هيكلية فريدة لتحقيق أدائهما في الوقت الفعلي، على الرغم من اختلاف نهجيهما بشكل كبير.
YOLOv5: الاستقرار والتنوع
YOLOv5 هيكل أساسي CSP (Cross Stage Partial) معدل مقترن برقبة PANet (Path Aggregation Network). هذه البنية عالية الكفاءة، وتقلل من CUDA خلال كل من التدريب والاستدلال.
تتمثل إحدى أكبر نقاط قوة YOLOv5 في تنوعها عبر المهام. فإلى جانب توقعات الصندوق المحيط، توفر بنى مخصصة لتقسيم الصور وتصنيفها، مما يتيح للمطورين توحيد خطوط إنتاج الرؤية الخاصة بهم حول إطار عمل واحد ومتماسك.
YOLO: البحث الآلي عن الهندسة المعمارية
تتمثل الابتكار الأساسيYOLO في MAE-NAS Backbone. باستخدام بحث تطوري متعدد الأهداف، اكتشف فريق Alibaba شبكات أساسية توازن بين دقة الكشف وسرعة الاستدلال بشكل ديناميكي.
بالإضافة إلى ذلك، يتميز برقبة RepGFPN الفعالة لتحسين دمج الميزات — وهو أمر مفيد للغاية للتغيرات المعقدة في المقياس التي غالبًا ما تظهر في تحليل صور الأقمار الصناعية. يعمل تصميم ZeroHead على تبسيط طبقات التنبؤ النهائية لتقليل زمن الاستجابة، على الرغم من أن هذا التوليد الهيكلي المعقد يمكن أن يجعل البنية صلبة ويصعب تعديلها للتطبيقات المخصصة.
متطلبات الذاكرة
غالبًا ما تعاني البنى القائمة على المحولات من استهلاك عالٍ لذاكرة VRAM.YOLO كل من YOLOv5 YOLO تصميمات تلافيفية فعالة للحفاظ على انخفاض حجم الذاكرة، ولكن Ultralytics مُحسّنة بشكل ملحوظ لتناسب وحدات معالجة الرسومات (GPU) الاستهلاكية، مما يجعلها أكثر سهولة في الوصول إليها للباحثين المستقلين والشركات الناشئة.
الأداء والمقاييس
يتطلب تقييم أجهزة الكشف عن الأجسام في الوقت الفعلي النظر إلى مصفوفة من معلمات mAP متوسط الدقة) وسرعة الاستدلال وحجم النموذج.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
بينماYOLO mAP تنافسية للغاية في عدد معين من المعلمات، يظهر YOLOv5 أداءً استثنائيًا TensorRT ومعدلات معلمات منخفضة للغاية لتكويناته النانوية والصغيرة. يضمن هذا التوازن في الأداء YOLOv5 بكفاءة عبر سيناريوهات نشر متنوعة.
كفاءة التدريب والنظام البيئي
دقة النموذج النظري تعتمد على قابليته للتطبيق العملي. وهنا تختلف النماذج بشكل كبير.
تعقيد عملية التقطير
YOLO بشكل كبير على منهجية تدريب متعددة المراحل. وهو يطبق تقنية تقطير المعرفة بين المعلم والطالب المعروفة باسم AlignedOTA. وفي حين أن هذه التقنية تستخرج أقصى أداء من نموذج الطالب، فإنها تتطلب في البداية تدريب نموذج معلم ضخم. وهذا يزيد بشكل كبير من وقت الحساب وتكاليف الطاقة والأجهزة المطلوبة، مما يشكل عقبة أمام فرق التعلم الآلي الرشيقة.
Ultralytics : سهولة الاستخدام
على العكس من ذلك، يشتهر Ultralytics عالميًا بواجهات برمجة التطبيقات (API) البديهية وكفاءة التدريب. بدعم من التطوير النشط ومجتمع مفتوح المصدر ضخم، يمكن للمطورين تدريب النماذج والتحقق من صحتها ونشرها بسلاسة.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
توفر Ultralytics دعمًا مدمجًا لتتبع التجارب عبر أدوات مثل Weights & Biases Comet مما يخلق سير عمل سلسًا.
حالات الاستخدام في العالم الحقيقي
- YOLOv5 في بيئات الإنتاج سريعة الوتيرة. إن قابليته للتصدير بسهولة تجعله الخيار الأمثل للتحليلات الذكية للبيع بالتجزئة، والكشف السريع عن عيوب التصنيع، والتكامل مع تطبيقات الهاتف المحمول عبر CoreML.
- YOLO مناسب للغاية للمقارنات الأكاديمية الصارمة والسيناريوهات التي تتوفر فيها موارد حاسوبية هائلة لتنفيذ عمليات تدريب طويلة ومركزة تهدف إلى تحقيق mAP جزئية mAP لأهداف أجهزة محددة وثابتة.
حالات الاستخدام والتوصيات
YOLO الاختيار بين YOLOv5 YOLO على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv5
YOLOv5 خيار قوي لـ:
- أنظمة إنتاج مجربة: عمليات النشر الحالية التي تُقدّر فيها track YOLOv5 الطويل في الاستقرار، والوثائق الشاملة، والدعم المجتمعي الهائل.
- التدريب المحدود الموارد: البيئات ذات GPU المحدودة حيث يكون خط التدريب الفعال YOLOv5 ومتطلبات الذاكرة المنخفضة ميزة.
- دعم واسع النطاق لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNXو TensorRTو CoreMLو TFLite.
متى تختار DAMO-YOLO
YOLO في الحالات التالية:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
- خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
التطور التالي: YOLO26
إذا كنت تبدأ مشروعًا جديدًا، فمن المستحسن للغاية أن تتطلع إلى المستقبل. يعتمد Ultralytics على الأساس المذهل لـ YOLOv5 حيث يدمج تطورات ثورية تعيد تعريف أحدث تقنيات الذكاء الاصطناعي في مجال الرؤية.
لماذا الترقية إلى YOLO26؟
تم إطلاق YOLO26 وسط إشادة عالمية، وهو نظام شامل من البداية إلى النهاية. يتميز بتصميم شامل NMS، مما يلغي تمامًا المعالجة اللاحقة لـ Non-Maximum Suppression (القمع غير الأقصى) من أجل نشر أسرع وأبسط بشكل كبير.
تشمل الابتكارات الرئيسية في YOLO26 ما يلي:
- MuSGD Optimizer: مستوحى من ابتكارات تدريب LLM، يضمن هذا المزيج من SGD Muon تدريبًا عالي الاستقرار وتقاربًا سريعًا.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن بشكل كبير للحوسبة الطرفية، مما يجعله مثاليًا لأجهزة إنترنت الأشياء التي تعمل بدون وحدات معالجة رسومات مخصصة.
- ProgLoss + STAL: وظائف خسارة متقدمة تعمل على تحسين التعرف على الأجسام الصغيرة بشكل كبير، وهو أمر بالغ الأهمية بالنسبة للصور الجوية الملتقطة بواسطة الطائرات بدون طيار والروبوتات.
- تحسينات خاصة بالمهام: من فقدان الزاوية المتخصصة لـ Oriented Bounding Boxes (OBB) إلى تقدير احتمالية السجل المتبقي (RLE) لتقدير الوضع الدقيق، يتعامل YOLO26 مع المجالات المعقدة بسهولة.
الخلاصة
YOLO رسخ كل YOLOv5 YOLO مكانتهما في تاريخ اكتشاف الأجسام.YOLO دراسة رائعة في مجال البحث عن البنية العصبية والتقطير. ومع ذلك، بالنسبة للمؤسسات التي تعطي الأولوية لنظام بيئي جيد الصيانة وسهولة الاستخدام ومسار سريع للإنتاج، تظل Ultralytics لا مثيل لها.
نوصي بشدة باستخدام Ultralytics لتعليق وتدريب ونشر الجيل التالي من النماذج، مثل YOLO26، لضمان أن يكون مسار الرؤية الحاسوبية الخاص بك مستقبليًا وسريعًا ودقيقًا بشكل ملحوظ.
مزيد من القراءة
- استكشف المحولات القائمة على RT-DETR للتطبيقات عالية الدقة.
- تعرف على الجيل السابق YOLO11 .
- اكتشف كيفية تحسين عمليات النشر باستخدام OpenVINO.