DAMO-YOLO مقابل YOLOv7: مقارنة فنية تفصيلية
يُعد اختيار نموذج الكشف عن الأجسام المناسب خطوة حاسمة في أي مشروع رؤية حاسوبية، مما يؤثر بشكل مباشر على الأداء والسرعة وجدوى النشر. تقدم هذه الصفحة مقارنة فنية مفصلة بين DAMO-YOLO و YOLOv7، وهما نموذجان قويان قدما مساهمات كبيرة في هذا المجال في عام 2022. سنستكشف الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ قرار مستنير بشأن احتياجاتك الخاصة.
DAMO-YOLO: كشف سريع ودقيق بتقنية متقدمة
DAMO-YOLO هو نموذج للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا، ويركز على تحقيق أداء عالٍ من خلال الجمع بين التقنيات المتطورة. ويهدف إلى تقديم توازن فائق بين السرعة والدقة، خاصةً لسيناريوهات النشر في العالم الحقيقي.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تم بناء هيكل DAMO-YOLO على العديد من الابتكارات الرئيسية المصممة لتحسين الأداء والكفاءة:
- الأعمدة الفقرية المدعومة بالبحث في الهندسة العصبية (NAS): يستفيد من البحث في الهندسة العصبية (NAS) لإنشاء شبكات عمود فقري مثالية. يساعد هذا النهج الآلي في اكتشاف البنى التي توفر مقايضة أفضل بين السرعة والدقة من تلك المصممة يدويًا.
- عنق RepGFPN الفعال: يقدم النموذج هيكل عنق جديدًا يسمى شبكة هرم الميزات المعممة (GFPN)، والذي تم تعزيزه بتقنيات إعادة التهيئة. يتيح هذا التصميم دمجًا فعالًا للميزات متعددة المقاييس، وهو أمر بالغ الأهمية لاكتشاف الكائنات ذات الأحجام المختلفة.
- ZeroHead: يشتمل DAMO-YOLO على رأس مبسط بدون معلمات يفصل بين مهام التصنيف والانحدار. يقلل هذا من التعقيد الحسابي وحجم النموذج دون التضحية بالأداء.
- تعيين تسميات AlignedOTA: يستخدم استراتيجية متقدمة لتعيين التسميات تسمى AlignedOTA، والتي تحل مشكلات عدم المواءمة بين نتائج التصنيف ودقة تحديد الموقع، ممّا يؤدي إلى عمليات كشف أكثر دقة.
نقاط القوة والضعف
نقاط القوة:
- سرعة استنتاج عالية: المتغيرات الأصغر (DAMO-YOLO-t/s) سريعة بشكل استثنائي، مما يجعلها مثالية للتطبيقات التي تتطلب زمن وصول منخفض، مثل تلك الموجودة على أجهزة الذكاء الاصطناعي الطرفي (Edge AI).
- تكنولوجيا مبتكرة: تدمج تقنيات حديثة مثل NAS وتصميم رقبة فعال لتوسيع حدود الأداء.
نقاط الضعف:
- تكامل النظام البيئي: قد يفتقر إلى النظام البيئي الشامل و الوثائق الشاملة وتجربة المستخدم المبسطة الموجودة في أطر عمل مثل Ultralytics.
- دعم المجتمع: كنموذج مدفوع بالبحث من شركة واحدة، قد يكون لديه مجتمع مفتوح المصدر أصغر مقارنة بالنماذج الأكثر اعتمادًا على نطاق واسع.
YOLOv7: تجاوز حدود الدقة في الوقت الفعلي
وضعت YOLOv7، التي قدمها Chien-Yao Wang وآخرون، أحدث ما توصلت إليه التكنولوجيا لكاشفات الكائنات في الوقت الفعلي عند إصدارها. وقد ركزت على تحسين عملية التدريب لتحسين الدقة دون زيادة تكلفة الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
قدم YOLOv7 العديد من التحسينات المعمارية والتدريبية التي عززت أدائه بشكل كبير:
- E-ELAN (شبكة تجميع الطبقات الفعالة الموسعة): يعزز هيكل الشبكة المتقدم هذا قدرة النموذج على التعلم من خلال السماح له بتعلم المزيد من الميزات المتنوعة دون تعطيل مسار التدرج الأصلي.
- التحجيم النموذجي المركب: يستخدم YOLOv7 إستراتيجية تحجيم نموذجية تضبط بشكل صحيح عمق النموذج وعرضه للهياكل القائمة على التسلسل، مما يضمن الأداء الأمثل عبر أحجام النماذج المختلفة.
- حقيبة الحيل المجانية القابلة للتدريب: تتمثل المساهمة الرئيسية لـ YOLOv7 في استخدامه لتحسينات وقت التدريب، مثل الرؤوس الإضافية والخسارة الموجهة من الخشن إلى الدقيق، مما يحسن دقة النموذج النهائية دون إضافة أي حمل حسابي أثناء الاستدلال.
نقاط القوة والضعف
نقاط القوة:
- توازن ممتاز بين الدقة والسرعة: يوفر YOLOv7 مزيجًا رائعًا من mAP العالي وسرعات الاستدلال السريعة، مما يجعله مناسبًا للغاية للاستدلال في الوقت الفعلي.
- تدريب فعال: يتيح له نهج "حقيبة من الأشياء المجانية" تحقيق دقة أعلى من عملية التدريب دون إبطاء النموذج النهائي.
- أداء راسخ: لقد تم قياسه بدقة على مجموعات البيانات القياسية مثل MS COCO، مع نتائج مثبتة.
نقاط الضعف:
- التعقيد: قد يكون فهم وتنفيذ البنية الأساسية واستراتيجيات التدريب من البداية أمرًا معقدًا.
- تنوع محدود: YOLOv7 هو في الأساس نموذج لاكتشاف الكائنات. على الرغم من وجود إصدارات مجتمعية لمهام أخرى، إلا أنه يفتقر إلى التنوع المدمج والمتعدد المهام لأطر عمل مثل Ultralytics YOLOv8.
- استهلاك مكثف للموارد: يمكن أن يتطلب تدريب نماذج YOLOv7 الأكبر موارد GPU كبيرة.
تحليل الأداء: السرعة مقابل الدقة
عند مقارنة DAMO-YOLO و YOLOv7، يكون المقايضة بين السرعة والدقة واضحة. توفر النماذج الأصغر من DAMO-YOLO، مثل DAMO-YOLO-t، أسرع أوقات الاستدلال، مما يجعلها خيارًا ممتازًا للتطبيقات ذات الأهمية البالغة للكمون على الأجهزة ذات الموارد المحدودة. من ناحية أخرى، يحقق YOLOv7، وخاصةً متغير YOLOv7x، mAP أعلى، مما يجعله مناسبًا للسيناريوهات التي تكون فيها أقصى دقة هي الأولوية. تقدم النماذج متوسطة الحجم من كلتا العائلتين، DAMO-YOLO-l و YOLOv7-l، أداءً تنافسيًا، حيث يحقق YOLOv7-l mAP أعلى قليلاً على حساب زيادة طفيفة في الكمون.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
لماذا تختار نماذج Ultralytics YOLO؟
في حين أن DAMO-YOLO و YOLOv7 هما نموذجان قويان، غالبًا ما يجد المطورون والباحثون قيمة فائقة في نظام Ultralytics البيئي مع نماذج مثل YOLOv8 وأحدث Ultralytics YOLO11. توفر نماذج Ultralytics مزايا كبيرة تتجاوز المقاييس الأولية:
- سهولة الاستخدام: تتميز نماذج Ultralytics بواجهة Python API مبسطة و أوامر CLI بسيطة، مدعومة بـ توثيق شامل، مما يجعل تدريب النماذج والتحقق منها ونشرها أمرًا سهلاً.
- نظام بيئي مُدار بشكل جيد: يستفيد المستخدمون من التطوير النشط ومجتمع قوي مفتوح المصدر وتحديثات متكررة وتكامل سلس مع أدوات مثل Ultralytics HUB لـ MLOps شامل.
- موازنة الأداء: تم تصميم نماذج Ultralytics لتوفير توازن ممتاز بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من التطبيقات بدءًا من الأجهزة الطرفية وصولًا إلى الخوادم السحابية.
- كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتحقيق كفاءة في استخدام الذاكرة أثناء كل من التدريب والاستدلال، وغالبًا ما تتطلب ذاكرة CUDA أقل من البنى الأخرى.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 ليست محدودة بالاكتشاف فقط. إنها تدعم مهام متعددة خارج الصندوق، بما في ذلك تقسيم الحالات، وتصنيف الصور، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB)، مما يوفر حلاً موحدًا لاحتياجات الرؤية الحاسوبية المتنوعة.
- كفاءة التدريب: استفد من عمليات التدريب الفعالة والأوزان المدربة مسبقًا المتاحة بسهولة على مجموعات البيانات مثل COCO، وأوقات التقارب الأسرع.
الخلاصة
يمثل كل من DAMO-YOLO و YOLOv7 تطورات كبيرة في الكشف عن الكائنات. يتفوق DAMO-YOLO في سرعة الاستدلال، خاصة مع متغيراته الأصغر، مما يجعله منافسًا قويًا للأجهزة الطرفية أو التطبيقات التي تعطي الأولوية لوقت الاستجابة المنخفض. يدفع YOLOv7 حدود الدقة مع الحفاظ على أداء جيد في الوقت الفعلي، وهو مناسب بشكل خاص للسيناريوهات التي يكون فيها تحقيق أعلى قيمة ممكنة لـ mAP أمرًا بالغ الأهمية.
ومع ذلك، قد يفكر المطورون أيضًا في النماذج الموجودة داخل نظام Ultralytics البيئي، مثل YOLOv8 أو أحدث YOLO11. غالبًا ما توفر هذه النماذج توازنًا فائقًا في الأداء و سهولة الاستخدام و الوثائق الشاملة والتدريب الفعال ومتطلبات الذاكرة الأقل و تعدد الاستخدامات عبر مهام رؤية متعددة، وكلها مدعومة بنظام بيئي تتم صيانته جيدًا ودعم مجتمعي نشط عبر Ultralytics HUB.
نماذج أخرى
قد يجد المستخدمون المهتمون بـ DAMO-YOLO و YOLOv7 هذه النماذج ذات صلة أيضًا:
- Ultralytics YOLOv5: نموذج شائع وفعال للغاية معروف بسرعته وسهولة نشره. استكشف وثائق YOLOv5.
- Ultralytics YOLOv8: نموذج متعدد الاستخدامات وحديث يقدم أداءً ممتازًا عبر مهام الكشف والتجزئة والوضع والتصنيف. استكشف وثائق YOLOv8.
- YOLOv9: يقدم ابتكارات مثل PGI و GELAN لتحسين الدقة والكفاءة. عرض وثائق YOLOv9.
- YOLOv10: تركز على الكشف من طرف إلى طرف بدون NMS لتقليل زمن الوصول. قارن بين YOLOv10 و DAMO-YOLO.
- Ultralytics YOLO11: أحدث نموذج متطور من Ultralytics، مع التركيز على السرعة والكفاءة وسهولة الاستخدام مع تصميم خالٍ من المرساة. اقرأ المزيد عن YOLO11.
- RT-DETR: نموذج للكشف في الوقت الحقيقي يعتمد على المحولات. قارن RT-DETR مقابل DAMO-YOLO.