YOLOv7 مقابل DAMO-YOLO: مقارنة فنية تفصيلية
يُعد اختيار نموذج الكشف عن الأجسام المناسب خطوة حاسمة في أي مشروع رؤية حاسوبية. غالبًا ما يتضمن القرار مفاضلة بين الدقة والسرعة والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين YOLOv7 و DAMO-YOLO، وهما نموذجان قويان قدما مساهمات كبيرة في الكشف عن الأجسام في الوقت الفعلي. سنستكشف الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير بشأن احتياجاتك الخاصة.
YOLOv7: دقة وسرعة عاليتان
تم تقديم YOLOv7 كخطوة رئيسية إلى الأمام في عائلة YOLO، حيث وضعت معايير جديدة لكاشفات الأجسام في الوقت الفعلي من خلال تحسين كفاءة التدريب وسرعة الاستدلال دون زيادة التكاليف الحسابية.
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
قدم YOLOv7 العديد من الابتكارات المعمارية لتحقيق أحدث أداء له. المكون الرئيسي هو شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN) في العمود الفقري للنموذج، مما يعزز قدرة الشبكة على تعلم ميزات متنوعة دون تعطيل مسار التدرج. يستخدم النموذج أيضًا تقنيات توسيع النموذج المتقدمة المصممة خصيصًا للبنى القائمة على التسلسل.
تتمثل إحدى أهم مساهماته في مفهوم "حقيبة الحيل المجانية القابلة للتدريب"، والتي تشير إلى استراتيجيات التدريب التي تعزز الدقة دون زيادة تكلفة الاستدلال. وتشمل هذه استخدام رؤوس إضافية للإشراف الأعمق والتدريب الموجه من الخشن إلى الدقيق. هذه التقنيات، المفصلة في ورقة YOLOv7، تسمح للنموذج بتحقيق نتائج مبهرة على المعايير القياسية.
الأداء وحالات الاستخدام
أظهرت YOLOv7، عند إصدارها، توازنًا استثنائيًا بين السرعة والدقة. إنها تتفوق في السيناريوهات التي تتطلب كلاً من الكشف السريع والدقة العالية، مثل تحليلات الفيديو في الوقت الفعلي، و أنظمة القيادة الذاتية، والفحص الصناعي عالي الدقة. على سبيل المثال، في تطبيقات المدن الذكية، يمكن استخدام YOLOv7 لإدارة حركة المرور المتقدمة أو لتشغيل الكشف الفوري عن التهديدات في الأنظمة الأمنية.
نقاط القوة
- موازنة ممتازة بين الدقة والسرعة: يوفر مزيجًا قويًا من mAP وسرعة الاستدلال، مما يجعله فعالاً للغاية للمهام في الوقت الفعلي.
- تدريب فعال: يستفيد من استراتيجيات التدريب المتقدمة لتحسين الأداء دون زيادة المتطلبات الحسابية أثناء الاستدلال.
- أداء مثبت: نتائج ثابتة وموثقة جيدًا على مجموعات البيانات القياسية مثل MS COCO.
نقاط الضعف
- التعقيد المعماري: يمكن أن يكون الجمع بين E-ELAN وتقنيات التدريب المختلفة معقدًا للفهم والتعديل.
- التدريب المكثف للموارد: في حين أن الاستدلال سريع، إلا أن تدريب نماذج YOLOv7 الأكبر حجمًا يتطلب موارد GPU كبيرة.
- تعددية المهام محدودة: مصمم بشكل أساسي لـ اكتشاف الكائنات، مع ملحقات مدفوعة من المجتمع لمهام أخرى، على عكس النماذج الأحدث ذات الإمكانات المدمجة متعددة المهام.
DAMO-YOLO: السرعة والكفاءة للحافة الطرفية
DAMO-YOLO، الذي طورته مجموعة علي بابا، هو نموذج للكشف عن الأجسام مصمم لتحقيق الأداء الأمثل عبر مجموعة واسعة من الأجهزة، مع التركيز بشكل خاص على السرعة والكفاءة للأجهزة الطرفية.
المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
البنية والميزات الرئيسية
يقدم DAMO-YOLO العديد من التقنيات المبتكرة لتحقيق سرعته الرائعة. يستخدم العمود الفقري الذي تم إنشاؤه من خلال Neural Architecture Search (NAS)، مما يؤدي إلى مستخرج ميزات عالي الكفاءة يسمى GiraffeNet. عنق الشبكة عبارة عن RepGFPN فعال، والذي يوازن بين قدرات دمج الميزات والتكلفة الحسابية المنخفضة.
إحدى الميزات البارزة هي ZeroHead، وهو رأس كشف مُبسّط يحتوي على صفر من المعلمات للتصنيف والانحدار، مما يقلل بشكل كبير من النفقات الحسابية. علاوة على ذلك، تستخدم DAMO-YOLO خوارزمية AlignedOTA لتعيين التسميات الديناميكي وتستخدم تقطير المعرفة لتعزيز أداء نماذجها الأصغر، مما يجعلها سريعة ودقيقة.
الأداء وحالات الاستخدام
تكمن القوة الرئيسية لـ DAMO-YOLO في سرعة الاستدلال الاستثنائية، خاصة مع المتغيرات الأصغر (DAMO-YOLO-T/S). وهذا يجعلها مرشحًا رئيسيًا للتطبيقات التي تتطلب زمن انتقال منخفضًا، مثل المعالجة على الجهاز للتطبيقات المحمولة، والمراقبة في الوقت الفعلي في الأتمتة الصناعية، والروبوتات. تسمح قابلية التوسع للمطورين باختيار نموذج يناسب قيود الأجهزة الخاصة بهم، من خوادم سحابية قوية إلى منصات طرفية محدودة الموارد.
نقاط القوة
- سرعة استدلال استثنائية: تُعد النماذج الأصغر من بين أسرع كاشفات الكائنات المتاحة، وهي مثالية لمتطلبات زمن الانتقال المنخفض.
- هندسة قابلة للتطوير: يقدم مجموعة من النماذج (Tiny، Small، Medium، Large) لتناسب الميزانيات الحسابية المختلفة.
- تصميم مبتكر: يتضمن أفكارًا متطورة مثل الأعمدة الفقرية المدعومة بـ NAS، والأعناق الفعالة، والرأس الخالي من المعلمات.
نقاط الضعف
- الدقة في النماذج الأكبر: على الرغم من القدرة التنافسية، قد لا تصل أكبر نماذج DAMO-YOLO إلى ذروة دقة متغيرات YOLOv7 المتطورة.
- النظام البيئي والدعم: كمشروع مدفوع بالبحث، قد لا يتمتع بنفس المستوى من الوثائق الشاملة أو الدعم المجتمعي أو الأدوات المتكاملة مثل الأطر المدعومة تجاريًا.
مقارنة مباشرة: YOLOv7 ضد DAMO-YOLO
عند مقارنة هذين النموذجين مباشرة، يكمن التمييز الأساسي في فلسفة التصميم الخاصة بهما. يدفع YOLOv7 حدود الممكن للكشف في الوقت الفعلي من حيث الدقة، والاستفادة من استراتيجيات التدريب المعقدة لزيادة mAP. في المقابل، يعطي DAMO-YOLO الأولوية للكفاءة المعمارية وسرعة الاستدلال الخام، مما يجعل نماذجه الأصغر سريعة بشكل لا يصدق، غالبًا على حساب بضع نقاط في الدقة مقارنة بالنماذج الأكبر والأكثر تعقيدًا.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
لماذا نماذج Ultralytics YOLO هي الخيار الأفضل
في حين أن كلاً من YOLOv7 و DAMO-YOLO هما نموذجان قويان، يجب على المطورين والباحثين الذين يبحثون عن تجربة أكثر حداثة وتكاملاً وسهولة في الاستخدام أن يفكروا في نظام Ultralytics YOLO البيئي، بما في ذلك النماذج الشائعة مثل Ultralytics YOLOv8 وأحدث Ultralytics YOLO11. تقدم هذه النماذج العديد من المزايا الرئيسية:
- سهولة الاستخدام: تم تصميم نماذج Ultralytics مع وضع تجربة مستخدم مبسطة في الاعتبار، وتتميز بواجهة برمجة تطبيقات Python بسيطة و CLI. يتم دعم ذلك من خلال توثيق شامل والعديد من الأدلة، مما يجعل البدء أمرًا سهلاً.
- نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، ومجتمع مفتوح المصدر قوي، والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps الشاملة، من التدريب إلى النشر.
- موازنة الأداء: تحقق نماذج Ultralytics توازنًا ممتازًا بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من السيناريوهات الواقعية.
- كفاءة الذاكرة: تم تحسين نماذج Ultralytics YOLO لتحقيق كفاءة في استخدام الذاكرة، وغالبًا ما تتطلب ذاكرة CUDA أقل للتدريب والاستدلال مقارنة بالبنى الأخرى.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي حلول حقيقية متعددة المهام، تدعم الاكتشاف، والتقسيم، والتصنيف، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB) ضمن إطار عمل واحد وموحد.
- كفاءة التدريب: استفد من عمليات التدريب الفعالة والأوزان المدربة مسبقًا المتاحة بسهولة، وأوقات التقارب الأسرع.
الخلاصة
يمثل كل من DAMO-YOLO و YOLOv7 تطورات كبيرة في الكشف عن الكائنات. يتفوق DAMO-YOLO في سرعة الاستدلال، خاصة مع متغيراته الأصغر، مما يجعله منافسًا قويًا للأجهزة الطرفية أو التطبيقات التي تعطي الأولوية لوقت الاستجابة المنخفض. يدفع YOLOv7 حدود الدقة مع الحفاظ على أداء جيد في الوقت الفعلي، وهو مناسب بشكل خاص للسيناريوهات التي يكون فيها تحقيق أعلى قيمة ممكنة لـ mAP أمرًا بالغ الأهمية.
ومع ذلك، قد يفكر المطورون أيضًا في النماذج الموجودة داخل نظام Ultralytics البيئي، مثل YOLOv8 أو أحدث YOLO11. غالبًا ما توفر هذه النماذج توازنًا فائقًا في الأداء و سهولة الاستخدام و الوثائق الشاملة والتدريب الفعال ومتطلبات الذاكرة الأقل و تعدد الاستخدامات عبر مهام رؤية متعددة، وكلها مدعومة بنظام بيئي تتم صيانته جيدًا ودعم مجتمعي نشط.
استكشف نماذج أخرى
قد يجد المستخدمون المهتمون بـ DAMO-YOLO و YOLOv7 هذه النماذج ذات صلة أيضًا:
- Ultralytics YOLOv5: نموذج شائع وفعال للغاية معروف بسرعته وسهولة نشره. استكشف وثائق YOLOv5.
- Ultralytics YOLOv8: نموذج متعدد الاستخدامات وحديث يقدم أداءً ممتازًا عبر مهام الكشف والتجزئة والوضع والتصنيف. استكشف وثائق YOLOv8.
- YOLOv9: يقدم ابتكارات مثل PGI و GELAN لتحسين الدقة والكفاءة. عرض وثائق YOLOv9.
- YOLOv10: تركز على الكشف من طرف إلى طرف بدون NMS لتقليل زمن الوصول. قارن بين YOLOv10 و DAMO-YOLO.
- RT-DETR: نموذج للكشف في الوقت الحقيقي يعتمد على المحولات. قارن RT-DETR مقابل DAMO-YOLO.