YOLOv10 ضد DAMO-YOLO: مقارنة فنية
يعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية يوازن بين المفاضلات بين الدقة والسرعة والتكلفة الحسابية. توفر هذه الصفحة مقارنة فنية مفصلة بين YOLOv10، أحدث نموذج عالي الكفاءة مدمج في نظام Ultralytics البيئي، و DAMO-YOLO، وهو كاشف قوي من مجموعة Alibaba. سنقوم بتحليل بنيتيهما ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ خيار مستنير لمشاريع رؤية الكمبيوتر الخاصة بك.
YOLOv10: كشف فوري وشامل للكائنات
يمثل YOLOv10، الذي قدمه باحثون في جامعة تسينغ هوا في مايو 2024، خطوة كبيرة إلى الأمام في اكتشاف الكائنات في الوقت الفعلي. يتمثل ابتكاره الأساسي في تحقيق الكشف الشامل عن طريق إلغاء الحاجة إلى التثبيط غير الأقصى (NMS)، مما يقلل من النفقات العامة للمعالجة اللاحقة ويقلل من زمن انتقال الاستدلال.
تفاصيل فنية:
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمة: جامعة تسينغ هوا
- التاريخ: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- المستندات: https://docs.ultralytics.com/models/yolov10/
البنية والميزات الرئيسية
تم بناء YOLOv10 على إطار Ultralytics القوي، وهو يرث سهولة استخدامه ونظامه البيئي القوي. يقدم تصميمه العديد من التطورات الرئيسية لتحقيق كفاءة وأداء فائقين:
- تدريب بدون NMS: يستخدم YOLOv10 تعيينات ثنائية متسقة للتسميات أثناء التدريب. هذا يسمح للنموذج بإنتاج تنبؤات نظيفة دون الحاجة إلى خطوة المعالجة اللاحقة NMS، مما يبسط مسار النشر ويجعله حقًا من طرف إلى طرف.
- تصميم شامل للكفاءة والدقة: تم تحسين بنية النموذج بشكل شامل لتقليل التكرار الحسابي. يتضمن ذلك رأس تصنيف خفيف الوزن وتقليل أبعاد مفصول مكانيًا وقنواتيًا، مما يعزز كلاً من السرعة والقدرة.
- تكامل Ultralytics سلس: كجزء من نظام Ultralytics البيئي، يستفيد YOLOv10 من تجربة مستخدم مبسطة. يتضمن ذلك Python API بسيط، و وثائق شاملة، وعمليات تدريب فعالة، وأوزان مُدرَّبة مسبقًا متاحة بسهولة. هذا التكامل يجعل من السهل للغاية على المطورين البدء ونشر النماذج بسرعة.
نقاط القوة والضعف
نقاط القوة:
- كفاءة هي الأحدث على مستوى التقنية: تقدم YOLOv10 توازنًا استثنائيًا بين السرعة والدقة، وغالبًا ما تتفوق على المنافسين بمعلمات أقل وزمن انتقال أقل، كما هو مفصل في جدول الأداء أدناه.
- سهولة الاستخدام: النموذج سهل الاستخدام بشكل لا يصدق بفضل تكامله مع نظام Ultralytics البيئي، والذي يتضمن Ultralytics HUB للتدريب والنشر بدون تعليمات برمجية.
- End-to-End Deployment: التصميم الخالي من NMS يبسط سير العمل بأكمله من التدريب إلى الاستدلال، ممّا يجعله مثاليًا للتطبيقات الواقعية.
- متطلبات ذاكرة أقل: بالمقارنة مع البنى الأكثر تعقيدًا، فإن YOLOv10 فعال في استخدام الذاكرة أثناء التدريب والاستدلال، مما يجعله في متناول المستخدمين ذوي الأجهزة المحدودة.
نقاط الضعف:
- تخصص المهمة: على الرغم من كونه استثنائيًا في اكتشاف الأجسام، إلا أن YOLOv10 يركز حاليًا على هذه المهمة الفردية، على عكس Ultralytics YOLOv8 متعدد الاستخدامات الذي يدعم التجزئة والتصنيف وتقدير الوضع خارج الصندوق.
حالات الاستخدام المثالية
YOLOv10 هو الخيار الأمثل للتطبيقات التي يكون فيها الأداء والكفاءة في الوقت الفعلي في غاية الأهمية:
- Edge AI: إن البصمة الصغيرة وزمن الوصول المنخفض يجعلانها مثالية للنشر على الأجهزة ذات الموارد المحدودة مثل NVIDIA Jetson أو Raspberry Pi.
- الأنظمة الذاتية: الكشف السريع والموثوق به أمر بالغ الأهمية لتطبيقات مثل السيارات ذاتية القيادة و الروبوتات.
- تحليلات الفيديو في الوقت الفعلي: مثالية للأنظمة عالية الإنتاجية مثل إدارة حركة المرور والمراقبة الأمنية.
DAMO-YOLO
DAMO-YOLO هو نموذج سريع ودقيق للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا. تم إصداره في نوفمبر 2022، وقدم العديد من التقنيات الجديدة لتوسيع حدود أداء كاشفات بنمط YOLO.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، وآخرون.
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
DAMO-YOLO هو نتيجة لاستكشاف التقنيات المتقدمة لتحسين المفاضلة بين السرعة والدقة. وتتميز بنيته بما يلي:
- البحث في الهندسة العصبية (NAS): تم إنشاء العمود الفقري لـ DAMO-YOLO باستخدام NAS، مما يسمح بأداة استخلاص ميزات مُحسَّنة للغاية.
- عنق RepGFPN الفعال: يتضمن تصميمًا جديدًا لشبكة هرم الميزات (FPN) يتسم بالكفاءة والقوة.
- ZeroHead و AlignedOTA: يستخدم النموذج رأسًا مبسطًا بدون معلمات (Zero-parameter head) واستراتيجية محسنة لتعيين التسميات (AlignedOTA) لتحسين دقة الاكتشاف.
- تقطير المعرفة: تستفيد DAMO-YOLO من التقطير لزيادة تعزيز أداء نماذجها الأصغر.
نقاط القوة والضعف
نقاط القوة:
- أداء عالي: يحقق DAMO-YOLO دقة وسرعة تنافسيتين، مما يجعله منافسًا قويًا في مجال الكشف عن الأجسام.
- تقنيات مبتكرة: تتضمن مفاهيم بحثية متطورة مثل NAS واستراتيجيات متقدمة لتعيين العلامات.
نقاط الضعف:
- تعقيد أعلى: إن بنية النموذج ومسار التدريب أكثر تعقيدًا مقارنة بـ YOLOv10، مما قد يخلق منحنى تعليمي أكثر حدة للمستخدمين.
- قيود النظام البيئي: يتوفر DAMO-YOLO بشكل أساسي داخل صندوق أدوات MMDetection. يمكن أن يكون هذا عائقًا للمطورين غير المألوفين بهذا النظام البيئي ويفضلون حلاً أكثر تكاملاً وسهولة في الاستخدام مثل الحل الذي تقدمه Ultralytics.
- المجتمع والدعم: على الرغم من أنها مساهمة كبيرة، إلا أنها قد لا تحظى بنفس المستوى من الدعم المجتمعي النشط والتحديثات المتكررة والموارد الواسعة مثل النماذج الموجودة داخل نظام Ultralytics البيئي.
حالات الاستخدام المثالية
يعتبر DAMO-YOLO مناسبًا تمامًا للباحثين والمطورين الذين:
- إعطاء الأولوية للهياكل الجديدة: لأولئك المهتمين باستكشاف أحدث الاتجاهات البحثية مثل الأعمدة الفقرية المدعومة بتقنية NAS.
- العمل داخل MMDetection: يمكن للمستخدمين المرتاحين بالفعل لإطار عمل MMDetection دمج DAMO-YOLO في مهام سير العمل الخاصة بهم.
- تتطلب دقة عالية: في السيناريوهات التي يكون فيها الحصول على آخر جزء من الدقة أمرًا بالغ الأهمية ويمكن التحكم في التعقيد الإضافي.
مقارنة أداء مباشرة: YOLOv10 ضد DAMO-YOLO
يقارن الجدول التالي أداء أحجام نماذج YOLOv10 و DAMO-YOLO المختلفة على مجموعة بيانات COCO. يُظهر YOLOv10 باستمرار أداءً فائقًا، حيث يقدم دقة أعلى مع زمن انتقال أقل وعدد أقل من المعلمات.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
كما تُظهر البيانات، تتفوق نماذج YOLOv10 باستمرار على نظيراتها في DAMO-YOLO. على سبيل المثال، تحقق YOLOv10-S درجة mAP أعلى (46.7 مقابل 46.0) من DAMO-YOLO-S مع كونها أسرع بشكل ملحوظ (2.66 مللي ثانية مقابل 3.45 مللي ثانية) ولديها أقل من نصف عدد المعلمات (7.2 مليون مقابل 16.3 مليون). هذا الاتجاه مستمر عبر جميع أحجام النماذج، وبلغت ذروته في YOLOv10-X التي وصلت إلى أعلى mAP وهو 54.4.
الخلاصة
يعتبر كل من YOLOv10 و DAMO-YOLO من نماذج الكشف عن الأجسام الرائعة، لكنهما يلبيان احتياجات مختلفة. DAMO-YOLO هو نموذج بحثي قوي يعرض أفكارًا معمارية مبتكرة.
ومع ذلك، بالنسبة للغالبية العظمى من المطورين والباحثين والشركات، يعد YOLOv10 الخيار الواضح. إن أدائه الفائق، جنبًا إلى جنب مع تصميم NMS الخالي من العيوب، يجعله أسرع وأكثر كفاءة للنشر في العالم الحقيقي. والأهم من ذلك، أن تكامله السلس في نظام Ultralytics البيئي يوفر تجربة مستخدم لا مثيل لها مع وثائق شاملة ودعم مجتمعي نشط ومجموعة من الأدوات مثل Ultralytics HUB التي تبسط دورة حياة MLOps بأكملها.
بالنسبة لأولئك الذين يبحثون عن خيارات أخرى حديثة، يجدر أيضًا استكشاف Ultralytics YOLOv8 لتعدد استخداماتها عبر مهام رؤية متعددة أو التحقق من مقارنات النماذج الأخرى للعثور على الملاءمة المثالية لمشروعك.