DAMO-YOLO مقابل YOLO11: مقارنة فنية
تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين من أحدث طراز في اكتشاف الكائنات: DAMO-YOLO، الذي طورته مجموعة Alibaba، و Ultralytics YOLO11. في حين أن كلا النموذجين مصمم لاكتشاف الكائنات في الوقت الفعلي عالي الأداء، إلا أنهما يستخدمان فلسفات معمارية متميزة ويتفوقان في مجالات مختلفة. سنقوم بتحليل الاختلافات المعمارية ومقاييس الأداء والتطبيقات المثالية لمساعدتك في اتخاذ قرار مستنير لمشاريع رؤية الكمبيوتر الخاصة بك.
DAMO-YOLO
المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO هي طريقة سريعة ودقيقة للكشف عن الأجسام تم تطويرها بواسطة مجموعة علي بابا. يقدم العديد من التقنيات المبتكرة لتوسيع حدود أداء كاشفات بنمط YOLO. يهدف النموذج إلى تحقيق توازن فائق بين الدقة وزمن الوصول، خاصةً على أجهزة GPU.
البنية والميزات الرئيسية
هيكل DAMO-YOLO عبارة عن مزيج من المكونات المتطورة المصممة للعمل بتناغم:
- الأعمدة الفقرية المدعومة بالبحث في الهندسة العصبية (NAS): يستفيد من البحث في الهندسة العصبية (NAS) لإنشاء أعمدة فقرية فعالة (مثل GiraffeNet) مُحسَّنة لأجهزة معينة، مما يقلل من التكلفة الحسابية مع الحفاظ على قدرات قوية لاستخلاص الميزات.
- عنق RepGFPN الفعال: يتضمن النموذج هيكل عنق فعال يعتمد على شبكات هرم الميزات المعممة (GFPN) مع تقنيات إعادة التهيئة لتعزيز دمج الميزات متعددة المقاييس.
- ZeroHead: يقدم DAMO-YOLO رأس كشف خفيف الوزن وبدون مرساة (anchor-free) يسمى ZeroHead، والذي يفصل بين مهام التصنيف والانحدار ويقلل من النفقات الحسابية.
- تعيين تسميات AlignedOTA: يستخدم استراتيجية محسّنة لتعيين التسميات تسمى AlignedOTA، والتي تطابق ديناميكيًا الأهداف الحقيقية مع التنبؤات الأنسب بناءً على نتائج التصنيف وتحديد الموقع على حد سواء، ممّا يؤدي إلى تقارب أفضل للتدريب.
- تقطير المعرفة: يتم تحسين عملية التدريب من خلال تقطير المعرفة، حيث يوجه نموذج معلم أكبر وأكثر قوة تدريب نموذج طالب أصغر لتعزيز دقته النهائية.
نقاط القوة
- دقة عالية على وحدة معالجة الرسوميات (GPU): يحقق DAMO-YOLO درجات متوسط دقة (mAP) مذهلة، خاصةً في المتغيرات الأكبر حجمًا، مما يدل على أداء قوي على مجموعة بيانات COCO.
- استدلال سريع لوحدة معالجة الرسومات: تم تحسين النموذج بدرجة عالية للاستدلال على وحدة معالجة الرسومات، ممّا يوفر زمن وصول منخفض، وهو أمر بالغ الأهمية للتطبيقات في الوقت الفعلي التي تعمل على أجهزة رسومات مخصصة.
- تقنيات مبتكرة: إنه يعرض فعالية التقنيات الحديثة مثل NAS وتعيين التسميات المتقدم والتقطير في الكشف عن الكائنات.
نقاط الضعف
- تعددية المهام محدودة: تم تصميم DAMO-YOLO بشكل أساسي لـ اكتشاف الكائنات. ويفتقر إلى الدعم الأصلي لمهام رؤية الكمبيوتر الأخرى مثل تجزئة المثيلات أو تقدير الوضع أو التصنيف، وهي معايير قياسية في أطر عمل مثل Ultralytics.
- نظام بيئي معقد: المستودع والوثائق، على الرغم من أنها عملية، إلا أنها أقل انسيابية مقارنة بالنظام البيئي لـ Ultralytics. قد يمثل هذا تحديًا أكبر للمستخدمين الجدد.
- التركيز على الأجهزة: يتم قياس أدائه بشكل كبير على وحدات معالجة الرسوميات (GPUs)، مع معلومات محدودة حول أداء وحدة المعالجة المركزية (CPU)، مما يجعله خيارًا أقل مرونة للنشر على وحدة المعالجة المركزية فقط أو الأجهزة الطرفية المتنوعة.
Ultralytics YOLO11
المؤلفون: جلين جوتشر، جينغ تشيو
المنظمة: Ultralytics
التاريخ: 2024-09-27
GitHub: https://github.com/ultralytics/ultralytics
المستندات: https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 هو أحدث تطور في سلسلة YOLO (أنت تنظر مرة واحدة فقط) الشهيرة، وهو يمثل أحدث ما توصلت إليه التكنولوجيا في اكتشاف الكائنات في الوقت الفعلي وما بعده. وهي تعتمد على نجاح سابقاتها مثل YOLOv8، مما يوفر دقة وسرعة وتنوعاً محسّنين داخل نظام بيئي ناضج وسهل الاستخدام.
البنية والميزات الرئيسية
يتميز YOLO11 ببنية مُحسَّنة أحادية المرحلة وخالية من المرساة مُحسَّنة للغاية لتحقيق توازن استثنائي بين الأداء والكفاءة. يركز تصميمه على استخلاص الميزات المبسط وهيكل الشبكة خفيف الوزن، مما يقلل من عدد المعلمات والحمل الحسابي. هذا يجعل YOLO11 قابلاً للتكيف بدرجة كبيرة للنشر عبر مجموعة واسعة من الأجهزة، من الخوادم السحابية القوية إلى الأجهزة الطرفية ذات الموارد المحدودة مثل NVIDIA Jetson.
ومع ذلك، تكمن القوة الحقيقية لـ YOLO11 في تكاملها مع النظام البيئي Ultralytics الذي تتم صيانته جيدًا، والذي يوفر مزايا كبيرة:
- سهولة الاستخدام: تعمل واجهة برمجة تطبيقات Python بسيطة و CLI قوية على جعل التدريب والتحقق والاستدلال أمرًا مباشرًا بشكل لا يصدق. توفر الوثائق الشاملة إرشادات واضحة للمستخدمين من جميع مستويات المهارة.
- تنوع الاستخدامات: على عكس DAMO-YOLO، فإن YOLO11 هو نموذج متعدد المهام يدعم أصلاً الكشف عن الكائنات، وتجزئة المثيلات، وتصنيف الصور، وتقدير الوضعية، ومربعات الإحاطة الموجهة (OBB) ضمن إطار عمل موحد واحد.
- موازنة الأداء: توفر نماذج YOLO11 توازنًا ممتازًا بين السرعة والدقة على كل من CPU و GPU، مما يضمن نشرًا مرنًا وفعالًا في سيناريوهات العالم الحقيقي المتنوعة.
- كفاءة التدريب: تم تحسين الإطار الزمني لأوقات التدريب السريعة ولديه متطلبات ذاكرة أقل مقارنة بالبنى الأكثر تعقيدًا. تعمل الأوزان المدربة مسبقًا المتاحة بسهولة على تسريع مهام سير العمل التدريبية المخصصة.
- نظام بيئي قوي: يستفيد المستخدمون من التطوير النشط ودعم المجتمع القوي عبر GitHub و Discord والتحديثات المتكررة والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps الشامل.
نقاط القوة
- أداء هو الأفضل على الإطلاق: يحقق أعلى مستويات درجات mAP مع هندسة معمارية مُحسَّنة لكل من السرعة والدقة.
- تنوع لا مثيل له: يمكن لإطار عمل نموذج واحد التعامل مع خمس مهام رؤية مختلفة، مما يوفر حلاً شاملاً للمشاريع المعقدة.
- سهولة استخدام فائقة: واجهة برمجة التطبيقات (API) المبسطة والوثائق الواضحة والنظام البيئي المتكامل تجعل من السهل للغاية البدء والنشر.
- مرونة الأجهزة: يتميز بكفاءة عالية على كل من وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسوميات (GPU)، مما يجعله مناسبًا لنطاق أوسع من أهداف النشر.
- نشط ومدعوم: مدعوم من قبل فريق متخصص في Ultralytics ومجتمع كبير ونشط مفتوح المصدر.
نقاط الضعف
- تتطلب النماذج الأكبر مثل YOLO11x موارد حسابية كبيرة، على الرغم من أنها تظل فعالة للغاية بالنسبة لفئة أدائها.
مقارنة الأداء
يوفر الجدول أدناه مقارنة مباشرة لمقاييس الأداء لـ DAMO-YOLO و YOLO11 على مجموعة بيانات COCO val.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
من البيانات، يمكننا استخلاص عدة استنتاجات:
- الدقة: في حين أن DAMO-YOLO تنافسي، فإن نماذج YOLO11، وخاصة المتغيرات المتوسطة إلى الكبيرة (YOLO11m, l, x)، تحقق درجات mAP أعلى، حيث يصل YOLO11x إلى 54.7 mAP مثير للإعجاب.
- سرعة وحدة معالجة الرسوميات (GPU): يُظهر DAMO-YOLO زمن انتقال تنافسي للغاية لوحدة معالجة الرسوميات. ومع ذلك، فإن نماذج YOLO11 مُحسَّنة للغاية أيضًا، حيث تحقق YOLO11n أسرع سرعة لوحدة معالجة الرسوميات عند 1.5 مللي ثانية.
- سرعة وحدة المعالجة المركزية (CPU): إحدى الميزات الهامة لـ YOLO11 هي أدائها الممتاز والموثق جيدًا لوحدة المعالجة المركزية. إن توفر معايير وحدة المعالجة المركزية يجعله خيارًا موثوقًا للتطبيقات التي لا تتوفر فيها وحدات معالجة الرسوميات (GPU). يفتقر DAMO-YOLO إلى مقاييس سرعة وحدة المعالجة المركزية الرسمية، مما يحد من إمكانية تطبيقه.
- الكفاءة: نماذج YOLO11 فعالة بشكل استثنائي. على سبيل المثال، يحقق YOLO11l قيمة 53.4 mAP مع 25.3 مليون معلمة فقط، متفوقًا على DAMO-YOLOl في كل من الدقة وكفاءة المعلمات. يضع YOLO11n معيارًا للنماذج خفيفة الوزن مع 2.6 مليون معلمة فقط.
الخلاصة والتوصية
DAMO-YOLO هو كاشف أجسام قوي يعرض ابتكارات أكاديمية رائعة ويقدم أداءً قويًا على أجهزة GPU. إنه خيار ممتاز للباحثين الذين يستكشفون المفاهيم المعمارية المتقدمة أو للتطبيقات المنتشرة في بيئات غنية بوحدات معالجة الرسومات (GPU) حيث يلزم فقط الكشف عن الأجسام.
ومع ذلك، بالنسبة للغالبية العظمى من المطورين والباحثين والشركات، Ultralytics YOLO11 هو الخيار الواضح والأفضل. فهو لا يوفر فقط دقة وسرعة متطورة، بل يفعل ذلك أيضًا ضمن إطار عمل ناضج وسهل الاستخدام ومتعدد الاستخدامات بشكل لا يصدق. إن الدعم الأصلي لمهام متعددة والأداء الممتاز على كل من CPU و GPU والنظام البيئي القوي للوثائق ودعم المجتمع وأدوات MLOps مثل Ultralytics HUB تجعل YOLO11 حلاً أكثر عملية وقابلية للتطوير وقوة لبناء تطبيقات رؤية الكمبيوتر في العالم الحقيقي.
استكشف نماذج أخرى
إذا كنت مهتمًا بمعرفة كيف تتم مقارنة DAMO-YOLO و YOLO11 بالنماذج الرائدة الأخرى، فراجع هذه المقارنات الأخرى:
- RT-DETR مقابل DAMO-YOLO
- YOLOv9 مقابل DAMO-YOLO
- YOLOv8 ضد DAMO-YOLO
- YOLO11 ضد RT-DETR
- YOLO11 ضد YOLOv9