مقارنة فنية بين YOLOX و DAMO-YOLO
يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين المفاضلات بين الدقة وسرعة الاستدلال والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين في مجال الرؤية الحاسوبية: YOLOX و DAMO-YOLO. سوف نتعمق في تصميماتهما المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لتلبية احتياجات مشروعك.
YOLOX: كاشف عالي الأداء للأجسام بدون نقاط ارتكاز
YOLO هو كاشف عالي الأداء وخالٍ من المرساة تم تطويره بواسطة Megvii. تم تقديمه في عام 2021، وكان يهدف إلى تبسيط تصميم نماذج YOLO السابقة عن طريق إزالة مربعات المرساة مع تحسين الأداء في الوقت نفسه، مما يسد الفجوة بشكل فعال بين البحث الأكاديمي والتطبيقات الصناعية.
تفاصيل فنية:
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- المستندات: https://yolox.readthedocs.io/en/latest/
البنية والميزات الرئيسية
قدم YOLO العديد من الابتكارات المعمارية الهامة لعائلة YOLO:
- تصميم بدون مربعات ارتكاز (Anchor-Free): من خلال إزالة مربعات الارتكاز المحددة مسبقًا، يبسّط YOLOX مسار الكشف ويقلل من عدد المعلمات الفائقة التي تحتاج إلى ضبط. يمكن أن يؤدي اختيار التصميم هذا إلى تعميم أفضل عبر مجموعات البيانات وأحجام الكائنات المختلفة.
- Decoupled Head: على عكس نماذج YOLO السابقة التي استخدمت رأسًا مزدوجًا للتصنيف والانحدار، تستخدم YOLOX رأس كشف detection head منفصل. يُعتقد أن هذا الفصل يحل مشكلة عدم التوافق بين المهمتين، مما يؤدي إلى تحسين الدقة وتقارب أسرع أثناء التدريب.
- استراتيجيات التدريب المتقدمة: تدمج YOLOX تقنيات تقوية البيانات القوية مثل MixUp و Mosaic. كما تقدم SimOTA (Simplified Optimal Transport Assignment)، وهي إستراتيجية لتعيين التصنيفات الديناميكي التي تحدد العينات الإيجابية المثالية لكل كائن ذي حقيقة أساسية، مما يزيد من تعزيز الأداء.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: يحقق YOLOX نتائج mAP تنافسية، خاصةً مع متغيراته الأكبر.
- مسار مبسط: يقلل النهج الخالي من المرساة من التعقيد المرتبط بتصميم وضبط مربعات المرساة.
- نموذج راسخ وناضج: نظرًا لكونه نموذجًا أقدم، فإن YOLOX لديه تاريخ موثق جيدًا والعديد من أمثلة النشر والبرامج التعليمية المتوفرة من جهات خارجية.
نقاط الضعف:
- أبطأ من النماذج الأحدث: على الرغم من كفاءتها في وقتها، إلا أن YOLOX يمكن أن تتفوق عليها البنى الحديثة والمحسّنة للغاية مثل DAMO-YOLO ونماذج Ultralytics YOLO من حيث سرعة الاستدلال.
- النظام البيئي الخارجي: لا يُعد YOLOX جزءًا أصيلًا من نظام Ultralytics البيئي، ممّا قد يعني منحنى تعليمي أكثر حدة وجهدًا أكبر للاندماج مع أدوات مثل Ultralytics HUB لتبسيط MLOps.
- تعددية المهام محدودة: إنه في الأساس نموذج لاكتشاف الكائنات ويفتقر إلى الدعم المدمج لمهام الرؤية الأخرى مثل تجزئة المثيلات أو تقدير الوضع الموجود في أطر العمل الحديثة.
حالات الاستخدام
يعتبر YOLO خيارًا قويًا للتطبيقات التي تتطلب كاشفًا عالي الدقة ومثبتًا:
- الأتمتة الصناعية: مهام مثل مراقبة الجودة على خطوط الإنتاج حيث الدقة هي المفتاح.
- البحث الأكاديمي: إنه بمثابة خط أساس قوي للبحث في طرق الكشف الخالية من المرساة واستراتيجيات تعيين التسميات.
- الأمن والمراقبة: مناسب لـ أنظمة الأمان التي تتطلب توازنًا موثوقًا بين الدقة والسرعة.
DAMO-YOLO: السرعة والدقة بتقنية متقدمة
DAMO-YOLO، الذي طورته مجموعة علي بابا، هو طريقة سريعة ودقيقة للكشف عن الأجسام تتضمن العديد من التقنيات الجديدة لتطوير أحدث ما توصلت إليه التكنولوجيا في الكشف في الوقت الفعلي. وهو يركز على تحقيق توازن مثالي بين السرعة والدقة من خلال المكونات المعمارية المتقدمة.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
يرجع الأداء العالي لـ DAMO-YOLO إلى مجموعة من التقنيات المتطورة:
- الأعمدة الفقرية المدعومة بالبحث في الهندسة العصبية (NAS): يستخدم عمودًا فقريًا تم إنشاؤه بواسطة البحث في الهندسة العصبية (NAS)، مما يؤدي إلى أداة استخلاص ميزات عالية الكفاءة تسمى GiraffeNet.
- عنق RepGFPN الفعال: يتضمن النموذج هيكل عنق فعال يعتمد على Generalized-FPN مع إعادة التهيئة، مما يعزز دمج الميزات من مقاييس مختلفة بأقل قدر من النفقات الحسابية.
- ZeroHead: يقدم DAMO-YOLO تصميم رأس مقترن وخفيف الوزن يقلل بشكل كبير من عدد المعلمات والتعقيد الحسابي لرأس الكشف مع الحفاظ على دقة عالية.
- تعيين تسميات AlignedOTA: يستخدم استراتيجية جديدة لتعيين التسميات تأخذ في الاعتبار كلاً من مواءمة التصنيف والانحدار لتحديد أفضل نقاط الارتكاز، ممّا يحسن استقرار التدريب وأداء النموذج النهائي.
تحليل الأداء
كما هو موضح في الجدول أدناه، تُظهر نماذج DAMO-YOLO توازنًا استثنائيًا بين الدقة والسرعة، خاصة على أجهزة GPU. على سبيل المثال، تحقق DAMO-YOLO-t درجة mAP أعلى من YOLOX-s مع كونها أسرع. هذه الكفاءة متسقة عبر عائلة نماذجها، وغالبًا ما تقدم أداءً أفضل مع عدد أقل من المعلمات و FLOPs مقارنة بنظيراتها في YOLOX.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
نقاط القوة والضعف
نقاط القوة:
- موازنة ممتازة بين السرعة والدقة: تم تحسين DAMO-YOLO بشكل كبير للاستدلال السريع على وحدات معالجة الرسومات (GPU)، مما يجعله خيارًا ممتازًا لتطبيقات الوقت الفعلي.
- هندسة معمارية حديثة وفعالة: يؤدي استخدام NAS وعنق فعال ورأس خفيف الوزن إلى نموذج قوي ولكنه صديق للموارد.
- تقنيات مبتكرة: تمثل ميزات مثل AlignedOTA و ZeroHead أحدث ما توصل إليه تصميم كاشف الكائنات.
نقاط الضعف:
- خاصية المهمة: على غرار YOLOX، تم تصميمه لاكتشاف الأجسام ولا يوفر دعمًا جاهزًا لمهام الرؤية الأخرى.
- جهد التكامل: كمشروع خارجي، يتطلب تكاملاً يدويًا في خطوط الإنتاج ويفتقر إلى الدعم المكثف وأدوات نظام بيئي موحد.
حالات الاستخدام
يعتبر DAMO-YOLO مثاليًا للسيناريوهات التي تكون فيها السرعة العالية والكشف الدقيق على GPU أولوية:
- تحليلات الفيديو في الوقت الفعلي: مراقبة بث الفيديو المباشر لتطبيقات في المدن الذكية أو تحليلات البيع بالتجزئة.
- الأنظمة الذاتية: توفير الإدراك للمركبات ذاتية القيادة و الروبوتات حيث يكون زمن الوصول المنخفض أمرًا بالغ الأهمية.
- خدمات الرؤية المستندة إلى السحابة: تشغيل خدمات الذكاء الاصطناعي القابلة للتطوير التي تحتاج إلى معالجة حجم كبير من الصور أو تدفقات الفيديو بكفاءة.
لماذا نماذج Ultralytics YOLO هي الخيار المفضل
في حين أن كلاً من YOLOX و DAMO-YOLO هما كاشفا كائنات قويان، فإن نماذج Ultralytics YOLO مثل YOLOv8 وأحدث Ultralytics YOLO11 تقدم حلاً أكثر شمولية وسهولة في الاستخدام للمطورين. إنها توفر مزيجًا فائقًا من الأداء والتنوع وسهولة الاستخدام، مما يجعلها الخيار الموصى به لمجموعة واسعة من المشاريع.
- سهولة الاستخدام: تتميز نماذج Ultralytics بواجهة Python API مبسطة، و توثيق شامل، و أوامر CLI بسيطة، مما يقلل بشكل كبير من وقت التطوير والنشر.
- نظام بيئي مُدار بشكل جيد: يستفيد المستخدمون من التطوير النشط، ودعم مجتمعي قوي، والتحديثات المتكررة، والتكامل السلس مع Ultralytics HUB للتدريب والنشر الشامل.
- موازنة الأداء: تم تصميم نماذج Ultralytics لتوفير توازن ممتاز بين السرعة والدقة، مما يجعلها مناسبة لكل شيء بدءًا من الأجهزة الطرفية وصولًا إلى الخوادم السحابية.
- تنوع الاستخدامات: على عكس النماذج أحادية المهمة، يدعم Ultralytics YOLOv8 و YOLO11 مجموعة واسعة من مهام الرؤية، بما في ذلك الكشف، والتجزئة، والتصنيف، وتقدير الوضعية، والكشف عن الكائنات الموجهة، وكل ذلك ضمن إطار عمل موحد واحد.
- كفاءة التدريب: بفضل عمليات التدريب الفعالة، والأوزان المُدرَّبة مسبقًا المتاحة بسهولة على مجموعات البيانات مثل COCO، والتقارب الأسرع، يمكن للمطورين تحقيق نتائج متطورة بجهد أقل.
- متطلبات ذاكرة أقل: تم تصميم نماذج Ultralytics YOLO لتكون فعالة في استخدام الذاكرة أثناء التدريب والاستدلال، وغالبًا ما تتطلب ذاكرة CUDA أقل من البنى الأخرى.
الخلاصة
يعتبر كل من YOLOX و DAMO-YOLO نموذجين قويين لاكتشاف الكائنات. يوفر YOLOX أساسًا صلبًا وخاليًا من الارتكاز وقد ثبتت فعاليته في العديد من التطبيقات. يدفع DAMO-YOLO حدود السرعة والكفاءة من خلال الابتكارات المعمارية الحديثة، مما يجعله خيارًا رائعًا لتطبيقات GPU عالية الإنتاجية.
ومع ذلك، بالنسبة للمطورين والباحثين الذين يبحثون عن حل شامل يجمع بين الأداء المتميز وسهولة الاستخدام التي لا مثيل لها وتعدد الاستخدامات ونظام بيئي دعم قوي، تبرز نماذج Ultralytics مثل YOLOv8 و YOLO11 باعتبارها الخيار الأفضل. إن إطارها الموحد للمهام المتعددة وسير العمل المبسط يجعلها المنصة المثالية لبناء الجيل التالي من تطبيقات الرؤية المدعومة بالذكاء الاصطناعي.
استكشف مقارنات النماذج الأخرى
إذا كنت مهتمًا بمعرفة كيف تتم مقارنة YOLOX و DAMO-YOLO بالنماذج الرائدة الأخرى، فراجع هذه المقارنات الأخرى في وثائقنا:
- YOLOv8 ضد DAMO-YOLO
- YOLOv10 ضد DAMO-YOLO
- RT-DETR مقابل DAMO-YOLO
- YOLOX ضد YOLOv8
- YOLOX ضد RT-DETR
- YOLOX ضد YOLOv10