DAMO-YOLO مقابل YOLOv6-3.0: مقارنة فنية
يُعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية في مشاريع الرؤية الحاسوبية. تقدم هذه الصفحة مقارنة فنية مفصلة بين DAMO-YOLO، وهو نموذج عالي الدقة من مجموعة Alibaba، و YOLOv6-3.0، وهو نموذج يركز على الكفاءة من Meituan. سوف نستكشف الفروق الدقيقة المعمارية ومعايير الأداء والملاءمة للتطبيقات المختلفة لتوجيه اختيارك.
نظرة عامة على DAMO-YOLO
DAMO-YOLO هو نموذج سريع ودقيق للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا. يقدم العديد من التقنيات المبتكرة لتوسيع أحدث التقنيات في المقايضة بين السرعة والدقة. تم تصميم النموذج ليكون قابلاً للتطوير بدرجة كبيرة، حيث يقدم مجموعة من الأحجام لتناسب الميزانيات الحسابية المختلفة.
المؤلفون: شيانزه شو، يي تشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444
GitHub: https://github.com/tinyvision/DAMO-YOLO
المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تم بناء هيكل DAMO-YOLO على نموذج كاشف "مرحلة واحدة" ولكنه يتضمن العديد من المكونات المتقدمة لتحسين الأداء:
- العمود الفقري لـ NAS: يستخدم البحث عن بنية الشبكة العصبية (NAS) للعثور على أعمدة فقرية مثالية (وتحديدًا MazeNet) لاستخراج الميزات، مما يؤدي إلى تحسين الأداء.
- RepGFPN الفعال: ينفذ شبكة هرم ميزات معممة (FPN) مع إعادة التهيئة، مما يسمح بدمج فعال للميزات متعددة المقاييس أثناء الاستدلال.
- ZeroHead: تصميم رأس مبسط بدون معلمات يقلل من النفقات الحسابية والتعقيد في رأس الكشف.
- تعيين تصنيفات AlignedOTA: إستراتيجية محسنة لتعيين التصنيفات تعمل على تحسين مواءمة مهام التصنيف والانحدار، مما يؤدي إلى تنبؤات أكثر دقة.
- تحسين التقطير: تستخدم تقطير المعرفة لنقل المعرفة من نموذج معلم أكبر إلى نموذج طالب أصغر، مما يعزز أداء المتغيرات الأصغر.
نقاط القوة
- دقة عالية: تحقق درجات mAP تنافسية للغاية، خاصة في التكوينات المتوسطة والكبيرة.
- ابتكار معماري: يقدم مفاهيم جديدة مثل ZeroHead و RepGFPN الفعال الذي يدفع حدود تصميم الكاشف.
- قابلية التوسع: توفر مجموعة واسعة من أحجام النماذج (Tiny، Small، Medium، Large)، مما يجعلها قابلة للتكيف مع مختلف قيود الأجهزة.
نقاط الضعف
- تعقيد التكامل: كمشروع بحثي مستقل، قد يتطلب دمج DAMO-YOLO في خطوط الإنتاج مزيدًا من الجهد مقارنة بالنماذج الموجودة داخل نظام بيئي شامل.
- تنوع محدود: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى الدعم الأصلي للمهام المتعددة (مثل التجزئة، وتقدير الوضعية) الموجودة في أطر عمل مثل Ultralytics YOLO.
- المجتمع والدعم: قد يكون لديه مجتمع أصغر وعدد أقل من الموارد المتاحة بسهولة مقارنة بالنماذج الأكثر اعتمادًا على نطاق واسع مثل Ultralytics YOLOv8.
الأداء وحالات الاستخدام
يتفوق DAMO-YOLO في السيناريوهات التي تتطلب دقة وقابلية تطوير عالية. تسمح أحجام النماذج المختلفة الخاصة به بالنشر عبر أجهزة متنوعة، مما يجعله متعدد الاستخدامات لمختلف التطبيقات مثل:
- القيادة الذاتية: الدقة العالية لنماذج DAMO-YOLO الأكبر حجمًا مفيدة للكشف الدقيق المطلوب في المركبات ذاتية القيادة.
- أنظمة الأمان المتطورة: للتطبيقات التي تكون فيها الدقة العالية ضرورية لتحديد التهديدات المحتملة، كما هو الحال في المدن الذكية.
- الفحص الصناعي: في التصنيع، يمكن استخدام DAMO-YOLO لمراقبة الجودة واكتشاف العيوب حيث تكون الدقة ذات أهمية قصوى.
نظرة عامة على YOLOv6-3.0
YOLOv6-3.0، الذي طورته Meituan، مصمم للتطبيقات الصناعية، مع التركيز على الأداء المتوازن بين الكفاءة والدقة. يمثل الإصدار 3.0 تكرارًا محسّنًا يركز على تحسين الأداء والمتانة للنشر في العالم الحقيقي.
المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
المستندات: https://docs.ultralytics.com/models/yolov6/
البنية والميزات الرئيسية
تؤكد YOLOv6-3.0 على بنية مبسطة للسرعة والكفاءة، وهي مصممة لتكون على دراية بالأجهزة. تشمل الميزات الرئيسية ما يلي:
- EfficientRep Backbone: هيكل أساسي قابل لإعادة التهيئة يمكن تحويله إلى هيكل أبسط وأسرع للاستدلال.
- Rep-PAN Neck: عبارة عن هيكل لشبكة تجميع المسار (PAN) يستخدم كتلًا قابلة لإعادة المعايرة لتحقيق التوازن بين إمكانية دمج الميزات والكفاءة.
- Decoupled Head: تفصل رؤوس التصنيف والانحدار، وهي ممارسة شائعة في نماذج YOLO الحديثة لتحسين الأداء.
- التقطير الذاتي: استراتيجية تدريب يتعلم فيها النموذج من طبقاته الأعمق، مما يعزز أداء النماذج الأصغر حجمًا دون معلم خارجي.
نقاط القوة
- التركيز الصناعي: مصمم خصيصًا لمواجهة تحديات النشر الصناعي في العالم الحقيقي، مع التركيز بقوة على سرعة الاستدلال.
- Balanced Performance: يوفر مقايضة قوية بين السرعة والدقة، خاصة مع النماذج الأصغر.
- تحسين الأجهزة: أداء فعال على مختلف منصات الأجهزة، مع سرعات استدلال ممتازة على وحدات معالجة الرسوميات (GPUs).
نقاط الضعف
- موازنة الدقة: قد يعطي الأولوية للسرعة والكفاءة على تحقيق أعلى دقة مطلقة مقارنة بالنماذج الأكثر تخصصًا.
- تكامل النظام البيئي: على الرغم من أنه مفتوح المصدر، إلا أنه قد لا يتكامل بسلاسة في نظام أساسي موحد مثل Ultralytics HUB، مما يبسط التدريب والنشر والإدارة.
- تحديد المهمة: مثل DAMO-YOLO، فهو في الأساس كاشف للأجسام ويفتقر إلى المرونة المدمجة لنماذج المهام المتعددة.
الأداء وحالات الاستخدام
يعد YOLOv6-3.0 مناسبًا بشكل خاص للسيناريوهات الصناعية التي تتطلب مزيجًا من السرعة والدقة. تصميمه المحسن يجعله فعالاً من أجل:
- الأتمتة الصناعية: مراقبة الجودة ومراقبة العمليات في التصنيع.
- البيع بالتجزئة الذكي: إدارة المخزون في الوقت الفعلي وأنظمة الدفع الآلية.
- النشر الطرفي: تطبيقات على الأجهزة ذات الموارد المحدودة مثل الكاميرات الذكية أو NVIDIA Jetson، حيث يكون معدل الإطارات العالي (FPS) ميزة رئيسية.
مقارنة الأداء: DAMO-YOLO ضد YOLOv6-3.0
يكشف أداء DAMO-YOLO و YOLOv6-3.0 على مجموعة بيانات COCO val2017 عن نقاط القوة المتميزة الخاصة بهما. تتفوق YOLOv6-3.0 بشكل عام في سرعة الاستدلال والكفاءة الحسابية (FLOPs/params)، خاصة مع إصدارها النانوي ('n')، وهو أحد أسرع النماذج المتاحة. يحقق إصدارها الكبير ('l') أيضًا أعلى mAP في هذه المقارنة.
على العكس من ذلك، يُظهر DAMO-YOLO توازنًا قويًا، وغالبًا ما يحقق دقة أعلى من YOLOv6-3.0 لحجم نموذج مماثل أو أصغر في النطاق الصغير إلى المتوسط. على سبيل المثال، يحقق DAMO-YOLOs خريطة mAP أعلى من YOLOv6-3.0s مع عدد أقل من المعلمات و FLOPs، وإن كان ذلك بسرعة استدلال أبطأ قليلاً.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
الخلاصة
يعد كل من DAMO-YOLO و YOLOv6-3.0 من نماذج الكشف عن الكائنات القوية مع مزايا واضحة. DAMO-YOLO هو خيار ممتاز للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي، وذلك بفضل مكوناته المعمارية المبتكرة. يتميز YOLOv6-3.0 بسرعة وكفاءة الاستدلال الاستثنائية، مما يجعله مثاليًا للتطبيقات الصناعية في الوقت الفعلي والنشر على الأجهزة الطرفية.
ومع ذلك، بالنسبة للمطورين والباحثين الذين يبحثون عن حل أكثر شمولية، تقدم Ultralytics YOLO11 بديلاً مقنعًا. توفر YOLO11 توازنًا فائقًا بين السرعة والدقة مع كونها جزءًا من نظام بيئي قوي وتتم صيانته جيدًا. تشمل المزايا الرئيسية ما يلي:
- سهولة الاستخدام: تجربة مستخدم مبسطة مع واجهة برمجة تطبيقات بسيطة، و توثيق شامل، وأوزان مُدرَّبة مسبقًا متاحة بسهولة.
- تنوع الاستخدامات: دعم أصيل لمهام متعددة، بما في ذلك اكتشاف الكائنات، و تجزئة المثيلات، و تقدير الوضعية، والتصنيف، كل ذلك ضمن إطار عمل واحد.
- نظام بيئي مُدار جيدًا: تطوير نشط، ودعم مجتمعي قوي، وتكامل سلس مع Ultralytics HUB لتطوير ونشر النماذج بشكل شامل.
- كفاءة التدريب: تعمل عمليات التدريب المحسّنة ومتطلبات الذاكرة المنخفضة على تسريع تدريب النماذج المخصصة وجعلها أكثر سهولة.
في حين أن DAMO-YOLO و YOLOv6-3.0 هما منافسان قويان في مجال الكشف عن الكائنات، فإن تنوع وسهولة استخدام ودعم شامل لنماذج Ultralytics مثل YOLO11 يجعلها خيارًا أكثر عملية وقوة لمجموعة واسعة من التطبيقات الواقعية.
استكشف نماذج أخرى
إذا كنت مهتمًا بهذه النماذج، فقد ترغب أيضًا في استكشاف مقارنات أخرى في وثائقنا:
- YOLOv8 ضد DAMO-YOLO
- YOLOv10 ضد DAMO-YOLO
- RT-DETR مقابل DAMO-YOLO
- YOLOv8 ضد YOLOv6
- YOLOv10 ضد YOLOv6
- YOLOv5 ضد YOLOv6
- PP-YOLOE ضد DAMO-YOLO
- EfficientDet ضد YOLOv6