DAMO-YOLO مقابل YOLOv6-3.0: مقارنة فنية
يُعد اختيار بنية الكشف عن العناصر المثالية قرارًا محوريًا لمهندسي الرؤية الحاسوبية، وغالبًا ما يتطلب موازنة دقيقة بين الدقة وزمن الوصول للاستدلال وقيود الأجهزة. يقدم هذا الدليل تحليلًا فنيًا شاملاً يقارن بين DAMO-YOLO، وهو نموذج عالي الدقة من مجموعة Alibaba، و YOLOv6-3.0، وهو إطار عمل من Meituan يركز على الكفاءة.
نحن ندرس الابتكارات المعمارية الخاصة بهم، وأداء القياس على مجموعات البيانات القياسية، ومدى ملاءمتها للنشر في العالم الحقيقي. بالإضافة إلى ذلك، نستكشف كيف تقدم Ultralytics YOLO11 بديلاً عصريًا ومتعدد الاستخدامات للمطورين الذين يبحثون عن حل موحد.
نظرة عامة على DAMO-YOLO
DAMO-YOLO هي طريقة متطورة لاكتشاف الكائنات تم تطويرها بواسطة مجموعة Alibaba. إنها تعطي الأولوية للمفاضلة بين السرعة والدقة من خلال دمج البحث عن بنية عصبية (NAS) والعديد من الوحدات النمطية الجديدة المصممة للقضاء على الاختناقات الحسابية.
المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، يي لون هوانغ، يوان تشانغ، و شيو يو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
المستندات:https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تقدم DAMO-YOLO إستراتيجية توسيع نطاق "من صغير إلى كبير" مدعومة بتصميم معماري فريد. تشمل المكونات الرئيسية ما يلي:
- الأعمدة الفقرية MAE-NAS: باستخدام البحث عن بنية عصبية (NAS)، يستخدم النموذج أعمدة MazeNet الفقرية المتنوعة هيكليًا لزيادة كفاءة استخلاص الميزات إلى أقصى حد في ظل ميزانيات حسابية مختلفة.
- RepGFPN الفعال: شبكة هرم الميزات المعممة (GFPN) المحسّنة بإعادة التهيئة (Rep) تسمح بدمج الميزات متعددة المقاييس بشكل فائق. يضمن هذا التصميم دمج المعلومات المكانية منخفضة المستوى والمعلومات الدلالية عالية المستوى بشكل فعال دون تكبد تكاليف زمن انتقال كبيرة.
- ZeroHead: تصميم رأس detect بسيط ("ZeroHead") يقلل بشكل كبير من عدد المعلمات. من خلال فصل مهام classify والانحدار بكفاءة، فإنه يحافظ على الأداء العالي مع تبسيط طبقات التوقع النهائية.
- AlignedOTA: إستراتيجية متقدمة لإسناد الملصقات تحل حالات عدم التوافق بين درجات التصنيف و IoU (التقاطع على الاتحاد) للانحدار، مما يضمن تركيز النموذج على المرساة عالية الجودة أثناء التدريب.
نقاط القوة والضعف
يتألق DAMO-YOLO في السيناريوهات التي يكون فيها الضغط على كل نقطة مئوية من mAP أمرًا بالغ الأهمية.
الإيجابيات:
- دقة عالية: غالبًا ما يتفوق على النماذج المماثلة في mAP للأحجام الصغيرة والمتوسطة نظرًا لعموده الفقري المحسن بواسطة NAS.
- تصميم مبتكر: يقلل مفهوم ZeroHead من الحمل الحسابي الثقيل الموجود عادةً في رؤوس detect.
- تقطير قوي: يتضمن آلية تقطير قوية (Knowledge Distillation) تعمل على تحسين أداء نماذج الطلاب الأصغر حجمًا باستخدام شبكات المعلمين الأكبر حجمًا.
السلبيات:
- بنية معقدة: يمكن أن يؤدي استخدام الهياكل الخلفية التي تم إنشاؤها بواسطة NAS إلى جعل تخصيص البنية أو تصحيحها أكثر صعوبة مقارنةً بتصميمات CSP القياسية.
- نظام بيئي محدود: باعتباره إصدارًا يركز على البحث، فإنه يفتقر إلى تكامل أدوات الطرف الثالث الشامل الموجود في الأنظمة البيئية الأوسع.
- تغير الكمون: على الرغم من أنها مُحسَّنة، إلا أن هياكل NAS قد لا تتطابق دائمًا تمامًا مع مسرِّعات الأجهزة المحددة مثل شبكات CNN القياسية.
حالات الاستخدام المثالية
- المراقبة الذكية للمدن: حيث تكون الدقة العالية مطلوبة لاكتشاف الأجسام الصغيرة مثل المشاة أو المركبات عن بعد.
- الفحص الآلي للجودة: تحديد العيوب الطفيفة في خطوط التصنيع حيث تكون الدقة ذات أهمية قصوى.
نظرة عامة على YOLOv6-3.0
YOLOv6-3.0 هو التكرار الثالث لإطار YOLOv6 الذي طورته Meituan. تم تصميمه خصيصًا للتطبيقات الصناعية، مع التركيز على الإنتاجية العالية على وحدات معالجة الرسومات (GPUs) وسهولة النشر.
المؤلفون: تشوي لي، لولو لي، ييفي جينغ، هونغليانغ جيانغ، مينغ تشنغ، بو تشانغ، زيدان كه، شياومينغ شو، و شيانغشيانغ تشو
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
المستندات:https://docs.ultralytics.com/models/yolov6/
البنية والميزات الرئيسية
يركز YOLOv6-3.0 على التصميمات الصديقة للأجهزة التي تزيد من استخدام وحدة معالجة الرسوميات GPU:
- EfficientRep Backbone: يستخدم العمود الفقري كتلًا قابلة لإعادة التهيئة تكثف هياكل وقت التدريب المعقدة في عمليات التفاف بسيطة 3x3 للاستدلال، مما يزيد من السرعة على أجهزة مثل NVIDIA TensorRT.
- Rep-PAN Neck: يوازن تصميم الرقبة بين إمكانية دمج الميزات وكفاءة الأجهزة، مما يضمن تدفق البيانات بسلاسة عبر الشبكة دون اختناقات.
- الوصل ثنائي الاتجاه (BiC): يعزز دقة تحديد المواقع عن طريق تحسين كيفية تجميع الميزات عبر مقاييس مختلفة.
- التدريب بمساعدة المرتكزات (AAT): استراتيجية هجينة تجمع بين مزايا النماذج القائمة على المرتكزات و الخالية من المرتكزات خلال مرحلة التدريب لتحقيق استقرار التقارب وتحسين الدقة النهائية.
نقاط القوة والضعف
يعد YOLOv6-3.0 قوة كبيرة للبيئات الصناعية التي تتطلب نشر GPU قياسي.
الإيجابيات:
- سرعة الاستدلال: في
nanoالمتغير سريع بشكل استثنائي، مما يجعله مثاليًا لمتطلبات FPS العالية. - تحسين الأجهزة: مصمم بشكل صريح لإنتاجية GPU، ويعمل بشكل جيد مع تكميم TensorRT.
- نشر مبسط: تعمل إعادة التهيئة على تبسيط الرسم البياني النهائي، مما يقلل من مشكلات التوافق أثناء التصدير.
- سرعة الاستدلال: في
السلبيات:
- التركيز على مهمة واحدة: قادر بشكل أساسي على detect الكائنات، ويفتقر إلى الدعم الأصلي لـ segment أو تقدير الوضع في المستودع الأساسي مقارنةً بأطر العمل متعددة المهام.
- كفاءة المعلمات: يمكن أن تكون المتغيرات الأكبر أثقل من حيث المعلمات مقارنة ببعض المنافسين لتحقيق مكاسب مماثلة في الدقة.
حالات الاستخدام المثالية
- الأتمتة الصناعية: التحقق من الفرز والتجميع عالي السرعة على خطوط الإنتاج.
- تحليلات البيع بالتجزئة:الاستدلال في الوقت الفعلي لمراقبة الرفوف وتحليل سلوك العملاء.
- الحوسبة الطرفية: نشر نماذج خفيفة الوزن مثل YOLOv6-Lite على الأجهزة المحمولة أو المدمجة.
تحليل الأداء
تسلط المقارنة أدناه الضوء على أداء كلا النموذجين على مجموعة بيانات COCO. تركز المقاييس على mAP للتحقق (متوسط الدقة المتوسطة) عند IoU 0.5-0.95، وسرعة الاستدلال على وحدات معالجة الرسومات T4 باستخدام TensorRT، وتعقيد النموذج (المعلمات و FLOPs).
رؤى حول الأداء
YOLOv6-3.0n يبرز كبطل للسرعة، حيث يوفر استدلالًا في أقل من 2 مللي ثانية، مما يجعله مثاليًا للتطبيقات شديدة الحساسية لزمن الوصول. ومع ذلك، غالبًا ما تحقق نماذج DAMO-YOLO (خاصةً المتغيرات الصغيرة والمتوسطة) درجات mAP أعلى من نظيراتها في YOLOv6، مما يدل على كفاءة معمارية قوية مشتقة من هياكلها الأساسية NAS.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
ميزة Ultralytics
في حين أن DAMO-YOLO و YOLOv6-3.0 يقدمان ميزات مقنعة لمجالات محددة، فإن Ultralytics YOLO11 يمثل تطوراً شاملاً في الذكاء الاصطناعي لرؤية الكمبيوتر. تم تصميم YOLO11 للمطورين الذين يحتاجون إلى أكثر من مجرد نموذج detect، وهو يدمج أحدث أداء مع تجربة مستخدم لا مثيل لها.
لماذا تختار Ultralytics YOLO؟
- نظام بيئي موحد: على عكس مستودعات الأبحاث المستقلة، توفر Ultralytics نظامًا أساسيًا شاملاً. من شرح البيانات إلى تدريب النموذج ونشره، تكون سير العمل سلسة. يضمن المجتمع النشط على GitHub و Discord أنك لا تقوم بالتطوير بمعزل عن الآخرين.
- تنوع لا يضاهى: يدعم تصميم نموذج YOLO11 واحد مجموعة واسعة من مهام رؤية الكمبيوتر، بما في ذلك الكشف عن الأجسام، وتقسيم المثيلات Instance Segmentation، وتقدير الوضع Pose Estimation، وصندوق الإحاطة الموجه (OBB)، والتصنيف Classification. تتيح لك هذه المرونة معالجة المشاريع المعقدة دون تبديل الأطر.
- كفاءة التدريب: تم تحسين نماذج Ultralytics لتحقيق كفاءة في التدريب، وغالبًا ما تتطلب ذاكرة GPU أقل بكثير من البدائل القائمة على المحولات. يتم تمكين ميزات مثل التحديد التلقائي لحجم الدُفعة والتدريب المختلط الدقة (AMP) افتراضيًا، مما يبسط المسار من البيانات إلى النشر.
- سهولة الاستخدام: تم تصميم Python API ببساطة. يمكنك تحميل نموذج مُدرَّب مسبقًا، وتشغيل الاستدلال على صورة، وتصديره إلى تنسيقات مثل ONNX أو TensorRT ببضعة أسطر فقط من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
model.export(format="onnx")
الخلاصة
بالنسبة للمشاريع التي تتطلب بدقة أعلى إنتاجية على وحدات معالجة الرسومات الصناعية، يُعد YOLOv6-3.0 منافسًا قويًا. إذا كان تركيزك على زيادة الدقة إلى أقصى حد ضمن ميزانية معينة للمعلمات باستخدام NAS، فإن DAMO-YOLO هو خيار ممتاز على مستوى البحث.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات التجارية والبحثية، يقدم Ultralytics YOLO11 أفضل توازن بين الأداء وسهولة الاستخدام وقابلية الصيانة على المدى الطويل. إن قدرته على التعامل مع مهام متعددة، جنبًا إلى جنب مع نظام بيئي قوي ويتم صيانته جيدًا، يجعله الخيار الموصى به لبناء حلول رؤية الكمبيوتر القابلة للتطوير.
استكشف نماذج أخرى
وسّع فهمك لمشهد الكشف عن الكائنات من خلال استكشاف هذه المقارنات التفصيلية الأخرى:
- YOLOv8 ضد DAMO-YOLO
- YOLOv10 ضد DAMO-YOLO
- RT-DETR مقابل DAMO-YOLO
- YOLOv8 مقابل YOLOv6
- YOLOv5 ضد YOLOv6
- PP-YOLOE ضد DAMO-YOLO
- EfficientDet مقابل YOLOv6
- YOLO11 ضد RT-DETR