YOLOv6-3.0 مقابل DAMO-YOLO: مقارنة فنية لـ detect الكائنات
يعد اختيار بنية رؤية الحاسوب المناسبة قرارًا محوريًا للمهندسين والباحثين. إن مشهد الكشف عن الكائنات تنافسي، حيث تدفع الشركات الصناعية العملاقة باستمرار حدود السرعة والدقة. تقدم هذه الصفحة مقارنة فنية شاملة بين YOLOv6-3.0، وهو نموذج فعال من حيث الأجهزة من Meituan، و DAMO-YOLO، وهي بنية مليئة بالتكنولوجيا من مجموعة Alibaba.
نظرة عامة على YOLOv6-3.0
YOLOv6-3.0 بمثابة إطار عمل قوي مصمم خصيصًا للتطبيقات الصناعية. تم إصداره بواسطة قسم Vision AI في Meituan، وهو يعطي الأولوية للكفاءة في العالم الحقيقي، بهدف تقديم أداء عالٍ في ظل قيود الأجهزة القياسية الموجودة في التصنيع والأتمتة.
- المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
- المؤسسة:Meituan
- التاريخ: 2023-01-13
- Arxiv:YOLOv6 v3.0: A Full-Scale Reloading
- GitHub:meituan/YOLOv6
- المستندات:توثيق Ultralytics YOLOv6
الهندسة المعمارية والابتكارات الرئيسية
يقوم YOLOv6-3.0 بتحسين نموذج الكشف أحادي المرحلة مع التركيز على إعادة المعلمات. تسمح هذه التقنية للنموذج بامتلاك هيكل معقد أثناء التدريب لتحسين التعلم ولكنه ينهار إلى هيكل أبسط وأسرع أثناء الاستدلال.
- العمود الفقري EfficientRep: يستخدم العمود الفقري كتلًا مميزة لأحجام النماذج المختلفة (EfficientRep للنماذج الصغيرة و CSPStackRep للنماذج الأكبر)، مما يحسن استخدام قدرات أجهزة GPU.
- Rep-PAN Neck: تستخدم الرقبة هيكل Rep-PAN، مما يعزز دمج الميزات مع الحفاظ على سرعات استدلال عالية.
- التقطير الذاتي: منهجية تدريب رئيسية حيث يتعلم النموذج من تنبؤاته الخاصة (على وجه التحديد، فرع المعلم داخل نفس الشبكة) لتحسين الدقة دون التكلفة الحسابية لنموذج معلم منفصل أثناء النشر.
التحسين الصناعي
تم تصميم YOLOv6 بشكل صريح مع وضع التكميم في الاعتبار. إن بنيتها صديقة للتكميم بعد التدريب (PTQ) والتدريب المدرك للتكميم (QAT)، مما يجعلها مرشحًا قويًا للنشر على الأجهزة الطرفية حيث يفضل دقة INT8 للسرعة.
نظرة عامة على DAMO-YOLO
يقدم DAMO-YOLO، الذي طورته مجموعة Alibaba، مجموعة من التقنيات الجديدة لتحسين المفاضلة بين الأداء والكمون. وهي تتميز بدمج البحث في الهندسة المعمارية العصبية (NAS) وتقنيات دمج الميزات المتقدمة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:DAMO-YOLO: تقرير عن تصميم كشف الأجسام في الوقت الفعلي
- GitHub:tinyvision/DAMO-YOLO
- الوثائق:ملف DAMO-YOLO GitHub README
الهندسة المعمارية والابتكارات الرئيسية
يبتعد DAMO-YOLO عن التصميمات المعمارية المصممة يدويًا بشكل كامل، ويعتمد جزئيًا على استراتيجيات البحث الآلية للعثور على هياكل فعالة.
- العمود الفقري المدعوم من NAS (MazeNet): يتم إنشاء العمود الفقري باستخدام MAE-NAS (البحث عن بنية الشبكة العصبية)، مما يؤدي إلى هيكل يسمى MazeNet وهو مُحسَّن للغاية للميزانيات الحسابية المتغيرة.
- RepGFPN الفعال: تستخدم شبكة هرم الميزات المعممة (GFPN) مع إعادة التهيئة. يتيح ذلك دمجًا غنيًا للميزات متعددة المقاييس، وهو أمر بالغ الأهمية لاكتشاف الكائنات ذات الأحجام المختلفة.
- ZeroHead: تصميم رأس detect مبسط يقلل من عدد المعلمات والتعقيد الحسابي في المرحلة النهائية من الشبكة.
- AlignedOTA: إستراتيجية ديناميكية لإسناد الملصقات تحل عدم التوافق بين مهام التصنيف والانحدار أثناء عملية التدريب.
دمج الميزات المتقدم
إن عنق RepGFPPN في YOLO فعال بشكل خاص في التعامل مع المشاهد المعقدة ذات الأجسام المتداخلة. من خلال السماح بتخطي الروابط عبر مستويات مقياس مختلفة، فإنه يحافظ على المعلومات الدلالية بشكل أفضل من هياكل FPN القياسية.
تحليل الأداء: السرعة مقابل الدقة
تستخدم المقارنة التالية بيانات من مجموعة بيانات COCO val2017. تُبرز المقاييس المفاضلات بين النموذجين عبر مقاييس مختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
النقاط الرئيسية
- الرائد في الكمون:YOLOv6-3.0n هو النموذج الأسرع في هذه المقارنة، حيث يسجل 1.17 مللي ثانية على وحدة معالجة الرسومات T4. وهذا يجعله مناسبًا بشكل استثنائي لمتطلبات FPS العالية في سيناريوهات الاستدلال في الوقت الفعلي.
- ذروة الدقة: يحقق YOLOv6-3.0l أعلى دقة مع mAP يبلغ 52.8، مما يدل على فعالية هيكله الأساسي الثقيل واستراتيجية التقطير الذاتي، وإن كان ذلك على حساب معلمات وFLOPs أعلى مقارنة بـ DAMO-YOLO.
- نقطة الكفاءة المثالية: يتفوق DAMO-YOLOs على YOLOv6-3.0s في الدقة (46.0 مقابل 45.0 mAP) مع عدد أقل من المعلمات (16.3 مليون مقابل 18.5 مليون). وهذا يسلط الضوء على كفاءة العمود الفقري الذي تم البحث عنه بواسطة NAS في نظام النموذج الصغير.
- كفاءة المعلمات: بشكل عام، تُظهر نماذج DAMO-YOLO عددًا أقل من عمليات الفاصلة العائمة في الثانية (FLOPs) وعدد المعلمات لدقة مماثلة في النطاق المتوسط إلى الكبير، مما يؤكد فعالية تصميم ZeroHead.
ميزة Ultralytics
في حين أن YOLOv6-3.0 و DAMO-YOLO يقدمان ميزات مقنعة لمجالات متخصصة محددة، فإن Ultralytics YOLO11 يوفر حلاً أكثر شمولية لتطوير الذكاء الاصطناعي الحديث. يفتح اختيار نموذج Ultralytics نظامًا بيئيًا شاملاً مصممًا لتبسيط دورة حياة تعلم الآلة بأكملها.
لماذا تختار Ultralytics YOLO؟
- سهولة استخدام لا مثيل لها: على عكس مستودعات الأبحاث التي تتطلب غالبًا إعدادات بيئة معقدة وتجميع مشغلي C++ مخصصين، يمكن تثبيت نماذج Ultralytics عبر
pip install ultralytics. إن Python API يسمح لك بتدريب ونشر النماذج في بضعة أسطر فقط من التعليمات البرمجية. - موازنة الأداء: تم تصميم YOLO11 لتوفير التوازن الأمثل بين سرعة الاستدلال والدقة، وغالبًا ما يتفوق على المنافسين في المعايير الواقعية مع الحفاظ على متطلبات ذاكرة أقل أثناء التدريب.
- تنوع المهام: في حين أن YOLOv6 و DAMO-YOLO هما في الأساس كاشفات للأجسام، فإن Ultralytics YOLO يدعم مجموعة واسعة من المهام أصلاً، بما في ذلك تجزئة المثيل، و تقدير الوضع، و التصنيف، و اكتشاف مربعات الإحاطة الموجهة (OBB).
- نظام بيئي مُدار بشكل جيد: توفر Ultralytics نظامًا بيئيًا حيويًا مع تحديثات متكررة ووثائق شاملة ودعم المجتمع عبر Discord و GitHub. وهذا يضمن بقاء مشروعك متوافقًا مع المستقبل ومتوافقًا مع أحدث مكتبات الأجهزة والبرامج.
- مرونة النشر: يمكنك بسهولة تصدير النماذج المدربة إلى تنسيقات مختلفة مثل ONNX و TensorRT و CoreML و OpenVINO باستخدام وضع التصدير المدمج، مما يسهل النشر على كل شيء بدءًا من الخوادم السحابية وحتى أجهزة Raspberry Pi.
مثال: تشغيل اكتشاف الكائنات باستخدام YOLO11
إن البدء في الاكتشاف الحديث أمر بسيط بشكل ملحوظ مع Ultralytics:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
الخلاصة
يمثل كل من YOLOv6-3.0 و DAMO-YOLO علامات بارزة في تطور اكتشاف الكائنات. يتفوق YOLOv6-3.0 في البيئات الصناعية حيث السرعة الأولية ودعم التكميم لهما أهمية قصوى، لا سيما مع متغير Nano الخاص به. يعرض DAMO-YOLO قوة البحث عن البنية العصبية ودمج الميزات المبتكر، مما يوفر كفاءة ودقة عالية في نطاق النموذج الصغير إلى المتوسط.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل جاهز للإنتاج يجمع بين الأداء الحديث مع تعدد الاستخدامات وسهولة الاستخدام، يظل Ultralytics YOLO11 هو الخيار الموصى به. يوفر نظامه البيئي القوي وقدراته متعددة المهام والتكامل السلس في مهام سير عمل MLOps الحديثة ميزة واضحة لضمان نجاح المشروع.
استكشف نماذج أخرى
لتوسيع فهمك لمشهد الكشف عن الكائنات، ضع في اعتبارك استكشاف مقارنات النماذج ذات الصلة التالية:
- YOLO11 مقابل YOLOv6
- DAMO-YOLO مقابل YOLOv8
- DAMO-YOLO مقابل RT-DETR
- YOLOv6 مقابل EfficientDet
- DAMO-YOLO مقابل YOLOX