YOLOv6.0 مقابل YOLO: مقارنة تقنية للكشف عن الأجسام
يعد اختيار بنية الرؤية الحاسوبية المناسبة قراراً محورياً للمهندسين والباحثين. يتسم مشهد اكتشاف الأجسام بالتنافسية، حيث تدفع الشركات الصناعية العملاقة باستمرار حدود السرعة والدقة. تقدم هذه الصفحة مقارنة فنية شاملة بين YOLOv6.0، وهو نموذج فعال من حيث الأجهزة من Meituan، و YOLO وهي بنية مليئة بالتكنولوجيا من مجموعة علي بابا.
نظرة عامة على YOLOv6.0
يعمل YOLOv6.0 كإطار عمل قوي مصمم خصيصًا للتطبيقات الصناعية. تم إصداره من قِبل قسم الذكاء الاصطناعي البصري في Meituan، وهو يعطي الأولوية للكفاءة في العالم الحقيقي، ويهدف إلى تقديم أداء عالٍ على قيود الأجهزة القياسية الموجودة في التصنيع والأتمتة.
- المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
- المنظمةميتوان
- التاريخ: 2023-01-13
- Arxiv:YOLOv6 v3.0: إعادة تحميل كامل النطاق
- جيثب:YOLOv6
- المستنداتمستنداتUltralytics YOLOv6
الهندسة المعمارية والابتكارات الرئيسية
يعمل YOLOv6.0 على تحسين نموذج الكاشف أحادي المرحلة مع التركيز على إعادة المعرفات. تسمح هذه التقنية بأن يكون للنموذج بنية معقدة أثناء التدريب من أجل تعلّم أفضل، ولكنها تنهار إلى بنية أبسط وأسرع أثناء الاستدلال.
- العمود الفقري EfficientRepone: يستخدم العمود الفقري كتلًا متميزة لأحجام النماذج المختلفة (EfficientRep للنماذج الصغيرة و CSPStackRep للنماذج الأكبر حجمًا)، مما يحسن الاستفادة المثلى من قدرات أجهزة GPU .
- عنق Rep-PAN: يستخدم العنق طوبولوجيا Rep-PAN، مما يعزز دمج الميزات مع الحفاظ على سرعات استنتاج عالية.
- التقطير الذاتي: منهجية تدريب رئيسية يتعلم فيها النموذج من تنبؤاته الخاصة (وتحديداً من فرع معلم داخل الشبكة نفسها) لتحسين الدقة دون التكلفة الحسابية لنموذج معلم منفصل أثناء النشر.
التحسين الصناعي
تم تصميم YOLOv6 بشكل صريح مع وضع التكميم في الاعتبار. إن بنيته ملائمة للتقدير الكمي بعد التدريب (PTQ) والتدريب الواعي بالتقدير الكمي (QAT)، مما يجعله مرشحًا قويًا للنشر على الأجهزة الطرفية حيث تُفضل دقة INT8 من أجل السرعة.
نظرة عامة على DAMO-YOLO
يقدّم YOLO الذي طورته مجموعة علي بابا، مجموعة من التقنيات الجديدة لتحسين المفاضلة بين الأداء ووقت الاستجابة. وهو يتميز بدمج البنية العصبية للبحث (NAS) وتقنيات دمج الميزات المتقدمة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:YOLO: تقرير عن تصميم الكشف عن الكائنات في الوقت الحقيقي
- جيثب:YOLO
- المستندات:YOLO GitHub README
الهندسة المعمارية والابتكارات الرئيسية
تبتعد YOLO عن البنى المصممة يدويًا بحتًا، وتعتمد جزئيًا على استراتيجيات البحث الآلي لإيجاد بنى فعالة.
- العمود الفقري المدعوم بنظام NAS (MazeNet): يتم إنشاء العمود الفقري باستخدام MAE-NAS (بحث البنية العصبية)، مما ينتج عنه بنية تسمى MazeNet مُحسّنة للغاية لميزانيات حسابية متفاوتة.
- شبكة RepGFPPN الفعالة: تستخدم شبكة هرمية معممة للسمات (GFPN) مقترنةً بإعادة المعلمات. يسمح ذلك بدمج ميزات غنية متعددة المقاييس، وهو أمر بالغ الأهمية للكشف عن الأجسام ذات الأحجام المختلفة.
- ZeroHead: تصميم مبسط لرأس الكشف يقلل من عدد المعلمات والتعقيد الحسابي في المرحلة النهائية للشبكة.
- AlignedOTA: استراتيجية تعيين التسمية الديناميكية التي تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار أثناء عملية التدريب.
دمج الميزات المتقدمة
إن عنق RepGFPPN في YOLO فعال بشكل خاص في التعامل مع المشاهد المعقدة ذات الأجسام المتداخلة. من خلال السماح بتخطي الروابط عبر مستويات مقياس مختلفة، فإنه يحافظ على المعلومات الدلالية بشكل أفضل من هياكل FPN القياسية.
تحليل الأداء: السرعة مقابل الدقة
تستخدم المقارنة التالية بيانات من مجموعة بياناتCOCO val2017. تسلط المقاييس الضوء على المفاضلة بين النموذجين عبر مقاييس مختلفة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0 م | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0L | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
النقاط الرئيسية
- قائد زمن الاستجابة:YOLOv6.0n هو أسرع نموذج في هذه المقارنة، حيث يبلغ 1.17 مللي ثانية على GPU T4. وهذا يجعله مناسبًا بشكل استثنائي لمتطلبات سرعة عالية في الثانية في سيناريوهات الاستدلال في الوقت الحقيقي.
- ذروة الدقة:يحققYOLOv6.0l أعلى دقة مع mAP تبلغ 52.8، مما يدل على فعالية العمود الفقري الثقيل واستراتيجية التقطير الذاتي، على الرغم من أن ذلك على حساب معلمات وعمليات تشغيل ذاتي أعلى مقارنةً ب YOLO.
- نقطة الكفاءة: يتفوقنظام DAMO-YOLOs على YOLOv6.0 في الدقة (46.0 مقابل 45.0 mAP) مع وجود عدد أقل من المعلمات (16.3 مليون مقابل 18.5 مليون). وهذا يسلط الضوء على كفاءة العمود الفقري الباحث في نظام النماذج الصغيرة.
- كفاءة المعلمة: بشكل عام، تُظهر نماذج YOLO عددًا أقل من عمليات التصفية والتخزين الموضعي وعدد المعلمات لدقة مماثلة في النطاق المتوسط إلى الكبير، مما يؤكد فعالية تصميم ZeroHead.
ميزة Ultralytics
في حين أن YOLOv6.0 YOLO يقدمان ميزات مقنعة لمنافذ محددة, Ultralytics YOLO11 يوفر حلاً أكثر شمولية لتطوير الذكاء الاصطناعي الحديث. يؤدي اختيار نموذج Ultralytics إلى فتح نظام بيئي شامل مصمم لتبسيط دورة حياة التعلم الآلي بأكملها.
لماذا تختار Ultralytics YOLO
- سهولة استخدام لا مثيل لها: على عكس مستودعات الأبحاث التي غالبًا ما تتطلب إعدادات بيئة معقدة وتجميع مشغلات C+++ المخصصة، يمكن تثبيت نماذج Ultralytics عبر
pip install ultralytics. البديهية Python API يتيح لك تدريب النماذج ونشرها في بضعة أسطر من التعليمات البرمجية. - توازن الأداء: صُمم YOLO11 لتوفير التوازن الأمثل بين سرعة الاستدلال والدقة، وغالبًا ما يتفوق على المنافسين في معايير العالم الحقيقي مع الحفاظ على متطلبات ذاكرة أقل أثناء التدريب.
- تعدد المهام: على الرغم من أن YOLOv6 YOLO هما في المقام الأول كاشفان للأجسام، فإن Ultralytics YOLO يدعم مجموعة واسعة من المهام في الأصل، بما في ذلك تجزئة المثيل وتقدير الوضعية والتصنيف والكشف عن الصندوق المحدد الموجه (OBB).
- نظام بيئي جيد الصيانة: توفر Ultralytics نظامًا بيئيًا حيًا مع تحديثات متكررة ووثائق شاملة ودعم مجتمعي عبر Discord وGitHub. وهذا يضمن بقاء مشروعك متوافقاً مع المستقبل ومتوافقاً مع أحدث مكتبات الأجهزة والبرامج.
- مرونة النشر: يمكنك تصدير نماذجك المدربة بسهولة إلى تنسيقات مختلفة مثل ONNXTensorRT CoreML OpenVINO باستخدام وضع التصدير المدمج، مما يسهل النشر على كل شيء بدءًا من الخوادم السحابية إلى أجهزة Raspberry Pi.
مثال: تشغيل كشف الكائنات باستخدام YOLO11
إن البدء في استخدام أحدث تقنيات الكشف عن الحالة بسيط للغاية مع Ultralytics:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
الخلاصة
يُمثل كل من YOLOv6.0 YOLO إنجازين مهمين في تطور اكتشاف الأجسام. ويتفوق YOLOv6.0 في البيئات الصناعية حيث تكون السرعة الأولية ودعم التكميم أمرًا بالغ الأهمية، خاصةً مع متغيره النانوي. يُظهر YOLO قوة البحث بالبنية العصبية ودمج الميزات المبتكرة، مما يوفر كفاءة ودقة عالية في نطاق النماذج الصغيرة إلى المتوسطة.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل جاهز للإنتاج يجمع بين الأداء المتطور وتعدد الاستخدامات وسهولة الاستخدام, Ultralytics YOLO11 يظل الخيار الموصى به. حيث يوفر نظامه البيئي القوي، وقدراته متعددة المهام، وتكامله السلس في عمليات سير عمل MLOps الحديثة ميزة مميزة لضمان نجاح المشروع.
استكشف نماذج أخرى
لتوسيع نطاق فهمك لمشهد اكتشاف الأجسام، فكّر في استكشاف هذه المقارنات النموذجية ذات الصلة:
- YOLO11 مقابل YOLOv6
- DAMO-YOLO مقابل YOLOv8
- DAMO-YOLO مقابل RT-DETR
- YOLOv6 مقابل YOLOv6 ضد EfficientDet
- DAMO-YOLO مقابل YOLOX