مقارنة فنية تفصيلية بين YOLOv6-3.0 و YOLOv7
يُعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا بالغ الأهمية في مشاريع الرؤية الحاسوبية، ويتطلب توازنًا بين الدقة والسرعة واستخدام الموارد. تقدم هذه الصفحة مقارنة فنية مفصلة بين YOLOv6-3.0 و YOLOv7، وهما نموذجان بارزان معروفان بقدراتهما في الكشف عن الكائنات. سوف نتعمق في هياكلهما ومعايير الأداء والتطبيقات المناسبة لتوجيه عملية اختيار النموذج الخاص بك.
YOLOv6-3.0: مصمم للسرعة الصناعية
YOLOv6-3.0، الذي طورته Meituan، مصمم للتطبيقات الصناعية التي تتطلب الكشف عن الكائنات عالي الأداء مع التركيز على السرعة والكفاءة. يعمل الإصدار 3.0 على تحسين الإصدارات السابقة بشكل كبير، مما يوفر دقة محسنة وأوقات استدلال أسرع، مما يجعله منافسًا قويًا للأنظمة في الوقت الفعلي.
المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586
GitHub: https://github.com/meituan/YOLOv6
المستندات: https://docs.ultralytics.com/models/yolov6/
البنية والميزات الرئيسية
يقدم YOLOv6-3.0 تصميم شبكة عصبونية مدركة للأجهزة يستفيد من عمود فقري فعال لإعادة المعلمات. يعد هذا الاختيار التصميمي أساسيًا لقدرته على تسريع سرعات الاستدلال، وهو عامل حاسم في النشر الصناعي. يشتمل الهيكل أيضًا على هيكل كتلة هجينة، مصمم بدقة لتحقيق توازن مثالي بين الدقة والكفاءة الحسابية. يضمن هذا التركيز على سهولة الاستخدام للأجهزة أداء النموذج بشكل جيد عبر مجموعة متنوعة من منصات النشر، من الخوادم إلى الأجهزة الطرفية.
نقاط القوة
- سرعة استنتاج عالية: مُحسَّنة للاستنتاج السريع، مما يجعلها مناسبة للغاية للتطبيقات ذات متطلبات زمن الوصول الصارمة.
- التركيز الصناعي: مصمم مع وضع السيناريوهات الصناعية العملية في الاعتبار، مما يضمن المتانة والكفاءة في بيئات مثل الذكاء الاصطناعي في التصنيع.
- تصميم يراعي الأجهزة: تم تصميم البنية لتحقيق أداء فعال عبر مختلف منصات الأجهزة، بما في ذلك وحدات المعالجة المركزية (CPUs) ووحدات معالجة الرسوميات (GPUs).
نقاط الضعف
- موازنة الدقة: على الرغم من كفاءته العالية، إلا أنه قد يُظهر دقة أقل قليلاً في مجموعات البيانات المعقدة مقارنة بنماذج مثل YOLOv7، التي تعطي الأولوية لأقصى قدر من الدقة.
- تنوع محدود: يركز الإطار الأصلي بشكل أساسي على اكتشاف الكائنات، مع تطبيقات منفصلة لمهام أخرى، على عكس النماذج الأكثر تكاملاً.
حالات الاستخدام
يتفوق YOLOv6-3.0 في التطبيقات التي تكون فيها السرعة والكفاءة ذات أهمية قصوى:
- الأتمتة الصناعية: مثالي لمراقبة الجودة، ومراقبة العمليات، والتطبيقات الصناعية الأخرى التي تتطلب اكتشافًا سريعًا.
- الأنظمة الآنية: مناسبة للنشر في المراقبة الآنية، الروبوتات، والتطبيقات ذات قيود الكمون الصارمة.
- الحوسبة الطرفية: تصميمه الفعال يجعله خيارًا رائعًا للنشر على الأجهزة ذات الموارد المحدودة. تحقق من دليلنا حول النشر على أجهزة مثل NVIDIA Jetson.
تعرف على المزيد حول YOLOv6-3.0
YOLOv7: تجاوز حدود الدقة
YOLOv7، الذي تم تطويره بواسطة باحثين في معهد علوم المعلومات، أكاديميا سينيكا، تايوان، يمثل قفزة كبيرة في الكشف عن الأجسام في الوقت الفعلي، مع التركيز على تحقيق دقة عالية مع الحفاظ على الكفاءة.
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: https://github.com/WongKinYiu/yolov7
المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
يقدم YOLOv7 العديد من الابتكارات المعمارية واستراتيجيات التدريب التي تهدف إلى تعزيز الأداء دون زيادة تكاليف الاستدلال بشكل كبير. تشمل الميزات الرئيسية:
- E-ELAN (شبكات تجميع الطبقات الفعالة الموسعة): يعزز تصميم الشبكة المبتكر هذا قدرة النموذج على تعلم الميزات بفعالية، مما يحسن كلاً من كفاءة المعلمات والحسابات. يمكنك العثور على مزيد من التفاصيل في الورقة الأصلية.
- التحجيم النموذجي المركب: ينفذ طرق التحجيم المركب لعمق النموذج وعرضه، مما يحسن الأداء عبر أحجام النماذج المختلفة.
- تحسينات "حقيبة الامتيازات المجانية": يشتمل YOLOv7 على تقنيات تدريب متقدمة، مثل تحسين زيادة البيانات واستراتيجيات تعيين التسميات، مما يحسن الدقة دون تكلفة استدلال إضافية. استكشف تقنيات مماثلة في دليل زيادة البيانات الخاص بنا.
- تدريب الرأس الإضافي: يستخدم رؤوسًا إضافية خلال مرحلة التدريب لتعزيز تعلم الميزات. ثم تتم إزالة هذه الرؤوس للاستدلال للحفاظ على السرعة العالية.
نقاط القوة
- دقة عالية: يحقق دقة حديثة في المعايير القياسية مثل مجموعة بيانات COCO.
- أداء فعال: يوازن بين الدقة العالية وسرعات الاستدلال التنافسية، مما يجعله مناسبًا للعديد من التطبيقات في الوقت الفعلي.
- تنوع الاستخدامات: يُظهر المستودع الرسمي دعمًا مدفوعًا من المجتمع للمهام التي تتجاوز الاكتشاف، بما في ذلك تقدير الوضعية و تجزئة المثيلات.
نقاط الضعف
- التعقيد: يمكن أن تجعل الميزات المعمارية المتقدمة وتقنيات التدريب النموذج أكثر تعقيدًا للفهم والضبط الدقيق مقارنة بالبنى الأبسط.
- التدريب المكثف للموارد: تتطلب متغيرات YOLOv7 الأكبر (مثل، YOLOv7-E6E) موارد حسابية كبيرة للتدريب.
حالات الاستخدام
YOLOv7 هو خيار ممتاز للتطبيقات التي تكون فيها الدقة العالية هي الهدف الأساسي:
- المراقبة المتقدمة: اكتشاف الأجسام الدقيقة أو الصغيرة في المشاهد المزدحمة لتعزيز الأمان.
- الأنظمة الذاتية: توفير كشف دقيق للأجسام من أجل الملاحة الآمنة في السيارات ذاتية القيادة أو الطائرات بدون طيار.
- البحث العلمي: تحليل البيانات المرئية المعقدة حيث الدقة العالية ضرورية للحصول على نتائج دقيقة.
مقارنة الأداء: YOLOv6-3.0 مقابل YOLOv7
يلخص الجدول أدناه مقاييس الأداء للمتغيرات المماثلة من YOLOv6-3.0 و YOLOv7 على مجموعة بيانات COCO.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
ملاحظة: يمكن أن تختلف معايير السرعة بناءً على الأجهزة والبرامج (TensorRT، ONNX، OpenVINO) وحجم الدفعة والتكوينات المحددة. يتم الإبلاغ عن قيم mAP عادةً على مجموعة بيانات COCO val.
استنادًا إلى الجدول، يحقق YOLOv7x أعلى mAP، مما يشير إلى دقة فائقة. ومع ذلك، توفر نماذج YOLOv6-3.0، وخاصةً المتغيرات الأصغر مثل YOLOv6-3.0n، سرعات استدلال أسرع بشكل ملحوظ، خاصةً على GPU مع تحسين TensorRT. كما أن لديها عددًا أقل من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs)، مما يجعلها عالية الكفاءة. يعتمد الاختيار على ما إذا كانت الأولوية هي أقصى قدر من الدقة (YOLOv7) أو السرعة والكفاءة المثلى (YOLOv6-3.0).
ميزة Ultralytics: لماذا تختار YOLOv8 و YOLO11؟
في حين أن YOLOv6 و YOLOv7 هما نموذجان قويان، يجب على المطورين والباحثين الذين يبحثون عن حل حديث ضمن نظام بيئي شامل وسهل الاستخدام أن يفكروا في أحدث نماذج Ultralytics YOLO. تقدم نماذج مثل Ultralytics YOLOv8 وأحدث YOLO11 العديد من المزايا الرئيسية:
- سهولة الاستخدام: تم تصميم نماذج Ultralytics مع وضع تجربة المطور في الاعتبار، وتتميز بواجهة برمجة تطبيقات Python مبسطة و توثيق شامل و أوامر CLI بسيطة تعمل على تبسيط التدريب والتحقق والنشر.
- نظام بيئي مُدار بشكل جيد: استفد من التطوير النشط، ومجتمع مفتوح المصدر قوي، والتحديثات المتكررة، والتكامل السلس مع أدوات مثل Ultralytics HUB لـ MLOps الشاملة.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي نماذج حقيقية متعددة المهام، تدعم اكتشاف الأجسام، والتقسيم، والتصنيف، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB) ضمن إطار عمل واحد وموحد.
- موازنة الأداء: تحقق نماذج Ultralytics توازنًا ممتازًا بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من السيناريوهات الواقعية، بدءًا من الأجهزة الطرفية وصولًا إلى الخوادم السحابية.
- كفاءة التدريب: استفد من عمليات التدريب الفعالة والأوزان المدربة مسبقًا المتاحة بسهولة وأوقات التقارب الأسرع، مما يوفر وقتًا ثمينًا وموارد حسابية.
الخلاصة
يعتبر كل من YOLOv6-3.0 و YOLOv7 من نماذج الكشف عن الأجسام القوية التي دفعت حدود الممكن في رؤية الكمبيوتر. يتفوق YOLOv6-3.0 في السيناريوهات التي تعطي الأولوية لسرعة وكفاءة الاستدلال، مما يجعله مثاليًا للتطبيقات الصناعية والنشر على الحافة. في المقابل، يوفر YOLOv7 دقة قصوى أعلى، مما يجعله خيارًا قويًا للمهام التي تكون فيها الدقة هي الشغل الشاغل، وإن كان ذلك بتكلفة حسابية أعلى.
بالنسبة للمستخدمين المهتمين باستكشاف الخيارات الأخرى الحديثة، تقدم Ultralytics نماذج مثل YOLOv8 و YOLO11، والتي توفر توازنًا فائقًا بين الأداء والتنوع وسهولة الاستخدام. قد تجد أيضًا مقارناتنا مع النماذج الأخرى مثل YOLOX و RT-DETR مفيدة لمزيد من الاستكشاف.