YOLOv7 ضد YOLOv10: مقارنة فنية تفصيلية
يتضمن اختيار نموذج الكشف عن الأجسام المناسب تحقيق التوازن بين الدقة والسرعة ومتطلبات النشر. تقدم هذه الصفحة مقارنة فنية مفصلة بين YOLOv7 و YOLOv10، وهما نموذجان مهمان في مجال الكشف عن الأجسام في الوقت الفعلي. سوف نتعمق في الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار الأنسب لمشاريع رؤية الكمبيوتر الخاصة بك.
YOLOv7: دقة وسرعة عاليتان
اكتسبت YOLOv7، التي تم تقديمها في يوليو 2022، اعترافًا سريعًا بتوازنها المثير للإعجاب بين السرعة والدقة، مما وضع معايير جديدة في ذلك الوقت. وقد ركزت على تحسين عملية التدريب باستخدام "trainable bag-of-freebies" لتعزيز الدقة دون زيادة تكاليف الاستدلال.
تفاصيل فنية:
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv: https://arxiv.org/abs/2207.02696
- GitHub: https://github.com/WongKinYiu/yolov7
- المستندات: https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
قدم YOLOv7 العديد من التحسينات المعمارية وصقل التدريب لتحقيق أدائه:
- شبكات تجميع الطبقات الفعالة الموسعة (E-ELAN): يعزز هذا المكون الرئيسي في الهيكل الأساسي قدرة الشبكة على تعلم ميزات متنوعة مع التحكم في مسار التدرج، مما يحسن التقارب والدقة الإجمالية.
- توسيع النموذج: لقد طبقت أساليب توسيع مركبة للنماذج القائمة على التسلسل، مما يسمح بتعديل فعال لعمق النموذج وعرضه ليناسب مختلف الميزانيات الحسابية.
- حقيبة الحيل المجانية القابلة للتدريب: استفاد YOLOv7 من تقنيات متقدمة أثناء التدريب، مثل استراتيجيات تعيين التسميات وتعديلات تطبيع الدُفعات، لتعزيز الأداء دون إضافة أي أعباء أثناء الاستنتاج.
- الرأس الإضافي من الخشن إلى الدقيق: يستخدم النموذج رؤوسًا إضافية أثناء التدريب لتحسين الإشراف العميق وتوجيه عملية تعلم النموذج بشكل أكثر فعالية.
نقاط القوة والضعف
نقاط القوة
- توازن بين الدقة العالية والسرعة: يوفر YOLOv7 مزيجًا قويًا من متوسط الدقة (mAP) العالي وسرعة الاستدلال السريعة، مما يجعله مناسبًا للعديد من التطبيقات التي تتطلب معالجة في الوقت الفعلي.
- تدريب فعال: يشتمل النموذج على تقنيات تدريب متقدمة تعمل على تحسين الأداء دون زيادة كبيرة في المتطلبات الحسابية أثناء الاستدلال.
- راسخ: كنموذج ناضج، فإنه يستفيد من قاعدة مستخدمين أكبر وموارد مجتمعية أكثر مقارنة بأحدث النماذج.
نقاط الضعف
- اعتمادية NMS: يعتمد YOLOv7 على Non-Maximum Suppression (NMS) للمعالجة اللاحقة، مما يزيد من الحمل الحسابي ويزيد من زمن الوصول للاستدلال.
- التعقيد: قد يكون فهم وضبط البنية الأساسية واستراتيجيات التدريب بشكل كامل أمرًا معقدًا للتطبيقات المخصصة، على الرغم من فعاليتها.
حالات الاستخدام
يعد YOLOv7 مناسبًا تمامًا للتطبيقات الصعبة التي يكون فيها التوازن بين السرعة والدقة أمرًا بالغ الأهمية:
- المراقبة المتقدمة: دقتها العالية قيمة لتحديد الأجسام أو التهديدات في أنظمة الأمان.
- الأنظمة الذاتية: توفر كشفًا قويًا لتطبيقات مثل السيارات ذاتية القيادة.
- الأتمتة الصناعية: يمكن استخدام النموذج لاكتشاف العيوب الموثوق به في التصنيع ومراقبة الجودة.
YOLOv10: كشف شامل في الوقت الحقيقي
يمثل YOLOv10، الذي قدمه باحثون من جامعة Tsinghua في مايو 2024، تطورًا كبيرًا في اكتشاف الكائنات في الوقت الفعلي. يتمثل ابتكاره الأساسي في إنشاء حل شامل عن طريق إلغاء الحاجة إلى التثبيط غير الأقصى (NMS)، مما يقلل من زمن الوصول ويحسن كفاءة النشر.
تفاصيل فنية:
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمة: جامعة تسينغ هوا
- التاريخ: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- المستندات: https://docs.ultralytics.com/models/yolov10/
البنية والميزات الرئيسية
يقدم YOLOv10 العديد من الابتكارات المعمارية التي تهدف إلى تحسين المفاضلة بين السرعة والدقة:
- تدريب بدون NMS: يستخدم تعيينات ثنائية متسقة أثناء التدريب، مما يتيح أداءً تنافسيًا بدون خطوة المعالجة اللاحقة NMS. هذا يبسط مسار النشر ويقلل من زمن الوصول للاستدلال.
- تصميم شامل مدفوع بالكفاءة والدقة: يعمل النموذج على تحسين المكونات المختلفة، مثل رأس التصنيف وطبقات تقليل الأبعاد، لتقليل التكرار الحسابي وتعزيز القدرة. ويشمل ذلك تقنيات مثل تصميم الكتلة الموجه بالرتبة والانتباه الذاتي الجزئي (PSA).
- نهج خالٍ من المربعات المحورية (Anchor-Free Approach): مثل نماذج YOLO الحديثة الأخرى، فإنه يتبنى تصميم كاشف خالٍ من المربعات المحورية (anchor-free detector)، مما يبسط رأس الكشف (detection head) ويحسن التعميم.
نقاط القوة والضعف
نقاط القوة
- كفاءة عالية: يؤدي تصميم NMS الخالي من التحسينات المعمارية الأخرى إلى استدلال أسرع، ووقت استجابة أقل، وتكلفة حسابية منخفضة.
- دقة تنافسية: تحافظ على دقة قوية مع تحسين السرعة وتقليل حجم النموذج بشكل كبير.
- End-to-End Deployment: تعمل إزالة NMS على تبسيط مسار النشر، ممّا يسهل دمجه في التطبيقات.
نقاط الضعف
- حديث نسبيًا: نظرًا لكونه نموذجًا أحدث، فقد يكون دعم المجتمع وعدد الأمثلة الواقعية أقل شمولاً مقارنةً بالنماذج الراسخة مثل YOLOv7 أو Ultralytics YOLOv8.
- الضبط لتحقيق الأداء الأمثل: قد يتطلب تحقيق أفضل النتائج ضبطًا دقيقًا للمعلمات الفائقة، مما قد يستفيد من موارد مثل نصائح تدريب النموذج.
حالات الاستخدام
إن تركيز YOLOv10 على الكفاءة في الوقت الفعلي يجعله مثاليًا للبيئات محدودة الموارد:
- تطبيقات الذكاء الاصطناعي الطرفية: مثالية للنشر على أجهزة مثل NVIDIA Jetson أو Raspberry Pi، حيث يكون زمن الوصول المنخفض أمرًا بالغ الأهمية.
- الروبوتات: تتيح إدراكًا أسرع للملاحة والتفاعل، وهو جانب أساسي من دور الذكاء الاصطناعي في الروبوتات.
- الطائرات بدون طيار ذاتية القيادة: هيكلها خفيف الوزن وسريع مناسب للكشف السريع عن الكائنات في الطائرات بدون طيار والمركبات الجوية غير المأهولة الأخرى.
مقارنة الأداء وجهاً لوجه
عند مقارنة YOLOv7 و YOLOv10، يكمن الاختلاف الأهم في فلسفات التصميم الخاصة بهما. يدفع YOLOv7 لتحقيق توازن بين الدقة العالية والسرعة، مما يجعله كاشفًا قويًا للأغراض العامة. في المقابل، يعطي YOLOv10 الأولوية للكفاءة الحسابية والكمون المنخفض عن طريق إزالة NMS، مما يجعله خيارًا فائقًا للتطبيقات في الوقت الفعلي على الأجهزة الطرفية.
يوضح الجدول أدناه أن نماذج YOLOv10 تحقق باستمرار زمن انتقال أقل وتتطلب عددًا أقل من المعلمات وعمليات الفاصلة العائمة في الثانية FLOPs من نماذج YOLOv7 عند مستويات mAP مماثلة. على سبيل المثال، تحقق YOLOv10b 52.7 mAP بزمن انتقال يبلغ 6.54 مللي ثانية فقط، متفوقةً على YOLOv7l، التي لديها mAP مماثل ولكن زمن انتقال أعلى.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
الخلاصة والتوصية
يعتبر كل من YOLOv7 و YOLOv10 من النماذج القوية، لكنهما يخدمان احتياجات مختلفة. YOLOv7 هو نموذج كشف قوي ودقيق يظل خيارًا قويًا للتطبيقات التي يكون فيها تحقيق mAP عالية أولوية. YOLOv10، بهندسته المبتكرة الخالية من NMS، هو الفائز الواضح للتطبيقات التي تتطلب أعلى كفاءة وأقل زمن وصول، خاصة في عمليات النشر من طرف إلى طرف.
بالنسبة للمطورين الذين يبحثون عن إطار عمل حديث ومتعدد الاستخدامات وسهل الاستخدام، غالبًا ما تقدم نماذج من نظام Ultralytics البيئي، مثل Ultralytics YOLOv8 وأحدث YOLO11، خيارًا أكثر إقناعًا. تقدم هذه النماذج:
- سهولة الاستخدام: واجهة برمجة تطبيقات Python مبسطة، و توثيق شامل، و أوامر CLI بسيطة.
- نظام بيئي مُدار جيدًا: تطوير نشط، ومجتمع مفتوح المصدر قوي، وتكامل مع أدوات مثل Ultralytics HUB لعمليات MLOps السلسة.
- تنوع المهام: دعم مهام متعددة تتجاوز اكتشاف الكائنات، بما في ذلك التقسيم و التصنيف و تقدير الوضع و اكتشاف الكائنات الموجهة (OBB).
استكشف نماذج أخرى
إذا كنت مهتمًا بنماذج أخرى، فراجع هذه المقارنات الإضافية:
- YOLOv7 ضد YOLOv8
- YOLOv10 مقارنة بـ YOLOv8
- YOLOv10 مقارنة بـ YOLOv9
- RT-DETR ضد YOLOv7
- YOLOv7 ضد YOLOv5
- استكشف أحدث النماذج مثل YOLO11.