YOLOv10 ضد YOLOv9: مقارنة فنية
يُعد اختيار نموذج الكشف عن الأجسام المناسب أمرًا بالغ الأهمية لأي مشروع رؤية حاسوبية، مما يؤثر بشكل مباشر على أدائه وسرعته وجدوى نشره. نظرًا لأن المجال يتطور بسرعة، فإن البقاء على اطلاع بأحدث البنيات أمر أساسي. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين حديثين: YOLOv10 و YOLOv9. سنقوم بتحليل الابتكارات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اتخاذ قرار مستنير بناءً على عوامل مثل الدقة والسرعة ومتطلبات الموارد.
YOLOv10: كفاءة شاملة في الوقت الفعلي
YOLOv10 هو نموذج متطور من الباحثين في جامعة Tsinghua، تم إصداره في مايو 2024. وهو مصمم لتقديم أداء استثنائي في الوقت الفعلي من خلال إنشاء خط أنابيب للكشف عن الأجسام من طرف إلى طرف حقًا. الابتكار البارز هو إلغاء تثبيط غير الأقصى (NMS)، وهي خطوة ما بعد المعالجة التي تضيف تقليديًا زمن انتقال الاستدلال. وهذا يجعل YOLOv10 خيارًا فعالاً للغاية للتطبيقات التي تكون فيها السرعة بالغة الأهمية.
تفاصيل فنية:
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمة: جامعة تسينغ هوا
- التاريخ: 2024-05-23
- Arxiv: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
- المستندات: https://docs.ultralytics.com/models/yolov10/
البنية والميزات الرئيسية
يقدم YOLOv10 العديد من التطورات المعمارية لدفع حدود المفاضلة بين السرعة والدقة.
- تدريب بدون NMS: الابتكار الأساسي هو استخدام تعيينات ثنائية متسقة أثناء التدريب. توفر هذه الإستراتيجية إشرافًا غنيًا للنموذج مع تمكينه من العمل بدون NMS أثناء الاستدلال. عن طريق إزالة عنق الزجاجة للمعالجة اللاحقة، يحقق YOLOv10 زمن وصول أقل ويبسط مسار النشر.
- تصميم مدفوع بالكفاءة والدقة الشاملة: أجرى المؤلفون تحسينًا شاملاً لمكونات النموذج. يتضمن ذلك رأس تصنيف خفيف الوزن لتقليل الحمل الحسابي، وتقليل أبعاد مفصول مكانيًا وقنواتيًا للحفاظ على المعلومات بشكل أكثر فعالية، وتصميم كتلة موجه بالرتبة للقضاء على التكرار الحسابي. لتعزيز الدقة بأقل قدر من الحمل الزائد، تشتمل البنية على التفافات ذات نواة كبيرة واهتمام ذاتي جزئي (PSA).
نقاط القوة والضعف
نقاط القوة:
- كفاءة فائقة: تم تحسين YOLOv10 لتقليل زمن الوصول والتكلفة الحسابية إلى الحد الأدنى، ممّا يجعله أحد أسرع أدوات الكشف عن الكائنات المتاحة.
- End-to-End Deployment: يزيل التصميم الخالي من NMS خطوات ما بعد المعالجة، ممّا يبسط النشر ويقلل وقت الاستدلال.
- توازن أداء ممتاز: يحقق توازنًا حديثًا بين السرعة والدقة، وغالبًا ما يتفوق على النماذج الأخرى ذات المقاييس المماثلة.
- تكامل Ultralytics: تم دمج YOLOv10 بسلاسة في نظام Ultralytics البيئي. يوفر هذا للمستخدمين تجربة مبسطة، بما في ذلك واجهة برمجة تطبيقات Python بسيطة و وثائق شاملة ودعم إطار عمل تتم صيانته جيدًا.
نقاط الضعف:
- الحداثة: نظرًا لكونه نموذجًا جديدًا جدًا، لا يزال المجتمع وموارد الطرف الثالث في طور النمو مقارنةً بالنماذج الأكثر رسوخًا مثل Ultralytics YOLOv8.
حالات الاستخدام المثالية
YOLOv10 هو الخيار الأمثل للتطبيقات التي يكون فيها الأداء والكفاءة في الوقت الفعلي على رأس الأولويات.
- Edge AI: إن زمن الوصول المنخفض والبصمة الصغيرة يجعلانه مثاليًا للنشر على الأجهزة ذات الموارد المحدودة مثل NVIDIA Jetson والمنصات المحمولة.
- تحليلات الفيديو عالية السرعة: السيناريوهات التي تتطلب كشفًا فوريًا في تدفقات الفيديو، مثل إدارة حركة المرور أو المراقبة الأمنية الحية.
- الأنظمة الذاتية: تطبيقات في الروبوتات والطائرات بدون طيار حيث يكون اتخاذ القرارات السريعة أمرًا ضروريًا.
YOLOv9: معلومات التدرج القابلة للبرمجة
تم تقديمه في فبراير 2024، YOLOv9 هو تقدم كبير من الباحثين في معهد علوم المعلومات التايواني، أكاديميا سينيكا. يعالج مشكلة أساسية في الشبكات العصبية العميقة: فقدان المعلومات أثناء تدفق البيانات عبر الطبقات المتتالية. يقدم YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) لضمان توفر معلومات التدرج الموثوقة لتحديثات الشبكة، مما يؤدي إلى تعلم أكثر فعالية ودقة أعلى.
تفاصيل فنية:
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2024-02-21
- Arxiv: https://arxiv.org/abs/2402.13616
- GitHub: https://github.com/WongKinYiu/yolov9
- المستندات: https://docs.ultralytics.com/models/yolov9/
البنية والميزات الرئيسية
تم تصميم بنية YOLOv9 لتحقيق أقصى قدر من الاحتفاظ بالمعلومات وكفاءة التعلم.
- معلومات التدرج القابلة للبرمجة (PGI): يساعد هذا المفهوم الجديد في توليد تدرجات موثوقة لتحديث أوزان الشبكة، ومعالجة مشكلة عنق الزجاجة المعلوماتي بشكل فعال ومنع فقدان التفاصيل في الهياكل العميقة.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): يقدم YOLOv9 شبكة GELAN، وهي بنية شبكة جديدة تعمل على تحسين استخدام المعلمات والكفاءة الحسابية. من خلال الجمع بين نقاط القوة في البنى السابقة، تسمح GELAN لـ YOLOv9 بتحقيق أداء عالٍ دون أن تكون باهظة التكلفة من الناحية الحسابية.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: يحقق YOLOv9 دقة متطورة، حيث يضع أكبر متغير له (YOLOv9-E) معيارًا جديدًا لـ mAP على مجموعة بيانات COCO.
- هندسة معمارية فعالة: يؤدي الجمع بين PGI و GELAN إلى أداء ممتاز مع عدد أقل من المعلمات مقارنة بالنماذج الأخرى التي تهدف إلى مستويات دقة مماثلة.
- الحفاظ على المعلومات: تصميمه الأساسي يقلل بشكل فعال من فقدان المعلومات، مما يؤدي إلى تمثيل أفضل للميزات واكتشاف الكائنات التي يصعب اكتشافها.
- نظام Ultralytics البيئي: مثل YOLOv10، يستفيد YOLOv9 من التكامل في إطار عمل Ultralytics، مما يوفر سهولة الاستخدام ووثائق شاملة والوصول إلى مجموعة قوية من الأدوات لـ التدريب والنشر.
نقاط الضعف:
- زمن انتقال أعلى من YOLOv10: على الرغم من كفاءته في فئة الدقة الخاصة به، إلا أنه يتمتع بشكل عام بزمن انتقال استدلال أعلى مقارنة بـ YOLOv10، كما هو موضح في جدول الأداء.
- التعقيد: تضيف مفاهيم PGI والفروع الانعكاسية المساعدة طبقة من التعقيد إلى التصميم المعماري مقارنةً بالتصميمات الأكثر وضوحًا.
حالات الاستخدام المثالية
يعد YOLOv9 مناسبًا تمامًا للتطبيقات التي يكون فيها تحقيق أعلى دقة ممكنة هو الهدف الأساسي، وتكون الموارد الحسابية أقل تقييدًا.
- تحليل عالي الدقة: السيناريوهات التي تتطلب تحليلًا تفصيليًا للصور الكبيرة، كما هو الحال في التصوير الطبي أو تحليل صور الأقمار الصناعية.
- أنظمة الأمان المتقدمة: بيئات المراقبة المعقدة حيث يكون تحديد مجموعة واسعة من الأجسام بدقة أمرًا بالغ الأهمية للأمان.
- مراقبة الجودة: التطبيقات الصناعية حيث يكون اكتشاف العيوب الدقيقة بدقة عالية ضروريًا لـ مراقبة جودة التصنيع.
الأداء والمعايير: YOLOv10 ضد YOLOv9
يقدم الجدول التالي مقارنة تفصيلية للأداء بين المقاييس المختلفة لنماذج YOLOv10 و YOLOv9 على مجموعة بيانات COCO. توضح المقاييس بوضوح المفاضلات في التصميم بين العائلتين.
يُظهر YOLOv10 باستمرار زمن انتقال أقل وكفاءة أكبر في المعلمات عبر جميع أحجام النماذج القابلة للمقارنة. على سبيل المثال، يحقق YOLOv10-B خريطة متوسطة للدقة مماثلة لـ YOLOv9-C ولكن مع زمن انتقال أقل بنسبة 46% ومعلمات أقل بنسبة 25%. وهذا يسلط الضوء على قوة YOLOv10 في التطبيقات في الوقت الفعلي.
من ناحية أخرى، يحقق YOLOv9-E أعلى قيمة mAP بنسبة 55.6%، مما يجعله الخيار الأفضل للسيناريوهات التي تكون فيها الدقة غير قابلة للتفاوض، حتى على حساب زمن الوصول الأعلى والمزيد من المعلمات.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
الخلاصة: أي نموذج يجب أن تختاره؟
يعتمد الاختيار بين YOLO10 و YOLO9 بشكل كامل على الاحتياجات المحددة لمشروعك.
-
اختر YOLOv10 إذا كانت قيودك الأساسية هي السرعة والكمون والكفاءة الحسابية. إن تصميمه الشامل والخالي من NMS يجعله الخيار الأفضل لمعالجة الفيديو في الوقت الفعلي والنشر على الأجهزة الطرفية وأي تطبيق تكون فيه الاستدلال السريع والفعال أمرًا بالغ الأهمية.
-
اختر YOLOv9 إذا كان هدفك الرئيسي هو تحقيق أعلى دقة ممكنة في الكشف. يتفوق تصميمه المبتكر في الحفاظ على المعلومات، مما يجعله مثاليًا للمشاهد المعقدة والتطبيقات عالية المخاطر حيث تفوق الدقة الحاجة إلى أقل زمن انتقال ممكن.
كلا النموذجين عبارة عن بنيات قوية وحديثة تستفيد بشكل كبير من تكاملها في نظام Ultralytics البيئي، مما يبسط استخدامها ونشرها.
استكشف نماذج أخرى
في حين أن YOLOv10 و YOLOv9 يمثلان أحدث التقنيات، إلا أن نظام Ultralytics البيئي يدعم مجموعة واسعة من النماذج. بالنسبة للمطورين الذين يبحثون عن نموذج ناضج ومتعدد الاستخدامات ومتوازن جيدًا، يظل Ultralytics YOLOv8 خيارًا ممتازًا، حيث يقدم دعمًا لمهام رؤية متعددة تتجاوز الكشف. بالنسبة لأولئك الذين يبحثون عن أحدث التطورات من Ultralytics، تحقق من YOLO11. يمكنك استكشاف المزيد من المقارنات على صفحة مقارنة النماذج الخاصة بنا.