مقارنة النماذج: YOLOv8 ضد YOLOv9 للكشف عن الأجسام
يُعد اختيار نموذج الكشف عن الأجسام المناسب أمرًا بالغ الأهمية لتحقيق التوازن بين الدقة والسرعة والموارد الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين Ultralytics YOLOv8 و YOLOv9، وكلاهما من النماذج المتطورة في سلسلة YOLO. سنقوم بتحليل بنيتيهما وأدائهما وحالات استخدامهما لمساعدتك في تحديد الأنسب لاحتياجاتك، مع تسليط الضوء على سبب كون تعدد استخدامات YOLOv8 ونظامه البيئي الناضج يجعله الخيار المفضل لغالبية التطبيقات.
Ultralytics YOLOv8: مبسطة ومتعددة الاستخدامات
إن Ultralytics YOLOv8 هو نموذج ناجح للغاية تم تطويره بواسطة Glenn Jocher و Ayush Chaurasia و Jing Qiu في Ultralytics وتم إصداره في 10 يناير 2023. وهو مشهور بتوازنه الممتاز بين السرعة والدقة، ومصمم ليكون سهل الاستخدام ومتعدد الاستخدامات بشكل استثنائي. إحدى الميزات الرئيسية في YOLOv8 هي دعمه لمجموعة واسعة من مهام الرؤية تتجاوز الكشف عن الأجسام، بما في ذلك تجزئة المثيلات و تقدير الوضع و تصنيف الصور والمربعات المحيطة الموجهة (OBB) وكل ذلك ضمن إطار عمل موحد واحد.
المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
المنظمة: Ultralytics
التاريخ: 2023-01-10
GitHub: https://github.com/ultralytics/ultralytics
الوثائق: https://docs.ultralytics.com/models/yolov8/
البنية والميزات الرئيسية
يعتمد YOLOv8 على إصدارات YOLO السابقة مع تحسينات معمارية كبيرة، مثل رأس كشف anchor-free وعمود فقري CSPDarknet مُعدَّل يتميز بوحدة C2f. يعزز هذا الاختيار التصميمي المرونة والكفاءة. ومع ذلك، تكمن أعظم نقاط قوته في سهولة استخدامه والنظام البيئي القوي الذي يسكنه.
- سهولة الاستخدام: توفر YOLOv8 تجربة مستخدم مبسطة من خلال واجهة برمجة تطبيقات Python و CLI بسيطة، مدعومة بـ وثائق شاملة. وهذا يجعلها في متناول المبتدئين والخبراء على حد سواء.
- نظام بيئي مُدار بشكل جيد: يستفيد من التطوير المستمر، ومجتمع مفتوح المصدر قوي، والتحديثات المتكررة، والتكامل العميق مع Ultralytics HUB للتدريب بدون تعليمات برمجية وسير عمل MLOps.
- موازنة الأداء: تحقق عائلة النماذج توازنًا قويًا بين السرعة والدقة، مما يجعلها مناسبة لمختلف سيناريوهات النشر في العالم الحقيقي من الأجهزة الطرفية إلى الخوادم السحابية.
- كفاءة الذاكرة: تتطلب عمومًا ذاكرة CUDA أقل للتدريب والاستدلال مقارنة بالبنى الأكبر حجمًا مثل المحولات، مما يتيح التطوير على نطاق أوسع من الأجهزة.
- تنوع الاستخدامات: هذه ميزة بارزة. يتفوق YOLOv8 في التعامل مع مهام رؤية متعددة (الاكتشاف والتجزئة والتصنيف والوضعية و OBB) ضمن إطار عمل واحد، وهي قدرة غالبًا ما تفتقر إليها النماذج الأكثر تخصصًا مثل YOLOv9.
- كفاءة التدريب: يتميز بعمليات تدريب فعالة وأوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات بيانات مثل COCO، مما يؤدي إلى تسريع دورات التطوير.
نقاط القوة والضعف
نقاط القوة:
- دعم المهام المتعددة: يمكن تدريب بنية نموذج واحد للكشف عن الأجسام، والتجزئة، وتقدير الوضعية، وغير ذلك الكثير، مما يبسط متطلبات المشاريع المعقدة.
- سهل الاستخدام: وثائق شاملة وواجهة برمجة تطبيقات بسيطة تقلل من حاجز الدخول لتطوير حلول رؤية الكمبيوتر المتقدمة.
- مجتمع ونظام بيئي قوي: تتم صيانته بنشاط مع موارد وعمليات تكامل واسعة النطاق مثل TensorRT و OpenVINO للنشر الأمثل.
نقاط الضعف:
- ذروة الدقة: على الرغم من دقتها العالية، يمكن لأكبر نماذج YOLOv9 تحقيق درجات mAP أعلى قليلاً في معايير COCO للكشف عن العناصر النقية.
- استهلاك مكثف للموارد (النماذج الكبيرة): تتطلب نماذج YOLOv8 الأكبر (L، X) موارد حسابية كبيرة، على الرغم من أنها تظل فعالة بالنسبة لفئة أدائها.
YOLOv9: تعزيز الدقة مع تقنيات جديدة
تم تقديم YOLOv9 في 21 فبراير 2024، بواسطة Chien-Yao Wang و Hong-Yuan Mark Liao من معهد علوم المعلومات، أكاديميا سينيكا، تايوان. وهو يقدم ابتكارات معمارية كبيرة تهدف إلى دفع حدود الدقة في الكشف عن الأجسام في الوقت الفعلي من خلال معالجة فقدان المعلومات في الشبكات العصبية العميقة.
المؤلفون: Chien-Yao Wang, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
المستندات: https://docs.ultralytics.com/models/yolov9/
الهندسة المعمارية والابتكارات الرئيسية
المساهمات الأساسية في YOLOv9 هي معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- معلومات التدرج القابلة للبرمجة (PGI): تم تصميم هذا المفهوم للتخفيف من مشكلة عنق الزجاجة المعلوماتي، حيث يتم فقدان البيانات المهمة أثناء انتشارها عبر طبقات الشبكة العميقة. تساعد PGI في إنشاء تدرجات موثوقة للحفاظ على المعلومات الأساسية لتحديثات النموذج الدقيقة.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): GELAN هي بنية جديدة تعمل على تحسين استخدام المعلمات والكفاءة الحسابية. يسمح لـ YOLOv9 بتحقيق دقة أعلى مع عدد أقل من المعلمات مقارنة ببعض النماذج السابقة.
نقاط القوة والضعف
نقاط القوة:
- دقة محسنة: يسجل نتائج حديثة وممتازة على مجموعة بيانات COCO لكاشفات الأجسام في الوقت الفعلي، متجاوزًا العديد من النماذج الأخرى في mAP.
- كفاءة محسّنة: توفر بنية GELAN نسبة أداء قوية لكل معلمة.
نقاط الضعف:
- تنوع محدود: يركز YOLOv9 بشكل أساسي على اكتشاف الكائنات. يفتقر إلى الدعم المدمج والمتعدد المهام للتجزئة وتقدير الوضعية والتصنيف مما يجعل YOLOv8 حلاً أكثر مرونة وعملية لمشاريع الذكاء الاصطناعي الشاملة.
- موارد التدريب: كما هو مذكور في وثائقه، قد يكون تدريب نماذج YOLOv9 أكثر استهلاكًا للموارد ويستغرق وقتًا أطول مقارنة بنماذج Ultralytics.
- بنية أحدث: باعتباره نموذجًا أحدث من مجموعة بحثية مختلفة، فإن نظامه البيئي ودعم المجتمع وعمليات تكامل الطرف الثالث أقل نضجًا من Ultralytics YOLOv8 الراسخ. قد يؤدي هذا إلى منحنى تعليمي أكثر حدة وعدد أقل من حلول النشر الجاهزة.
الأداء والمعايير: YOLOv8 ضد YOLOv9
عند مقارنة الأداء، من الواضح أن كلا النموذجين يتمتعان بقدرات عالية. يدفع YOLOv9 المغلف على دقة الكشف الخالصة، حيث يحقق أكبر متغير له، YOLOv9e، أعلى mAP. ومع ذلك، يقدم Ultralytics YOLOv8 حزمة شاملة أكثر جاذبية. توفر نماذجه توازنًا ممتازًا بين السرعة والدقة، مع سرعات استدلال موثقة جيدًا على كل من CPU و GPU، وهو أمر بالغ الأهمية لقرارات النشر في العالم الحقيقي.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT10 (بالمللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
يوضح الجدول أنه في حين أن نماذج YOLOv9 فعالة من حيث المعلمات، فإن YOLOv8 تقدم صورة أداء أكثر اكتمالاً، بما في ذلك معايير وحدة المعالجة المركزية CPU الحاسمة التي تثبت استعدادها لبيئات الأجهزة المتنوعة.
حالات الاستخدام المثالية
يعتمد الاختيار بين YOLOv8 و YOLOv9 بشكل كبير على أولويات المشروع.
YOLOv8 هو الخيار الأمثل من أجل:
- تطبيقات المهام المتعددة: المشاريع التي تتطلب مجموعة من الكشف والتجزئة وتقدير الوضع، كما هو الحال في الروبوتات أو الرعاية الصحية أو أنظمة الأمان المتقدمة.
- التطوير والنشر السريع: سيستفيد المطورون الذين يحتاجون إلى الانتقال من النموذج الأولي إلى الإنتاج بسرعة كبيرة من سهولة استخدام YOLOv8 والوثائق الشاملة والنظام البيئي المتكامل.
- Balanced Performance Needs: التطبيقات التي يكون فيها التوازن القوي بين السرعة والدقة أكثر أهمية من تحقيق أعلى درجة mAP مطلقة، كما هو الحال في تحليلات الفيديو في الوقت الفعلي لـ البيع بالتجزئة أو التصنيع.
يعد YOLOv9 هو الأنسب لـ:
- البحث والكشف المتخصص عالي الدقة: السيناريوهات التي يكون فيها الهدف الأساسي هو زيادة دقة الكشف عن الأجسام إلى أقصى حد على المعايير القياسية مثل COCO.
- الفحص الصناعي عالي الدقة: التطبيقات التي يكون فيها اكتشاف أصغر العيوب بأعلى دقة ممكنة هو الشغل الشاغل.
- تحليلات الفيديو المتقدمة: تستخدم في البنية التحتية للمدن الذكية حيث يلزم الكشف من الدرجة الأولى ويمكن للنظام استيعاب تبعياته المحددة.
الخلاصة: أي نموذج يجب أن تختاره؟
بالنسبة للغالبية العظمى من المطورين والتطبيقات، يعد Ultralytics YOLOv8 هو الخيار الأفضل. يوفر تنوعه الذي لا مثيل له وسهولة استخدامه ونظامه البيئي المتكامل والمُدار جيدًا ميزة كبيرة على YOLOv9. إن القدرة على التعامل مع مهام متعددة داخل إطار عمل واحد لا تبسط التطوير فحسب، بل تقلل أيضًا من التعقيد والتكلفة في الإنتاج. في حين أن YOLOv9 يقدم مكاسب رائعة في الدقة في الكشف عن الكائنات، إلا أن تركيزه الضيق ونظامه البيئي الأقل تطوراً يجعله أداة أكثر تخصصًا.
يمثل YOLOv8 حلاً شاملاً يمكّن المطورين من بناء أنظمة ذكاء اصطناعي قوية ومتعددة الأوجه بكفاءة. بالنسبة لأولئك الذين يبحثون عن نموذج موثوق وعالي الأداء ومرن، فإن YOLOv8 هو الفائز الواضح. إذا كنت تبحث عن نموذج أكثر رسوخًا، ففكر في YOLOv5، أو للحصول على أحدث التقنيات المتطورة من Ultralytics، تحقق من YOLO11.