YOLOv9 مقابل YOLOv6.0: مقارنة تقنية مفصلة
يعد اختيار البنية المثالية للكشف عن الأجسام خطوة محورية في تطوير حلول رؤية حاسوبية قوية. وغالبًا ما ينطوي القرار على مفاضلة معقدة بين الدقة وسرعة الاستدلال واستهلاك الموارد الحاسوبية. يقدم هذا الدليل مقارنة تقنية شاملة بين YOLOv9وهو نموذج متطور مشهور بكفاءة بنيته، ونموذج YOLOv6.0، وهو نموذج مُحسَّن خصيصًا لسرعات النشر الصناعي. سنقوم بتحليل ابتكاراتهما المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرار مستنير.
YOLOv9: إعادة تعريف الدقة والكفاءة
يمثل YOLOv9 الذي تم تقديمه في أوائل عام 2024، نقلة نوعية في الكشف عن الأجسام في الوقت الحقيقي. فهو يعالج المشكلة الأساسية المتمثلة في فقدان المعلومات في الشبكات العصبية العميقة، ويحقق دقة فائقة مع الحفاظ على كفاءة حسابية استثنائية.
المؤلفون: تشين-ياو وانغ وهونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية للعلوم بتايوان
التاريخ: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
Docsultralytics
الابتكارات المعمارية
تكمن قوة YOLOv9 الأساسية في مفهومين رائدين: معلومات التدرّج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). عندما تصبح الشبكات أعمق، غالبًا ما تُفقد معلومات الميزة الأساسية أثناء عملية التغذية الأمامية. تكافح PGI عنق الزجاجة المعلوماتي هذا من خلال ضمان الحفاظ على معلومات التدرج الموثوقة لتحديث أوزان الشبكة. في الوقت نفسه، تعمل GELAN على تحسين البنية لزيادة استخدام المعلمات إلى أقصى حد، مما يسمح للنموذج بتحقيق دقة أعلى مع عدد أقل من المعلمات وعمليات التشغيل المتدرج مقارنةً بالتصاميم التقليدية.
عند استخدامه داخل نظام Ultralytics يوفر YOLOv9 تجربة تطوير سلسة. فهو يستفيد من واجهة برمجة تطبيقاتPython سهلة الاستخدام، والوثائق الشاملة، والدعم القوي، مما يجعله في متناول كل من الباحثين والمطورين من المؤسسات.
نقاط القوة
- دقة فائقة: يحقق YOLOv9 دقة فائقة: يحقق YOLOv9 أحدث ما توصلت إليه mAP على معايير مثل مجموعة بياناتCOCO متفوقًا باستمرار على سابقيه في دقة الكشف.
- الكفاءة الحسابية: تضمن بنية GELAN أن يوفر النموذج أداءً من الدرجة الأولى دون التكلفة الحسابية الباهظة المرتبطة عادةً بالنماذج عالية الدقة، مما يجعله مناسباً لتطبيقات الذكاء الاصطناعي المتطورة.
- الحفاظ على المعلومات: من خلال التخفيف من عنق الزجاجة المعلوماتي، يسمح PGI للنموذج بتعلم ميزات أكثر فعالية، مما يؤدي إلى اكتشافات أكثر موثوقية في المشاهد المعقدة.
- تكامل النظام الإيكولوجي: يستفيد المستخدمون من المجموعة الكاملة لأدوات Ultralytics بما في ذلك خطوط أنابيب التدريب والتحقق والنشر المبسطة. كما تم تحسين النماذج أيضًا لتقليل استخدام الذاكرة أثناء التدريب مقارنةً بالعديد من البنى القائمة على المحولات.
- تعدد الاستخدامات: بالإضافة إلى الاكتشاف، تدعم البنية التوسع في مهام أخرى مثل تجزئة المثيل والتجزئة الشاملة.
نقاط الضعف
- الحداثة: نظرًا لكونه مشاركًا جديدًا نسبيًا، لا يزال حجم البرامج التعليمية التي ينشئها المجتمع وأمثلة التنفيذ من طرف ثالث في توسع مستمر، على الرغم من أن الدعم الرسمي واسع النطاق.
حالات الاستخدام المثالية
تتفوق YOLOv9 في السيناريوهات التي تكون فيها الدقة بالغة الأهمية:
- التصوير الطبي: تحليل عالي الدقة لمهام مثل الكشف عن الأورام، حيث يكون الحفاظ على التفاصيل الدقيقة أمرًا ضروريًا.
- القيادة الذاتية: الوظائف الحرجة لنظام مساعدة السائق الآلي المتقدم التي تتطلب تحديداً دقيقاً للمشاة والمركبات والعوائق.
- الفحص الصناعي: تحديد العيوب الدقيقة في عمليات التصنيع حيث يمكن أن يؤدي عدم اكتشافها إلى أعطال مكلفة.
YOLOv6.0: مصمم للسرعة الصناعية
YOLOv6.0 هو التكرار الثالث لسلسلة YOLOv6 التي طورها فريق الرؤية في Meituan. تم إصداره في أوائل عام 2023، وقد تم تصميمه مع التركيز بشكل أساسي على زيادة سرعة الاستدلال للتطبيقات الصناعية، خاصةً على أجهزة GPU .
المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, et al.
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics
الملامح المعمارية
يستخدم YOLOv6.0 تصميم شبكة عصبية مدركة للأجهزة. وهو يستخدم عمودًا فقريًا فعالاً لإعادة المعالجة (RepBackbone) وعنقًا مكونًا من كتل هجينة. وقد تم ضبط هذا الهيكل خصيصًا لاستغلال قدرات الحوسبة المتوازية لوحدات معالجة الرسومات، بهدف توفير أقل زمن انتقال ممكن أثناء الاستدلال مع الحفاظ على دقة تنافسية.
نقاط القوة
- سرعة استنتاج عالية: تم تحسين البنية بشكل كبير للإنتاجية، مما يجعلها واحدة من أسرع الخيارات للنشر GPU.
- المقايضة بين السرعة والدقة: يوفر توازنًا مقنعًا لأنظمة الوقت الحقيقي حيث يتم حساب أجزاء من الثانية، مثل خطوط الفرز عالية السرعة.
- التركيز الصناعي: تم تصميم النموذج لمعالجة التحديات العملية في بيئات التصنيع والأتمتة.
نقاط الضعف
- دقة ذروة أقل: على الرغم من سرعته، إلا أن النموذج يتخلف بشكل عام عن YOLOv9 في دقة الذروة، خاصةً في متغيرات الطراز الأكبر.
- نظام بيئي محدود: المجتمع ومنظومة الأدوات أصغر مقارنةً بإطار عمل Ultralytics المعتمد على نطاق واسع.
- خصوصية المهمة: يركز في المقام الأول على اكتشاف الأجسام ويفتقر إلى تعدد المهام الأصلية والمتعددة المهام (مثل تقدير الوضعية أو OBB) الموجودة في نماذج Ultralytics الأحدث.
حالات الاستخدام المثالية
YOLOv6.0 مناسب تمامًا للبيئات عالية الإنتاجية:
- المراقبة في الوقت الحقيقي: معالجة تدفقات فيديو متعددة في وقت واحد لأنظمة الإنذار الأمني.
- فرز خط الإنتاج: التصنيف السريع للأشياء وتحديد موقعها على سيور ناقلة سريعة الحركة.
تحليل الأداء
تبرز المقارنة أدناه مقاييس أداء كلا الطرازين. في حين يوفر YOLOv6.0 سرعة مذهلة بالنسبة لأصغر متغيراته، يُظهر YOLOv9 كفاءة أعلى، حيث يوفر دقة أعلى مع عدد أقل من المعلمات في أقواس مماثلة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0 م | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0L | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
الوجبات السريعة الرئيسية:
- ملك الكفاءة: يحقق YOLOv9 نسبة 53.0% من mAP بـ 25.3 مليون معلمة فقط. في المقابل، يتطلب YOLOv6.0L 59.6 مليون معلمة للوصول إلى كفاءة mAP أقل بنسبة 52.8%. وهذا يوضح التصميم المعماري المتفوق لـ YOLOv9 الذي يحقق "المزيد بمعايير أقل".
- ذروة الأداء: يحدد الطراز YOLOv9 مستوى عالٍ من الدقة بنسبة 55.6% mAP مما يوفر مستوى من الدقة لا تصل إليه سلسلة YOLOv6 في هذه المقارنة.
- السرعة مقابل الدقة: يتميز YOLOv6.0n بسرعة مذهلة (1.17 مللي ثانية)، مما يجعله خيارًا قابلاً للتطبيق في حالة متطلبات زمن الوصول المنخفض للغاية حيث يكون انخفاض الدقة (37.5% mAP) مقبولاً. ومع ذلك، بالنسبة للتطبيقات ذات الأغراض العامة، يوفر YOLOv9 توازنًا أفضل (38.3% mAP عند 2.3 مللي ثانية) مع عدد أقل بكثير من المعلمات (2.0 مليون مقابل 4.7 مليون).
كفاءة الذاكرة
تشتهر نماذج Ultralytics YOLO بما في ذلك YOLOv9 باستخدامها الأمثل للذاكرة أثناء التدريب. على عكس بعض النماذج القائمة على المحولات الثقيلة التي تتطلب ذاكرة وصول عشوائي افتراضية ضخمة GPU )، يمكن تدريب هذه النماذج في كثير من الأحيان على أجهزة من فئة المستهلك، مما يجعل الوصول إلى أحدث ما توصل إليه الذكاء الاصطناعي أمراً ديمقراطياً.
التدريب وسهولة الاستخدام
تختلف تجربة المستخدم اختلافًا كبيرًا بين النموذجين. يوفر YOLOv9 المدمج بالكامل في نظام Ultralytics سير عمل مبسط. يمكن للمطوّرين الاستفادة من واجهة Python البسيطة لتدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model.predict("image.jpg")
يوفر هذا التكامل إمكانية الوصول إلى ميزات متقدمة مثل الضبط التلقائي للمقياس الفائق، والتسجيل في الوقت الفعلي باستخدام TensorBoard أو Weights & Biasesوالتصدير السلس إلى تنسيقات مثل ONNX و TensorRT.
في المقابل، عادةً ما يتضمن تدريب YOLOv6.0 عادةً التنقل في مستودع GitHub الخاص به ونصوص التدريب، وهو ما قد يمثل منحنى تعليمي أكثر حدة بالنسبة لأولئك الذين اعتادوا على طبيعة التوصيل والتشغيل لمكتبة Ultralytics .
الخلاصة
بينما لا يزال YOLOv6.0 منافسًا قويًا لمنافذ صناعية محددة تتطلب أقل زمن انتقال مطلق على أجهزة GPU يبرزYOLOv9 كخيار شامل متفوق لمهام الرؤية الحاسوبية الحديثة.
يوفر YOLOv9 مزيجًا ناجحًا من الدقة المتطورة وكفاءة المعلمات الرائعة والفوائد الهائلة لنظامUltralytics البيئي. تُترجم قدرتها على تحقيق دقة أعلى مع نماذج أخف وزنًا إلى انخفاض تكاليف التخزين ونقل أسرع في سيناريوهات النشر على الحافة. علاوة على ذلك، تعمل سهولة الاستخدام والتوثيق الشامل والدعم المجتمعي النشط المرتبط بنماذج Ultralytics على تسريع دورة حياة التطوير بشكل كبير، مما يسمح للفرق بالانتقال من المفهوم إلى النشر بثقة.
للمطورين الذين يبحثون عن الجيل التالي من الأداء، نوصي أيضًا باستكشاف Ultralytics YOLO11، وهو أحدث نماذجنا التي تعمل على تحسين هذه القدرات بشكل أكبر لمجموعة أوسع من المهام بما في ذلك تقدير الوضعية واكتشاف الأجسام الموجهة. يمكنك أيضًا مقارنة ذلك بالمناهج القائمة على المحولات مثل RT-DETR في مركز مقارنة النماذج الخاص بنا.