تخطي إلى المحتوى

YOLOv9 ضد YOLOv6-3.0: مقارنة فنية مفصلة

يُعد اختيار بنية الكشف عن العناصر المثالية خطوة محورية في تطوير حلول الرؤية الحاسوبية القوية. غالبًا ما يتضمن القرار التنقل في مفاضلة معقدة بين الدقة وسرعة الاستدلال واستهلاك موارد الحوسبة. يقدم هذا الدليل مقارنة فنية شاملة بين YOLOv9، وهو نموذج حديث مشهور بكفاءة بنيته، و YOLOv6-3.0، وهو نموذج مُحسَّن خصيصًا لسرعات النشر الصناعية. سنقوم بتحليل الابتكارات المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدتك في اتخاذ خيار مستنير.

YOLOv9: إعادة تعريف الدقة والكفاءة

يمثل YOLOv9، الذي تم تقديمه في أوائل عام 2024، نقلة نوعية في object detection في الوقت الفعلي. يعالج المشكلة الأساسية المتمثلة في فقدان المعلومات في الشبكات العصبية العميقة، ويحقق دقة فائقة مع الحفاظ على كفاءة حسابية استثنائية.

المؤلفون: تشين-ياو وانغ وهونغ-يوان مارك لياو
المنظمة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
المستندات:https://docs.ultralytics.com/models/yolov9/

الابتكارات المعمارية

تكمن القوة الأساسية لـ YOLOv9 في مفهومين رائدين: معلومات التدرج القابلة للبرمجة (PGI) و شبكة تجميع الطبقات الفعالة المعممة (GELAN). مع ازدياد عمق الشبكات، غالبًا ما تضيع معلومات الميزات الأساسية أثناء عملية التغذية الأمامية. تحارب PGI عنق الزجاجة للمعلومات هذا من خلال ضمان الحفاظ على معلومات التدرج الموثوقة لتحديث أوزان الشبكة. في الوقت نفسه، تعمل GELAN على تحسين البنية لتحقيق أقصى قدر من استخدام المعلمات، مما يسمح للنموذج بتحقيق دقة أعلى مع عدد أقل من المعلمات و FLOPs مقارنة بالتصميمات التقليدية.

عند استخدام YOLOv9 داخل النظام البيئي Ultralytics، فإنه يوفر تجربة تطوير سلسة. ويستفيد من Python API سهل الاستخدام، ووثائق شاملة، ودعم قوي، مما يجعله في متناول الباحثين ومطوري المؤسسات على حد سواء.

نقاط القوة

  • دقة فائقة: يحقق YOLOv9 أحدث mAP على معايير مثل مجموعة بيانات COCO، متفوقًا باستمرار على سابقاته في دقة الكشف.
  • الكفاءة الحسابية: تضمن بنية GELAN أن يقدم النموذج أداءً عاليًا دون التكلفة الحسابية الباهظة المرتبطة عادةً بنماذج الدقة العالية، مما يجعله مناسبًا لتطبيقات edge AI.
  • الحفاظ على المعلومات: من خلال التخفيف من حدة عنق الزجاجة المعلوماتي، يسمح PGI للنموذج بتعلم ميزات أكثر فعالية، مما يؤدي إلى عمليات detect أكثر موثوقية في المشاهد المعقدة.
  • تكامل النظام البيئي: يستفيد المستخدمون من المجموعة الكاملة من أدوات Ultralytics، بما في ذلك خطوط تدريب وتحقق ونشر مبسطة. تم أيضًا تحسين النماذج لتقليل استخدام الذاكرة أثناء التدريب مقارنة بالعديد من architectures المستندة إلى transformer.
  • Versatility: بالإضافة إلى الـ detect، يدعم التصميم التوسع في مهام أخرى مثل instance segmentation و panoptic segmentation.

نقاط الضعف

  • الجدة: نظرًا لكونه وافدًا جديدًا نسبيًا، فإن حجم البرامج التعليمية التي يتم إنشاؤها بواسطة المجتمع وأمثلة التنفيذ الخاصة بالجهات الخارجية لا يزال في طور التوسع، على الرغم من أن الدعم الرسمي واسع النطاق.

حالات الاستخدام المثالية

يتفوق YOLOv9 في السيناريوهات التي تكون فيها الدقة بالغة الأهمية:

  • التصوير الطبي: تحليل عالي الدقة لمهام مثل detect الأورام، حيث يعد الحفاظ على التفاصيل الدقيقة أمرًا ضروريًا.
  • القيادة الذاتية: وظائف ADAS الحرجة التي تتطلب تحديدًا دقيقًا للمشاة والمركبات والعقبات.
  • الفحص الصناعي: تحديد العيوب الدقيقة في عمليات التصنيع حيث يمكن أن يؤدي عدم اكتشافها إلى إخفاقات مكلفة.

تعرف على المزيد حول YOLOv9

YOLOv6-3.0: مصمم للسرعة الصناعية

يعد YOLOv6-3.0 هو التكرار الثالث من سلسلة YOLOv6، التي طورها فريق الرؤية في Meituan. تم إصداره في أوائل عام 2023، وقد تم تصميمه مع التركيز الأساسي على زيادة سرعة الاستدلال إلى أقصى حد للتطبيقات الصناعية، وخاصة على أجهزة GPU.

المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
المستندات:https://docs.ultralytics.com/models/yolov6/

الميزات المعمارية

تستخدم YOLOv6-3.0 تصميم شبكة عصبية واعية بالأجهزة. وهي تستخدم عمودًا فقريًا فعالًا لإعادة المعلمات (RepBackbone) وعنقًا يتكون من كتل هجينة. تم ضبط هذا الهيكل خصيصًا لاستغلال قدرات الحوسبة المتوازية لوحدات معالجة الرسومات، بهدف تقديم أقل زمن انتقال ممكن أثناء الاستدلال مع الحفاظ على دقة تنافسية.

نقاط القوة

  • سرعة استدلال عالية: تم تحسين البنية بشكل كبير لتحقيق إنتاجية عالية، مما يجعلها واحدة من أسرع الخيارات للنشر المستند إلى GPU.
  • المفاضلة بين السرعة والدقة: يوفر توازنًا مقنعًا للأنظمة في الوقت الفعلي حيث تُحتسب المللي ثانية، مثل خطوط الفرز عالية السرعة.
  • التركيز الصناعي: صُمم النموذج لمعالجة التحديات العملية في التصنيع وبيئات الأتمتة.

نقاط الضعف

  • أقل دقة قصوى: على الرغم من السرعة، يتخلف النموذج عمومًا عن YOLOv9 في الدقة القصوى، لا سيما في متغيرات النموذج الأكبر.
  • نظام بيئي محدود: المجتمع والنظام البيئي للأدوات أصغر مقارنة بإطار Ultralytics المعتمد على نطاق واسع.
  • تحديد المهمة: يركز بشكل أساسي على اكتشاف الأجسام ويفتقر إلى التنوع الأصلي متعدد المهام (مثل تقدير الوضع أو OBB) الموجود في نماذج Ultralytics الأحدث.

حالات الاستخدام المثالية

إن YOLOv6-3.0 مناسب تمامًا لبيئات الإنتاجية العالية:

  • المراقبة في الوقت الفعلي: معالجة تدفقات فيديو متعددة في وقت واحد لـ أنظمة إنذار الأمان.
  • فرز خط الإنتاج: تصنيف الأجسام وتحديد موقعها بسرعة على أحزمة النقل سريعة الحركة.

تعرف على المزيد حول YOLOv6-3.0

تحليل الأداء

تسلط المقارنة أدناه الضوء على مقاييس الأداء لكلا النموذجين. في حين أن YOLOv6-3.0 يوفر سرعة رائعة لأصغر متغيراته، إلا أن YOLOv9 يظهر كفاءة فائقة، مما يوفر دقة أعلى مع عدد أقل من المعلمات في الأقواس المماثلة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

النقاط الرئيسية:

  1. ملك الكفاءة: تحقق YOLOv9-C نسبة 53.0% mAP مع 25.3 مليون معلمة فقط. في المقابل، يتطلب YOLOv6-3.0l عدد 59.6 مليون معلمة للوصول إلى mAP أقل بنسبة 52.8%. وهذا يوضح التصميم المعماري الفائق لـ YOLOv9، الذي يفعل "المزيد بالقليل".
  2. أقصى أداء: يضع نموذج YOLOv9-E معيارًا عاليًا بقيمة 55.6% mAP، مما يوفر مستوى من الدقة لا تصل إليه سلسلة YOLOv6 في هذه المقارنة.
  3. السرعة مقابل الدقة: YOLOv6-3.0n سريع بشكل لا يصدق (1.17 مللي ثانية)، مما يجعله خيارًا قابلاً للتطبيق لمتطلبات الكمون المنخفضة للغاية حيث يكون الانخفاض في الدقة (37.5% mAP) مقبولاً. ومع ذلك، بالنسبة للتطبيقات ذات الأغراض العامة، يوفر YOLOv9-T توازنًا أفضل (38.3% mAP عند 2.3 مللي ثانية) مع عدد أقل بكثير من المعلمات (2.0 مليون مقابل 4.7 مليون).

كفاءة الذاكرة

تشتهر نماذج Ultralytics YOLO، بما في ذلك YOLOv9، باستخدامها الأمثل للذاكرة أثناء التدريب. على عكس بعض النماذج الثقيلة القائمة على المحولات التي تتطلب ذاكرة GPU VRAM ضخمة، يمكن غالبًا تدريب هذه النماذج على أجهزة استهلاكية، مما يضفي طابعًا ديمقراطيًا على الوصول إلى أحدث تطورات الذكاء الاصطناعي.

التدريب وسهولة الاستخدام

تختلف تجربة المستخدم اختلافًا كبيرًا بين النموذجين. يوفر YOLOv9، المدمج بالكامل في النظام البيئي لـ Ultralytics، سير عمل مبسطًا. يمكن للمطورين الاستفادة من واجهة Python بسيطة لتدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من التعليمات البرمجية.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("image.jpg")

يوفر هذا التكامل الوصول إلى الميزات المتقدمة مثل ضبط المعلمات الفائقة التلقائي، والتسجيل في الوقت الفعلي باستخدام TensorBoard أو Weights & Biases، والتصدير السلس إلى تنسيقات مثل ONNX و TensorRT.

في المقابل، يتضمن تدريب YOLOv6-3.0 عادةً التنقل في مستودع GitHub الخاص به ونصوص التدريب، مما قد يمثل منحنى تعليميًا أكثر حدة لأولئك الذين اعتادوا على طبيعة التوصيل والتشغيل لمكتبة Ultralytics.

الخلاصة

في حين أن YOLOv6-3.0 لا يزال منافسًا قويًا للمجالات الصناعية المحددة التي تتطلب أقل زمن انتقال مطلق على أجهزة GPU، يظهر YOLOv9 كخيار شامل فائق لمهام رؤية الكمبيوتر الحديثة.

تقدم YOLOv9 مزيجًا رائعًا من الدقة المتطورة والكفاءة الملحوظة للمعلمات والمزايا الهائلة لـ النظام البيئي Ultralytics. إن قدرتها على تحقيق دقة أعلى بنماذج أخف وزنًا تترجم إلى تقليل تكاليف التخزين ونقل أسرع في سيناريوهات النشر على الحافة. علاوة على ذلك، فإن سهولة الاستخدام والوثائق الشاملة ودعم المجتمع النشط المرتبط بنماذج Ultralytics تسرع بشكل كبير دورة حياة التطوير، مما يسمح للفرق بالانتقال من المفهوم إلى النشر بثقة.

بالنسبة للمطورين الباحثين عن الجيل التالي من الأداء، نوصي أيضًا باستكشاف Ultralytics YOLO11، أحدث نموذج لدينا والذي يزيد من تحسين هذه الإمكانات لمجموعة واسعة من المهام بما في ذلك تقدير الوضعية و detect الكائن الموجه. يمكنك أيضًا مقارنة هذه مع الأساليب القائمة على المحولات مثل RT-DETR في مركز مقارنة النماذج الخاص بنا.


تعليقات