انتقل إلى المحتوى

YOLOv9: قفزة إلى الأمام في تقنية الكشف عن الأشياء

يمثل YOLOv9 تقدما كبيرا في اكتشاف الكائنات في الوقت الفعلي ، حيث يقدم تقنيات رائدة مثل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). يوضح هذا النموذج تحسينات ملحوظة في الكفاءة والدقة والقدرة على التكيف ، ووضع معايير جديدة على مجموعة بيانات MS COCO. مشروع YOLOv9 ، بينما تم تطويره من قبل فريق منفصل مفتوح المصدر ، يعتمد على قاعدة التعليمات البرمجية القوية التي يوفرها Ultralytics YOLOv5، مما يعرض الروح التعاونية لمجتمع البحث الذكاء الاصطناعي.



شاهد: تدريب YOLOv9 على بيانات مخصصة باستخدام Ultralytics | مجموعة بيانات الحزمة الصناعية

مقارنة أداء YOLOv9

مقدمة إلى YOLOv9

في السعي للكشف الأمثل عن الأشياء في الوقت الفعلي ، تبرز YOLOv9 بنهجها المبتكر للتغلب على تحديات فقدان المعلومات المتأصلة في الشبكات العصبية العميقة. من خلال دمج PGI وبنية GELAN متعددة الاستخدامات ، لا يعزز YOLOv9 قدرة التعلم للنموذج فحسب ، بل يضمن أيضا الاحتفاظ بالمعلومات المهمة طوال عملية الكشف ، وبالتالي تحقيق دقة وأداء استثنائيين.

الابتكارات الأساسية ل YOLOv9

إن تطورات YOLOv9 متجذرة بعمق في مواجهة التحديات التي يفرضها فقدان المعلومات في الشبكات العصبية العميقة. يعد مبدأ اختناق المعلومات والاستخدام المبتكر للوظائف القابلة للانعكاس أمرا أساسيا في تصميمه ، مما يضمن حفاظ YOLOv9 على الكفاءة والدقة العالية.

مبدأ اختناق المعلومات

يكشف مبدأ اختناق المعلومات عن تحد أساسي في التعلم العميق: مع مرور البيانات عبر طبقات متتالية من الشبكة ، تزداد احتمالية فقدان المعلومات. يتم تمثيل هذه الظاهرة رياضيا على النحو التالي:

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

أين I يدل على المعلومات المتبادلة ، و f و g تمثيل وظائف التحويل مع المعلمات theta و phiعلى التوالي. يواجه YOLOv9 هذا التحدي من خلال تطبيق معلومات التدرج القابلة للبرمجة (PGI) ، والتي تساعد في الحفاظ على البيانات الأساسية عبر عمق الشبكة ، مما يضمن توليد تدرج أكثر موثوقية ، وبالتالي تقارب وأداء أفضل للنموذج.

وظائف عكسية

مفهوم الوظائف القابلة للانعكاس هو حجر الزاوية الآخر في تصميم YOLOv9. تعتبر الوظيفة قابلة للعكس إذا كان من الممكن عكسها دون أي فقدان للمعلومات ، كما هو موضح بواسطة:

X = v_zeta(r_psi(X))

مع psi و zeta كمعلمات للانعكاس ووظيفته العكسية ، على التوالي. هذه الخاصية ضرورية لمعماريات التعلم العميق ، لأنها تسمح للشبكة بالاحتفاظ بتدفق كامل للمعلومات ، وبالتالي تمكين تحديثات أكثر دقة لمعلمات النموذج. يدمج YOLOv9 وظائف قابلة للانعكاس في بنيته للتخفيف من مخاطر تدهور المعلومات ، خاصة في الطبقات العميقة ، مما يضمن الحفاظ على البيانات الهامة لمهام الكشف عن الكائنات.

التأثير على الموديلات خفيفة الوزن

تعد معالجة فقدان المعلومات أمرا حيويا بشكل خاص للنماذج خفيفة الوزن ، والتي غالبا ما تكون ذات معلمات أقل وعرضة لفقدان المعلومات المهمة أثناء عملية التغذية الأمامية. تضمن بنية YOLOv9 ، من خلال استخدام PGI والوظائف القابلة للانعكاس ، أنه حتى مع وجود نموذج مبسط ، يتم الاحتفاظ بالمعلومات الأساسية المطلوبة للكشف الدقيق عن الأشياء واستخدامها بفعالية.

معلومات التدرج القابلة للبرمجة (PGI)

PGI هو مفهوم جديد تم تقديمه في YOLOv9 لمكافحة مشكلة اختناق المعلومات ، مما يضمن الحفاظ على البيانات الأساسية عبر طبقات الشبكة العميقة. وهذا يسمح بتوليد تدرجات موثوقة ، مما يسهل تحديثات النموذج الدقيقة وتحسين أداء الكشف العام.

شبكة تجميع الطبقات الفعالة المعممة (GELAN)

يمثل GELAN تقدما معماريا استراتيجيا ، مما يمكن YOLOv9 من تحقيق استخدام معلمات متفوق وكفاءة حسابية. يسمح تصميمه بالتكامل المرن لمختلف الكتل الحسابية ، مما يجعل YOLOv9 قابلا للتكيف مع مجموعة واسعة من التطبيقات دون التضحية بالسرعة أو الدقة.

مقارنة بنية YOLOv9

الأداء على مجموعة بيانات MS COCO

يجسد أداء YOLOv9 على مجموعة بيانات COCO تطوراته الكبيرة في اكتشاف الكائنات في الوقت الفعلي ، مما يضع معايير جديدة عبر أحجام النماذج المختلفة. يقدم الجدول 1 مقارنة شاملة لأحدث أجهزة الكشف عن الأجسام في الوقت الفعلي ، مما يوضح كفاءة ودقة YOLOv9 الفائقة.

الجدول 1. مقارنة بين أحدث أجهزة الكشف عن الأشياء في الوقت الفعلي

متى ستتوفر موازين النماذج الأخرى؟

على الرغم من جميع المقاييس الموضحة لمقاييس النماذج المختلفة في الجدول أدناه ، فقط تكوينات YOLOv9c و YOLOv9e تم نشرها. ال Ultralytics سيعمل الفريق بسرعة لإضافة تكوينات أخرى عند توفرها ، لذا تأكد من التحقق مرة أخرى هنا بانتظام للحصول على التحديثات.

اداء

نموذج حجم
(بكسل)
خريطةفال
50-95
خريطةفال
50
المعلمات
(م)
يتخبط
(ب)
YOLOv9t 640 38.3 53.1 2.0 7.7
يولو v9s 640 46.8 63.4 7.2 26.7
يولو v9 م 640 51.4 68.1 20.1 76.8
YOLOv9c 640 53.0 70.2 25.5 102.8
YOLOv9e 640 55.6 72.8 58.1 192.5
نموذج حجم
(بكسل)
خريطةتابوت
50-95
خريطةقناع
50-95
المعلمات
(م)
يتخبط
(ب)
YOLOv9c-seg 640 52.4 42.2 27.9 159.4
YOLOv9e-seg 640 55.1 44.3 60.5 248.4

تكرارات YOLOv9 ، تتراوح من الصغيرة t البديل إلى واسعة النطاق e ، إظهار التحسينات ليس فقط في الدقة (مقاييس mAP) ولكن أيضا في الكفاءة مع انخفاض عدد المعلمات والاحتياجات الحسابية (FLOPs). يؤكد هذا الجدول على قدرة YOLOv9 على تقديم دقة عالية مع الحفاظ على النفقات الحسابية أو تقليلها مقارنة بالإصدارات السابقة والنماذج المنافسة.

نسبيا ، يظهر YOLOv9 مكاسب ملحوظة:

  • نماذج خفيفة الوزن: YOLOv9s يتفوق على YOLO MS-S في كفاءة المعلمات والحمل الحسابي مع تحقيق تحسن بنسبة 0.4-0.6٪ في AP.
  • النماذج المتوسطة إلى الكبيرة: يظهر YOLOv9m و YOLOv9e تطورات ملحوظة في موازنة المفاضلة بين تعقيد النموذج وأداء الكشف ، مما يوفر تخفيضات كبيرة في المعلمات والحسابات على خلفية الدقة المحسنة.

يسلط نموذج YOLOv9c ، على وجه الخصوص ، الضوء على فعالية تحسينات البنية. إنه يعمل بمعلمات أقل بنسبة 42٪ وطلب حسابي أقل بنسبة 21٪ من YOLOv7 AF ، ومع ذلك فهو يحقق دقة مماثلة ، مما يدل على تحسينات الكفاءة الكبيرة في YOLOv9. علاوة على ذلك ، يضع نموذج YOLOv9e معيارا جديدا للطرز الكبيرة ، مع معلمات أقل بنسبة 15٪ وحاجة حسابية أقل بنسبة 25٪ من YOLOv8x، إلى جانب تحسن تدريجي بنسبة 1.7٪ في AP.

تعرض هذه النتائج التطورات الاستراتيجية ل YOLOv9 في تصميم النموذج ، مع التركيز على كفاءتها المحسنة دون المساومة على الدقة الأساسية لمهام اكتشاف الأشياء في الوقت الفعلي. لا يدفع النموذج حدود مقاييس الأداء فحسب ، بل يؤكد أيضا على أهمية الكفاءة الحسابية ، مما يجعله تطورا محوريا في مجال رؤية الكمبيوتر.

استنتاج

يمثل YOLOv9 تطورا محوريا في اكتشاف الأشياء في الوقت الفعلي ، حيث يقدم تحسينات كبيرة من حيث الكفاءة والدقة والقدرة على التكيف. من خلال مواجهة التحديات الحرجة من خلال حلول مبتكرة مثل PGI و GELAN ، يضع YOLOv9 سابقة جديدة للبحث والتطبيق المستقبلي في هذا المجال. مع استمرار تطور المجتمع الذكاء الاصطناعي ، يقف YOLOv9 كشهادة على قوة التعاون والابتكار في دفع التقدم التكنولوجي.

أمثلة الاستخدام

يوفر هذا المثال أمثلة بسيطة للتدريب على YOLOv9 والاستدلال. للحصول على وثائق كاملة حول هذه الأوضاع وغيرها ، راجع صفحات مستندات التنبؤ والتدريب وVal والتصدير.

مثل

PyTorch التدريب المسبق *.pt النماذج وكذلك التكوين *.yaml يمكن تمرير الملفات إلى ملف YOLO() فئة لإنشاء مثيل نموذج في python:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO("yolov9c.yaml")

# Build a YOLOv9c model from pretrained weight
model = YOLO("yolov9c.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

CLI تتوفر الأوامر لتشغيل النماذج مباشرة:

# Build a YOLOv9c model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv9c model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov9c.yaml source=path/to/bus.jpg

المهام والأوضاع المدعومة

تقدم سلسلة YOLOv9 مجموعة من الطرز ، كل منها محسن لاكتشاف الأجسام عالي الأداء. تلبي هذه النماذج الاحتياجات الحسابية المختلفة ومتطلبات الدقة ، مما يجعلها متعددة الاستخدامات لمجموعة واسعة من التطبيقات.

نموذج اسماء المهام استدلال التحقق تدريب تصدير
يولو v9 yolov9c.pt yolov9e.pt كشف الكائن
YOLOv9-seg yolov9c-seg.pt yolov9e-seg.pt تجزئة المثيل

يقدم هذا الجدول نظرة عامة مفصلة على متغيرات نموذج YOLOv9 ، مع تسليط الضوء على قدراتها في مهام اكتشاف الكائنات وتوافقها مع أوضاع التشغيل المختلفة مثل الاستدلال والتحقق من الصحة والتدريب والتصدير. يضمن هذا الدعم الشامل أن يتمكن المستخدمون من الاستفادة الكاملة من قدرات نماذج YOLOv9 في مجموعة واسعة من سيناريوهات اكتشاف الكائنات.

ملاحظه

سيتطلب تدريب نماذج YOLOv9 المزيد من الموارد ويستغرق وقتا أطول من الحجم المكافئ YOLOv8 نموذج.

الاستشهادات والشكر

نود أن نعرب عن تقديرنا لمؤلفي YOLOv9 لمساهماتهم الكبيرة في مجال اكتشاف الأشياء في الوقت الفعلي:

@article{wang2024yolov9,
  title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

يمكن العثور على ورقة YOLOv9 الأصلية على arXiv. جعل المؤلفون أعمالهم متاحة للجمهور ، ويمكن الوصول إلى قاعدة التعليمات البرمجية على GitHub. نحن نقدر جهودهم في النهوض بالمجال وجعل عملهم في متناول المجتمع الأوسع.



تم الإنشاء 2024-02-26، تم التحديث 2024-05-22
المؤلفون: RizwanMunawar (1)، Glenn-jocher (5)، Burhan-Q (2)، Laughing-q (1)

التعليقات