YOLOv9: قفزة إلى الأمام في تقنية الكشف عن الأشياء

Q: What innovations does YOLOv9 introduce for real-time object detection?

يقدّم YOLOv9 تقنيات رائدة مثل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تتصدى هذه الابتكارات لتحديات فقدان المعلومات في الشبكات العصبية العميقة، مما يضمن كفاءة ودقة وقدرة عالية على التكيف. تحافظ PGI على البيانات الأساسية عبر طبقات الشبكة، بينما تعمل GELAN على تحسين استخدام المعلمات والكفاءة الحسابية. تعرّف على المزيد حول ابتكارات YOLOv9 الأساسية التي وضعت معايير جديدة على مجموعة بيانات MS COCO.

يمثل YOLOv9 تقدما كبيرا في اكتشاف الكائنات في الوقت الفعلي ، حيث يقدم تقنيات رائدة مثل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). يوضح هذا النموذج تحسينات ملحوظة في الكفاءة والدقة والقدرة على التكيف ، ووضع معايير جديدة على مجموعة بيانات MS COCO. مشروع YOLOv9 ، بينما تم تطويره من قبل فريق منفصل مفتوح المصدر ، يعتمد على قاعدة التعليمات البرمجية القوية التي يوفرها Ultralytics YOLOv5، مما يعرض الروح التعاونية لمجتمع البحث الذكاء الاصطناعي.

شاهد: تدريب YOLOv9 على بيانات مخصصة باستخدام Ultralytics | مجموعة بيانات الحزمة الصناعية

مقارنة أداء YOLOv9

مقدمة إلى YOLOv9

في السعي للكشف الأمثل عن الأشياء في الوقت الفعلي ، تبرز YOLOv9 بنهجها المبتكر للتغلب على تحديات فقدان المعلومات المتأصلة في الشبكات العصبية العميقة. من خلال دمج PGI وبنية GELAN متعددة الاستخدامات ، لا يعزز YOLOv9 قدرة التعلم للنموذج فحسب ، بل يضمن أيضا الاحتفاظ بالمعلومات المهمة طوال عملية الكشف ، وبالتالي تحقيق دقة وأداء استثنائيين.

الابتكارات الأساسية ل YOLOv9

إن تطورات YOLOv9 متجذرة بعمق في مواجهة التحديات التي يفرضها فقدان المعلومات في الشبكات العصبية العميقة. يعد مبدأ اختناق المعلومات والاستخدام المبتكر للوظائف القابلة للانعكاس أمرا أساسيا في تصميمه ، مما يضمن حفاظ YOLOv9 على الكفاءة والدقة العالية.

مبدأ اختناق المعلومات

يكشف مبدأ اختناق المعلومات عن تحد أساسي في التعلم العميق: مع مرور البيانات عبر طبقات متتالية من الشبكة ، تزداد احتمالية فقدان المعلومات. يتم تمثيل هذه الظاهرة رياضيا على النحو التالي:

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

أين I يدل على المعلومات المتبادلة ، و f و g تمثيل وظائف التحويل مع المعلمات theta و phiعلى التوالي. يواجه YOLOv9 هذا التحدي من خلال تطبيق معلومات التدرج القابلة للبرمجة (PGI) ، والتي تساعد في الحفاظ على البيانات الأساسية عبر عمق الشبكة ، مما يضمن توليد تدرج أكثر موثوقية ، وبالتالي تقارب وأداء أفضل للنموذج.

وظائف عكسية

مفهوم الوظائف القابلة للانعكاس هو حجر الزاوية الآخر في تصميم YOLOv9. تعتبر الوظيفة قابلة للعكس إذا كان من الممكن عكسها دون أي فقدان للمعلومات ، كما هو موضح بواسطة:

X = v_zeta(r_psi(X))

مع psi و zeta كمعلمات للانعكاس ووظيفته العكسية ، على التوالي. هذه الخاصية ضرورية لمعماريات التعلم العميق ، لأنها تسمح للشبكة بالاحتفاظ بتدفق كامل للمعلومات ، وبالتالي تمكين تحديثات أكثر دقة لمعلمات النموذج. يدمج YOLOv9 وظائف قابلة للانعكاس في بنيته للتخفيف من مخاطر تدهور المعلومات ، خاصة في الطبقات العميقة ، مما يضمن الحفاظ على البيانات الهامة لمهام الكشف عن الكائنات.

التأثير على الموديلات خفيفة الوزن

تعد معالجة فقدان المعلومات أمرا حيويا بشكل خاص للنماذج خفيفة الوزن ، والتي غالبا ما تكون ذات معلمات أقل وعرضة لفقدان المعلومات المهمة أثناء عملية التغذية الأمامية. تضمن بنية YOLOv9 ، من خلال استخدام PGI والوظائف القابلة للانعكاس ، أنه حتى مع وجود نموذج مبسط ، يتم الاحتفاظ بالمعلومات الأساسية المطلوبة للكشف الدقيق عن الأشياء واستخدامها بفعالية.

معلومات التدرج القابلة للبرمجة (PGI)

PGI هو مفهوم جديد تم تقديمه في YOLOv9 لمكافحة مشكلة اختناق المعلومات ، مما يضمن الحفاظ على البيانات الأساسية عبر طبقات الشبكة العميقة. وهذا يسمح بتوليد تدرجات موثوقة ، مما يسهل تحديثات النموذج الدقيقة وتحسين أداء الكشف العام.

شبكة تجميع الطبقات الفعالة المعممة (GELAN)

يمثل GELAN تقدما معماريا استراتيجيا ، مما يمكن YOLOv9 من تحقيق استخدام معلمات متفوق وكفاءة حسابية. يسمح تصميمه بالتكامل المرن لمختلف الكتل الحسابية ، مما يجعل YOLOv9 قابلا للتكيف مع مجموعة واسعة من التطبيقات دون التضحية بالسرعة أو الدقة.

مقارنة بنية YOLOv9

مقاييس YOLOv9 المعيارية

المقارنة المعيارية في YOLOv9 باستخدام Ultralytics تقييم أداء نموذجك المدرَّب والمصادق عليه في سيناريوهات العالم الحقيقي. تتضمن هذه العملية:

تقييم الأداء: تقييم سرعة النموذج ودقته.
تنسيقات التصدير: اختبار النموذج عبر تنسيقات تصدير مختلفة للتأكد من أنه يفي بالمعايير اللازمة ويعمل بشكل جيد في بيئات مختلفة.
دعم إطار العمل: توفير إطار عمل شامل ضمن Ultralytics YOLOv8 لتسهيل هذه التقييمات وضمان نتائج متسقة وموثوقة.

من خلال قياس الأداء، يمكنك التأكد من أن النموذج الخاص بك لا يؤدي أداءً جيدًا في بيئات الاختبار الخاضعة للرقابة فحسب، بل يحافظ أيضًا على الأداء العالي في التطبيقات العملية الواقعية.

شاهد: كيفية قياس أداء نموذج YOLOv9 باستخدام الحزمة Ultralytics Python

الأداء على مجموعة بيانات MS COCO

يجسد أداء YOLOv9 على مجموعة بيانات COCO تطوراته الكبيرة في اكتشاف الكائنات في الوقت الفعلي ، مما يضع معايير جديدة عبر أحجام النماذج المختلفة. يقدم الجدول 1 مقارنة شاملة لأحدث أجهزة الكشف عن الأجسام في الوقت الفعلي ، مما يوضح كفاءة ودقة YOLOv9 الفائقة.

الجدول 1. مقارنة بين أحدث أجهزة الكشف عن الأشياء في الوقت الفعلي

اداء

الكشف (COCO)التجزئة (COCO)

نموذج	حجم ^(بكسل)	خريطة^فال 50-95	خريطة^فال 50	المعلمات ^(م)	يتخبط ^(ب)
YOLOv9t	640	38.3	53.1	2.0	7.7
يولو v9s	640	46.8	63.4	7.2	26.7
يولو v9 م	640	51.4	68.1	20.1	76.8
YOLOv9c	640	53.0	70.2	25.5	102.8
YOLOv9e	640	55.6	72.8	58.1	192.5

نموذج	حجم ^(بكسل)	خريطة^{تابوت 50-95}	خريطة^{قناع 50-95}	المعلمات ^(م)	يتخبط ^(ب)
YOLOv9c-seg	640	52.4	42.2	27.9	159.4
YOLOv9e-seg	640	55.1	44.3	60.5	248.4

تكرارات YOLOv9 ، تتراوح من الصغيرة t البديل إلى واسعة النطاق e ، إظهار التحسينات ليس فقط في الدقة (مقاييس mAP) ولكن أيضا في الكفاءة مع انخفاض عدد المعلمات والاحتياجات الحسابية (FLOPs). يؤكد هذا الجدول على قدرة YOLOv9 على تقديم دقة عالية مع الحفاظ على النفقات الحسابية أو تقليلها مقارنة بالإصدارات السابقة والنماذج المنافسة.

نسبيا ، يظهر YOLOv9 مكاسب ملحوظة:

نماذج خفيفة الوزن: YOLOv9s يتفوق على YOLO MS-S في كفاءة المعلمات والحمل الحسابي مع تحقيق تحسن بنسبة 0.4-0.6٪ في AP.
النماذج المتوسطة إلى الكبيرة: يظهر YOLOv9m و YOLOv9e تطورات ملحوظة في موازنة المفاضلة بين تعقيد النموذج وأداء الكشف ، مما يوفر تخفيضات كبيرة في المعلمات والحسابات على خلفية الدقة المحسنة.

يسلط نموذج YOLOv9c، على وجه الخصوص، الضوء على فعالية التحسينات التي أدخلتها البنية. فهو يعمل بمعلمات أقل بنسبة 42% ومتطلبات حسابية أقل بنسبة 21% مقارنةً بنموذج YOLOv7 AF، ومع ذلك فهو يحقق دقة مماثلة، مما يدل على التحسينات الكبيرة في كفاءة YOLOv9. وعلاوة على ذلك، يضع نموذج YOLOv9e معيارًا جديدًا للنماذج الكبيرة، حيث يعمل بمعلمات أقل بنسبة 15% واحتياجات حسابية أقل بنسبة 25% من YOLOv8xإلى جانب تحسن إضافي بنسبة 1.7% في معدل الأداء المتقدم.

تعرض هذه النتائج التطورات الاستراتيجية ل YOLOv9 في تصميم النموذج ، مع التركيز على كفاءتها المحسنة دون المساومة على الدقة الأساسية لمهام اكتشاف الأشياء في الوقت الفعلي. لا يدفع النموذج حدود مقاييس الأداء فحسب ، بل يؤكد أيضا على أهمية الكفاءة الحسابية ، مما يجعله تطورا محوريا في مجال رؤية الكمبيوتر.

استنتاج

يمثل YOLOv9 تطورا محوريا في اكتشاف الأشياء في الوقت الفعلي ، حيث يقدم تحسينات كبيرة من حيث الكفاءة والدقة والقدرة على التكيف. من خلال مواجهة التحديات الحرجة من خلال حلول مبتكرة مثل PGI و GELAN ، يضع YOLOv9 سابقة جديدة للبحث والتطبيق المستقبلي في هذا المجال. مع استمرار تطور المجتمع الذكاء الاصطناعي ، يقف YOLOv9 كشهادة على قوة التعاون والابتكار في دفع التقدم التكنولوجي.

أمثلة الاستخدام

يوفر هذا المثال أمثلة بسيطة للتدريب على YOLOv9 والاستدلال. للحصول على وثائق كاملة حول هذه الأوضاع وغيرها ، راجع صفحات مستندات التنبؤ والتدريب وVal والتصدير.

مثل

PythonCLI

PyTorch التدريب المسبق *.pt النماذج وكذلك التكوين *.yaml يمكن تمرير الملفات إلى ملف YOLO() فئة لإنشاء مثيل نموذج في python:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO("yolov9c.yaml")

# Build a YOLOv9c model from pretrained weight
model = YOLO("yolov9c.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

CLI تتوفر الأوامر لتشغيل النماذج مباشرة:

# Build a YOLOv9c model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv9c model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov9c.yaml source=path/to/bus.jpg

المهام والأوضاع المدعومة

تقدم سلسلة YOLOv9 مجموعة من الطرز ، كل منها محسن لاكتشاف الأجسام عالي الأداء. تلبي هذه النماذج الاحتياجات الحسابية المختلفة ومتطلبات الدقة ، مما يجعلها متعددة الاستخدامات لمجموعة واسعة من التطبيقات.

نموذج	اسماء	المهام	استدلال	التحقق	تدريب	تصدير
يولو v9	`yolov9t` `yolov9s` `yolov9m` `yolov9c.pt` `yolov9e.pt`	كشف الكائن	✅	✅	✅	✅
YOLOv9-seg	`yolov9c-seg.pt` `yolov9e-seg.pt`	تجزئة المثيل	✅	✅	✅	✅

يقدم هذا الجدول نظرة عامة مفصلة على متغيرات نموذج YOLOv9 ، مع تسليط الضوء على قدراتها في مهام اكتشاف الكائنات وتوافقها مع أوضاع التشغيل المختلفة مثل الاستدلال والتحقق من الصحة والتدريب والتصدير. يضمن هذا الدعم الشامل أن يتمكن المستخدمون من الاستفادة الكاملة من قدرات نماذج YOLOv9 في مجموعة واسعة من سيناريوهات اكتشاف الكائنات.

ملاحظه

سيتطلب تدريب نماذج YOLOv9 المزيد من الموارد ويستغرق وقتا أطول من الحجم المكافئ YOLOv8 نموذج.

الاستشهادات والشكر

نود أن نعرب عن تقديرنا لمؤلفي YOLOv9 لمساهماتهم الكبيرة في مجال اكتشاف الأشياء في الوقت الفعلي:

بيبتكس

@article{wang2024yolov9,
  title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

يمكن العثور على ورقة YOLOv9 الأصلية على arXiv. جعل المؤلفون أعمالهم متاحة للجمهور ، ويمكن الوصول إلى قاعدة التعليمات البرمجية على GitHub. نحن نقدر جهودهم في النهوض بالمجال وجعل عملهم في متناول المجتمع الأوسع.

الأسئلة المتداولة

ما هي الابتكارات التي يقدمها YOLOv9 لاكتشاف الأجسام في الوقت الفعلي؟

يُقدِّم YOLOv9 تقنيات رائدة مثل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تتصدى هذه الابتكارات لتحديات فقدان المعلومات في الشبكات العصبية العميقة، مما يضمن كفاءة ودقة وقدرة عالية على التكيف. تحافظ PGI على البيانات الأساسية عبر طبقات الشبكة، بينما تعمل GELAN على تحسين استخدام المعلمات والكفاءة الحسابية. تعرّف على المزيد حول ابتكارات YOLOv9 الأساسية التي وضعت معايير جديدة على مجموعة بيانات MS COCO.

كيف يعمل YOLOv9 على مجموعة بيانات MS COCO مقارنةً بالنماذج الأخرى؟

يتفوق YOLOv9 على أحدث أجهزة الكشف عن الأجسام في الوقت الحقيقي من خلال تحقيق دقة وكفاءة أعلى. على مجموعة بيانات COCO، تُظهر نماذج YOLOv9 نتائج متفوقة في كشف الأجسام في مختلف الأحجام مع الحفاظ على النفقات الحسابية أو تقليلها. على سبيل المثال، يحقق YOLOv9c دقة مماثلة مع عدد أقل من المعلمات بنسبة 42% وطلب حسابي أقل بنسبة 21% مقارنةً بـ YOLOv7 AF. استكشف مقارنات الأداء للاطلاع على المقاييس التفصيلية.

كيف يمكنني تدريب نموذج YOLOv9 باستخدام Python و CLI ؟

يمكنك تدريب نموذج YOLOv9 باستخدام الأمرين Python و CLI . بالنسبة إلى Python ، قم بإنشاء نموذج باستخدام الأمرين YOLO واستدعاء فئة train الطريقة:

from ultralytics import YOLO

# Build a YOLOv9c model from pretrained weights and train
model = YOLO("yolov9c.pt")
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

للتدريب على CLI ، نفذ:

yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

تعرف على المزيد حول أمثلة الاستخدام للتدريب والاستدلال.

ما هي مزايا استخدام Ultralytics YOLOv9 للموديلات خفيفة الوزن؟

صُمم YOLOv9 للتخفيف من فقدان المعلومات، وهو أمر مهم بشكل خاص للنماذج خفيفة الوزن التي غالبًا ما تكون عرضة لفقدان معلومات مهمة. من خلال دمج معلومات التدرج القابلة للبرمجة (PGI) والوظائف القابلة للانعكاس، يضمن YOLOv9 الاحتفاظ بالبيانات الأساسية، مما يعزز دقة النموذج وكفاءته. وهذا يجعله مناسبًا للغاية للتطبيقات التي تتطلب نماذج مدمجة ذات أداء عالٍ. لمزيد من التفاصيل، استكشف القسم الخاص بتأثير YOLOv9 على النماذج خفيفة الوزن.

ما المهام والأوضاع التي يدعمها YOLOv9؟

يدعم YOLOv9 العديد من المهام بما في ذلك اكتشاف الكائنات وتجزئة المثيل. وهو متوافق مع أوضاع تشغيلية متعددة مثل الاستدلال والتحقق من الصحة والتدريب والتصدير. هذا التنوع يجعل YOLOv9 قابلاً للتكيف مع تطبيقات الرؤية الحاسوبية المتنوعة في الوقت الحقيقي. راجع قسم المهام والأوضاع المدعومة لمزيد من المعلومات.

تم الإنشاء 2024-02-26، تم التحديث 2024-07-20
المؤلفون: RizwanMunawar (2)، glenn-jocher (9)، ambitious-octopus (1)، Burhan-Q (3)، Laughing-q (2)