تخطي إلى المحتوى

YOLOv9 مقابل PP-YOLOE+: مقارنة تقنية

يعد اختيار البنية المثلى للكشف عن الأجسام قرارًا محوريًا لمهندسي الرؤية الحاسوبية، حيث يوازن بين الحاجة إلى الدقة العالية والقيود الحسابية. يقارن هذا الدليل الشامل بين YOLOv9وهو نموذج متطور يقدم تقنيات جديدة لمعلومات التدرج، ونموذج PP-YOLOE+، وهو كاشف قوي مُحسَّن لإطار عمل PaddlePaddle . نقوم بتحليل الابتكارات المعمارية والأداء المعياري وملاءمة النشر لمساعدتك في تحديد الأنسب لتطبيقات الرؤية الحاسوبية الخاصة بك.

YOLOv9: معلومات التدرج القابلة للبرمجة لتحسين التعلم

YOLOv9 يمثل قفزة كبيرة في تطور أجهزة الكشف عن الأجسام في الوقت الحقيقي. تم إصداره في أوائل عام 2024، وهو يعالج المشكلات الأساسية المتعلقة بفقدان المعلومات في الشبكات العصبية العميقة، ويضع معايير جديدة للدقة وكفاءة المعلمات.

المؤلفون: تشين-ياو وانغ وهونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية للعلوم بتايوان
التاريخ: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:https://github.com/WongKinYiu/yolov9
التوثيقultralytics

تقدم البنية مفهومين رائدين: معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). عندما تصبح الشبكات أعمق، يمكن أن تضيع البيانات الأساسية لحساب دالة الخسارة - وهي ظاهرة تُعرف باسم عنق الزجاجة المعلوماتي. تعمل PGI على حل هذه المشكلة من خلال توليد تدرجات موثوقة عبر فرع إضافي قابل للعكس، مما يضمن احتفاظ الميزات العميقة بالمعلومات المهمة. وفي الوقت نفسه، يعمل GELAN على تحسين استخدام المعلمات مما يسمح للنموذج بتحقيق دقة فائقة بموارد حسابية أقل مقارنةً بالبنى القائمة على التلافيف القائمة على العمق.

تستفيد YOLOv9 المدمجة في نظامUltralytics من تصميم يركز على المستخدم ويبسط مهام سير العمل المعقدة. يمكن للمطورين الاستفادة من واجهة برمجة تطبيقاتPython API الموحدة للتدريب والتحقق من الصحة والنشر، مما يقلل بشكل كبير من الوقت من النموذج الأولي إلى الإنتاج. يضمن هذا التكامل أيضًا التوافق مع مجموعة كبيرة من مجموعات البيانات وتنسيقات التصدير.

اعرف المزيد عن YOLOv9

PP-YOLOE+: دقة عالية ضمن نظام PaddlePaddle البيئي

PP-YOLOE+ هو نسخة مطوّرة من PP-YOLOE، تم تطويره من قبل Baidu كجزء من مجموعة PaddleDetection. تم تصميمها خصيصًا لتعمل بكفاءة على PaddlePaddle مما يوفر توازنًا قويًا بين السرعة والدقة للتطبيقات الصناعية.

المؤلفون: PaddlePaddle المؤلفون
المنظمة:بايدو
التاريخ: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:PaddlePaddle
التوثيق:PaddlePaddle

يستخدم PP-YOLOE+ آلية خالية من الارتكاز، مما يلغي الحاجة إلى مربعات الارتكاز المحددة مسبقًا والتي تبسط عملية ضبط المعلمة الفائقة. يستخدم عموده الفقري عادةً CSPRepResNet، ويتميز بتصميم رأس فريد من نوعه مدعوم بتعلم محاذاة المهام (TAL). يعمل هذا النهج على مواءمة مهام التصنيف والتوطين لتحسين جودة نتائج الكشف. في حين أن PP-YOLOE+ على الرغم من قدراته العالية، إلا أنه مقترن بإحكام مع نظام PaddlePaddle والذي يمكن أن يمثل منحنى تعليمي للفرق التي تعتمد على PyTorch أو TensorFlow.

تبعية النظام البيئي

بينما يوفر PP-YOLOE+ أداءً تنافسيًا، إلا أن اعتماده على إطار عمل PaddlePaddle قد يحد من قابلية التشغيل البيني مع مجموعة واسعة من الأدوات والمكتبات PyTorch والمستخدمة بشكل شائع في مجتمع البحث الغربي.

تعرف على المزيد حول PP-YOLOE+

تحليل الأداء: السرعة والدقة والكفاءة

عند المقارنة بين هاتين البنيتين YOLOv9 ميزة واضحة في كلٍ من كفاءة المعلمة ودقة الذروة. يسمح تكامل GELAN لـ YOLOv9 بمعالجة البيانات المرئية بشكل أكثر فعالية، مما يؤدي إلى متوسط درجات mAP أعلى على مجموعة بياناتCOCO مع الحفاظ على زمن انتقال أقل في كثير من الأحيان.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

النقاط الرئيسية

  • كفاءة المعلمات: يحقق طراز YOLOv9 أداءً مماثلاً للنماذج الأكبر حجماً مع استخدام 2.0 مليون معلمة فقط، وهو أقل بكثير من متغير PP-YOLOE+t الذي يبلغ 4.85 مليون معلمة. وهذا يجعل YOLOv9 مناسبًا بشكل خاص لأجهزة الذكاء الاصطناعي المتطورة ذات التخزين المحدود.
  • ذروة الدقة: يحققYOLOv9 دقة ملحوظة بنسبة 55.6% mAP متجاوزًا أكبر نموذج PP-YOLOE+x (54.7% mAP) على الرغم من استخدام معلمات أقل بنسبة 40% تقريبًا (57.3 مليون مقابل 98.42 مليون). يسلط هذا الضوء على التفوق المعماري ل GELAN في تعظيم قدرات استخراج الملامح.
  • سرعة الاستدلال: في حين أن PP-YOLOE+s تُظهر تفوقًا طفيفًا في زمن الاستجابة الخام على وحدات معالجة الرسومات T4، فإن نماذج YOLOv9 تقدم عمومًا مفاضلة أفضل، حيث تقدم دقة أعلى بكثير مقابل تكاليف حسابية مماثلة. على سبيل المثال، يتفوق YOLOv9 على PP-YOLOE+l في الدقة (53.0% مقابل 52.9%) بينما يكون أسرع (7.16 مللي ثانية مقابل 8.36 مللي ثانية) وأخف وزنًا.

منهجية التدريب وسهولة الاستخدام

تختلف تجربة المطور اختلافًا كبيرًا بين النموذجين، ويرجع ذلك في المقام الأول إلى أطر العمل الأساسية ودعم النظام البيئي.

ميزة النظام البيئي Ultralytics

اختيار YOLOv9 عبر Ultralytics إمكانية الوصول إلى مجموعة شاملة من الأدوات المصممة لتبسيط دورة حياة التعلم الآلي.

  • واجهة برمجة تطبيقات بسيطة: لا يتطلب تدريب نموذج ما سوى بضعة أسطر من التعليمات البرمجية، مما يؤدي إلى تجريده من القوالب المعقدة.
  • كفاءة الذاكرة: تم تحسين نماذج Ultralytics YOLO لتقليل استخدام الذاكرة أثناء التدريب مقارنةً بالبنى القائمة على المحولات، مما يسمح بأحجام دفعات أكبر على أجهزة من فئة المستهلك.
  • تعدد الاستخدامات: بالإضافة إلى الكشف، يدعم إطار عمل Ultralytics تجزئة النماذج وتقدير الوضعية والتصنيف، مما يوفر واجهة موحدة للمهام المتنوعة.
  • تدريب فعال: من خلال زيادة البيانات المتقدمة والأوزان المتوفرة مسبقًا والمتاحة بسهولة، يمكن للمطورين تحقيق التقارب بشكل أسرع، مما يوفر ساعات عمل GPU القيمة.

انسيابية سير العمل مع Ultralytics

يمكنك تحميل نموذج YOLOv9 وتدريبه والتحقق من صلاحيته ببضعة أسطر من Python والاستفادة من محرك Ultralytics القوي لضبط المعلمة الفائقة وتتبع التجربة تلقائيًا.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

بيئة PaddlePaddle

يتطلب PP-YOLOE+ مكتبة PaddleDetection. وعلى الرغم من قوتها، إلا أنها تتطلب الإلمام بنظام بايدو البيئي. يمكن أن يكون إعداد البيئة، وتحويل مجموعات البيانات إلى التنسيق المطلوب، وتصدير النماذج للنشر أكثر تعقيدًا بالنسبة للمستخدمين غير المدمجين بالفعل في البنية التحتية PaddlePaddle .

حالات الاستخدام المثالية

يساعد فهم نقاط قوة كل نموذج في اختيار الأداة المناسبة لتطبيقات واقعية محددة.

متى تختار YOLOv9

  • الأنظمة ذاتية القيادة: بالنسبة إلى السيارات ذاتية القيادة والروبوتات ذاتية القيادة حيث يكون تعظيم الدقة أمرًا بالغ الأهمية للسلامة، يوفر mAP YOLOv9 المتفوق في YOLOv9 الموثوقية اللازمة.
  • النشر على الحافة: يُعدّ YOLOv9 خفيف الوزن مثاليًا للنشر على أجهزة Raspberry Pi أو NVIDIA Jetson لمهام مثل عدّ الأشخاص أو تحليلات البيع بالتجزئة الذكية.
  • البحث والتطوير: إن النظام البيئي الذي يتم صيانته جيدًا ودعم PyTorch يجعله مثاليًا للباحثين الذين يضعون نماذج أولية لحلول رؤية حاسوبية جديدة أو يدمجون قدرات تتبع الأجسام.
  • البيئات محدودة الموارد: تستفيد التطبيقات التي تتطلب أداءً عاليًا مع وجود ذاكرة وصول عشوائي VRAM محدودة من بنية YOLOv9 الفعالة وبصمة الذاكرة المنخفضة.

متى تختار PP-YOLOE+

  • مستخدموPaddlePaddle : بالنسبة للمؤسسات التي تستخدم بالفعل البنية التحتية لشركة Baidu، يوفر PP-YOLOE+ تكاملاً سلسًا وتحسينًا أصليًا.
  • التفتيش الصناعي (الصين): نظرًا لاعتماده القوي في السوق الآسيوية، فإنه غالبًا ما يوجد في خطوط أنابيب التصنيع التي تعتمد على أجهزة استدلالية محددة من نوع Paddle.

الخلاصة

في حين أن كلا النموذجين متنافسان هائلان في مجال اكتشاف الأجسام, YOLOv9 هو الخيار الأفضل لغالبية المطورين والشركات العالمية. ويوفر استخدامه المبتكر لمعلومات التدرج القابلة للبرمجة (PGI) دقة فائقة مع كفاءة ملحوظة، حيث يتفوق على PP-YOLOE+ في المقاييس الرئيسية مع استخدام عدد أقل بكثير من المعلمات.

وعلاوة على ذلك، يرتقي نظامUltralytics البيئي بـ YOLOv9 من خلال توفير سهولة استخدام لا مثيل لها، وتوثيق واسع النطاق، ومجتمع نابض بالحياة. سواء كنت تقوم ببناء أنظمة إنذار أمنية، أو تحليل الصور الطبية، أو تطوير البنية التحتية للمدينة الذكية، فإن YOLOv9 يوفر لك توازن الأداء والتنوع المطلوب لتحقيق النجاح.

نماذج أخرى يجب أخذها في الاعتبار

إذا كنت تستكشف أحدث ما توصلت إليه تكنولوجيا الذكاء الاصطناعي للرؤية، ففكر في هذه النماذج القوية الأخرى من Ultralytics:

  • YOLO11: أحدث تطور في سلسلة YOLO مما يوفر سرعات أعلى ودقة أعلى للتطبيقات المتطورة.
  • YOLOv8: معيار صناعي متعدد الاستخدامات يدعم مهام الكشف والتجزئة والوضعية ومهام OBB.
  • RT-DETR: كاشف قائم على محول في الوقت الحقيقي يتفوق في الدقة، ويقدم بديلاً للبنى القائمة على شبكة CNN.

تعليقات