تخطي إلى المحتوى

YOLOv9 PP-YOLOE+: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام

يستمر مجال الكشف عن الأجسام في الوقت الفعلي في التقدم بسرعة، مما يوفر لمهندسي الرؤية الحاسوبية مجموعة واسعة من الخيارات لنشر نماذج عالية الدقة على البنية التحتية السحابية والمتطورة. وهناك نموذجان بارزان في هذا المجال هما YOLOv9 و PP-YOLOE+. ورغم أن كلا النموذجين يوسعان حدود الدقة والسرعة، إلا أنهما ينتميان إلى سلالات بحثية ونظم بيئية برمجية مختلفة.

تستكشف هذه المقارنة التقنية الشاملة هياكلها ومنهجيات التدريب ومقاييس الأداء والتطبيقات المثالية في العالم الواقعي. سنستكشف أيضًا كيف يوفر Ultralytics الأوسع نطاقًا مزايا كبيرة للمطورين الذين يولون الأولوية لسهولة الاستخدام وكفاءة الذاكرة والتنفيذ المتعدد الاستخدامات.

أصول النموذج والمواصفات الفنية

فهم خلفية هذه النماذج يساعد على وضع قراراتها المعمارية وتبعيات إطار عملها في سياقها الصحيح.

YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي

تم طرح YOLOv9 في أوائل عام 2024، YOLOv9 مشكلة فقدان البيانات التي تحدث أثناء تدفق المعلومات عبر الشبكات العصبية العميقة. وهو عبارة عن شبكة عصبية تلافيفية عالية التحسين مصممة لتعظيم كفاءة المعلمات.

تعرف على المزيد حول YOLOv9

PP-YOLOE+: تطوير نظام التجديف

أصدرت Baidu في عام 2022 PP-YOLOE+، وهو تحسين تكراري على PP-YOLOv2. يستخدم نموذجًا خاليًا من المراسي ويقدم استراتيجية تخصيص علامات ديناميكية لتحسين التقارب والدقة ضمن PaddlePaddle .

تعرف على المزيد حول PP-YOLOE+

مقارنة معمارية

معلومات التدرج القابلة للبرمجة مقابل CSPRepResStage

الابتكار الأساسي في YOLOv9 معلومات التدرج القابلة للبرمجة (PGI). تعمل PGI كإطار عمل إشرافي إضافي، مما يضمن الحفاظ على معلومات التدرج الحيوية ونقلها بدقة إلى الطبقات السطحية أثناء التدريب. ويقترن ذلك بشبكة تجميع الطبقات الفعالة المعممة (GELAN)، التي تجمع بين نقاط قوة CSPNet و ELAN لتوفير دقة عالية مع تقليل التكلفة الحسابية (FLOPs) بشكل كبير.

يعتمد PP-YOLOE+ على شبكة أساسية متخصصة تسمى CSPRepResStage. وهي تستفيد من تقنيات إعادة المعلمات (مماثلة لتلك الموجودة في RepVGG) لتسريع الاستدلال من خلال دمج الطبقات التلافيفية أثناء النشر. علاوة على ذلك، تستخدم الرأس المتوافق مع المهام الفعالة (ET-head) لتحقيق التوازن بين مهام التصنيف والانحدار.

في حين أن PP-YOLOE+ قوي، فإن بنية GELAN YOLOv9 تتطلب عادةً مساحة ذاكرة أصغر أثناء التدريب والاستدلال، مما يجعلها مناسبة بشكل استثنائي لأجهزة الذكاء الاصطناعي المتطورة.

مقارنة الأداء

عند تقييم نماذج الإنتاج، فإن المفاضلة بين mAP متوسط الدقة) وسرعة الاستدلال وحجم النموذج أمر بالغ الأهمية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

تحليل

  • كفاءة المعلمات: YOLOv9 كفاءة أعلى بشكل ملحوظ. على سبيل المثال، يصل YOLOv9c mAP 53.0٪ باستخدام 25.3 مليون معلمة فقط، بينما يتطلب PP-YOLOE+l أكثر من ضعف المعلمات (52.2 مليون) لتحقيق mAP أقل قليلاً mAP 52.9٪. وهذا يقلل بشكل كبير من متطلبات الذاكرة لـ YOLOv9.
  • سرعة الاستدلال: تُظهر YOLOv9 تحسينًا ممتازًا لمُسرعات الأجهزة مثل TensorRT، مما يوفر سرعات استدلال تنافسية على وحدات معالجة الرسومات NVIDIA التي تعتبر ضرورية للاستدلال في الوقت الفعلي.

منهجيات التدريب والنظام البيئي

غالبًا ما يعتمد الاختيار بين هذه النماذج على نظام البرمجيات.

PP-YOLOE+ وPaddlePaddle

PP-YOLOE+ مرتبط ارتباطًا وثيقًا بمجموعة PaddleDetection. على الرغم من قوته، إلا أنه يتطلب من المستخدمين التنقل في بيئة ثقيلة التكوين وتعتمد على سطر الأوامر. بالنسبة للفرق المرتبطة ارتباطًا وثيقًا بـ PyTorch أو TensorFlow ، فإن الانتقال إلى PaddlePaddle صعوبات كبيرة ويستلزم تعلمًا أطول.

Ultralytics : سير عمل مبسط

في المقابل، YOLOv9 ضمن Ultralytics المتطور للغاية. صُمم Ultralytics للمطورين والباحثين، Ultralytics لسهولة الاستخدام الاستثنائية. تعمل Python على إزالة الرموز النمطية المعقدة تمامًا.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

يبرز سير العمل هذا الكفاءة التدريبية الفائقة Ultralytics . دعم أصلي لتعزيز البيانات والتدريب الموزع والتسجيل التلقائي على منصات مثل Weights & Biases أو MLflow يأتي بشكل قياسي.

اكتشف أحدث ما توصلت إليه تقنية الذكاء الاصطناعي في مجال الرؤية

على الرغم من أن YOLOv9 أداءً استثنائيًا، فإننا نوصي بشدة بالنظر في الإصدار الجديد Ultralytics للمشاريع الجديدة. يتميز YOLO26 بتصميم أصلي شامل NMS، مما يبسط عملية النشر بشكل كبير. بفضل إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة المتطورة/منخفضة الطاقة)، فإنه يوفر CPU أسرع بنسبة تصل إلى 43٪ CPU للحوسبة المتطورة. مدعومًا بمحسن MuSGD، فإنه يضمن تدريبًا مستقرًا وتقاربًا سريعًا. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

التنوع ودعم المهام

نادراً ما تقتصر مشاريع الرؤية الحاسوبية الحديثة على مجرد مربعات الحدود البسيطة.

تم تصميم PP-YOLOE+ في المقام الأول للكشف عن الأجسام القياسية. ويتطلب تكييف بنيته الهندسية لمهام أخرى هندسة مخصصة واسعة النطاق.

على العكس من ذلك، فإن Ultralytics هو محرك متعدد المهام. من خلال استخدام واجهة برمجة تطبيقات موحدة، يمكن للمطورين التبديل بسهولة من الكشف القياسي عن الكائنات إلى التجزئة المعقدة للمثيلات، وتقدير الوضع بدقة عالية، والكشف عن الصناديق المحددة الموجهة (OBB) للصور الجوية، وتصنيف الصور. هذه التنوعية التي لا مثيل لها هي السبب في أن فرق المؤسسات تختار باستمرار Ultralytics مثل YOLOv9 و YOLO11و YOLO26.

حالات الاستخدام والتطبيقات المثالية

  • تحليلات المدن الذكية وإدارة حركة المرور: كفاءة المعلمات العالية والكمون المنخفض لـ YOLOv9 (و YOLO26 اللاحق) تجعلهما مثاليين للنشر على أجهزة حافة محدودة (مثل أجهزة NVIDIA ) لمراقبة تدفق حركة المرور والأمن الحضري.
  • أنظمة جرد البيع بالتجزئة: للكشف عن التكوينات الكثيفة للأغراض الصغيرة على الرفوف، يحافظ PGI YOLOv9 بشكل فعال على التفاصيل المكانية الدقيقة، متفوقًا على PP-YOLOE+ في مهام الكشف عن الأغراض الصغيرة.
  • عمليات النشر القديمة: يظلPP-YOLOE+ خيارًا قابلاً للتطبيق بشكل صارم للفرق المكلفة صراحةً باستخدام حزمةPaddlePaddle في البنية التحتية القديمة الحالية.

بالنسبة للباحثين الذين يستكشفون البنى القائمة على Transformer، تدعم Ultralytics بشكل أصلي RT-DETR ضمن نفس واجهة برمجة التطبيقات (API) سهلة الاستخدام، مما يضمن لك الوصول دائمًا إلى النموذج الأمثل لمتطلبات النشر الخاصة بك.


تعليقات