YOLOv9 PP-YOLOE+: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام

يستمر مجال الكشف عن الأجسام في الوقت الفعلي في التقدم بسرعة، مما يوفر لمهندسي الرؤية الحاسوبية مجموعة واسعة من الخيارات لنشر نماذج عالية الدقة على البنية التحتية السحابية والمتطورة. وهناك نموذجان بارزان في هذا المجال هما YOLOv9 و PP-YOLOE+. ورغم أن كلا النموذجين يوسعان حدود الدقة والسرعة، إلا أنهما ينتميان إلى سلالات بحثية ونظم بيئية برمجية مختلفة.

تستكشف هذه المقارنة التقنية الشاملة هياكلها ومنهجيات التدريب ومقاييس الأداء والتطبيقات المثالية في العالم الواقعي. سنستكشف أيضًا كيف يوفر Ultralytics الأوسع نطاقًا مزايا كبيرة للمطورين الذين يولون الأولوية لسهولة الاستخدام وكفاءة الذاكرة والتنفيذ المتعدد الاستخدامات.

أصول النموذج والمواصفات الفنية

فهم خلفية هذه النماذج يساعد على وضع قراراتها المعمارية وتبعيات إطار عملها في سياقها الصحيح.

YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي

تم طرح YOLOv9 في أوائل عام 2024، YOLOv9 مشكلة فقدان البيانات التي تحدث أثناء تدفق المعلومات عبر الشبكات العصبية العميقة. وهو عبارة عن شبكة عصبية تلافيفية عالية التحسين مصممة لتعظيم كفاءة المعلمات.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 21 فبراير 2024
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
الوثائق:وثائق Ultralytics YOLOv9

تعرف على المزيد حول YOLOv9

PP-YOLOE+: تطوير نظام التجديف

أصدرت Baidu في عام 2022 PP-YOLOE+، وهو تحسين تكراري على PP-YOLOv2. يستخدم نموذجًا خاليًا من المراسي ويقدم استراتيجية تخصيص علامات ديناميكية لتحسين التقارب والدقة ضمن PaddlePaddle .

المؤلفون: مؤلفو PaddlePaddle
المنظمة: بايدو
التاريخ: 2 أبريل 2022
Arxiv:2203.16250
GitHub:PaddleDetection
الوثائق:إعدادات PP-YOLOE+

تعرف على المزيد حول PP-YOLOE+

مقارنة معمارية

معلومات التدرج القابلة للبرمجة مقابل CSPRepResStage

الابتكار الأساسي في YOLOv9 معلومات التدرج القابلة للبرمجة (PGI). تعمل PGI كإطار عمل إشرافي إضافي، مما يضمن الحفاظ على معلومات التدرج الحيوية ونقلها بدقة إلى الطبقات السطحية أثناء التدريب. ويقترن ذلك بشبكة تجميع الطبقات الفعالة المعممة (GELAN)، التي تجمع بين نقاط قوة CSPNet و ELAN لتوفير دقة عالية مع تقليل التكلفة الحسابية (FLOPs) بشكل كبير.

يعتمد PP-YOLOE+ على شبكة أساسية متخصصة تسمى CSPRepResStageتستفيد من تقنيات إعادة المعايرة (مماثلة لتلك الموجودة في RepVGG) لتسريع الاستدلال عن طريق دمج الطبقات التلافيفية أثناء النشر. علاوة على ذلك، تستخدم رأس المحاذاة الفعالة للمهام (ET-head) لموازنة مهام التصنيف والانحدار.

في حين أن PP-YOLOE+ قوي، فإن بنية GELAN YOLOv9 تتطلب عادةً مساحة ذاكرة أصغر أثناء التدريب والاستدلال، مما يجعلها مناسبة بشكل استثنائي لأجهزة الذكاء الاصطناعي المتطورة.

مقارنة الأداء

عند تقييم نماذج الإنتاج، فإن المفاضلة بين mAP متوسط الدقة) وسرعة الاستدلال وحجم النموذج أمر بالغ الأهمية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

تحليل

كفاءة المعلمات: يحقق YOLOv9 كفاءة أعلى بشكل ملحوظ. على سبيل المثال، يصل YOLOv9c إلى mAP بنسبة 53.0% باستخدام 25.3 مليون معلمة فقط، بينما يتطلب PP-YOLOE+l أكثر من ضعف المعلمات (52.2 مليون) لتحقيق mAP أقل قليلاً بنسبة 52.9%. وهذا يقلل بشكل كبير من متطلبات الذاكرة لـ YOLOv9.
سرعة الاستدلال: تُظهر نماذج YOLOv9 تحسينًا ممتازًا لمسرعات الأجهزة مثل TensorRT، مما ينتج عنه سرعات استدلال تنافسية على وحدات معالجة الرسوميات NVIDIA T4 التي تعد حاسمة للاستدلال في الوقت الفعلي.

منهجيات التدريب والنظام البيئي

غالبًا ما يعتمد الاختيار بين هذه النماذج على نظام البرمجيات.

PP-YOLOE+ وPaddlePaddle

PP-YOLOE+ مرتبط ارتباطًا وثيقًا بمجموعة PaddleDetection. على الرغم من قوته، إلا أنه يتطلب من المستخدمين التنقل في بيئة ثقيلة التكوين وتعتمد على سطر الأوامر. بالنسبة للفرق المرتبطة ارتباطًا وثيقًا بـ PyTorch أو TensorFlow ، فإن الانتقال إلى PaddlePaddle صعوبات كبيرة ويستلزم تعلمًا أطول.

Ultralytics : سير عمل مبسط

في المقابل، YOLOv9 ضمن Ultralytics المتطور للغاية. صُمم Ultralytics للمطورين والباحثين، Ultralytics لسهولة الاستخدام الاستثنائية. تعمل Python على إزالة الرموز النمطية المعقدة تمامًا.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

يبرز سير العمل هذا الكفاءة التدريبية الفائقة Ultralytics . دعم أصلي لتعزيز البيانات والتدريب الموزع والتسجيل التلقائي على منصات مثل Weights & Biases أو MLflow يأتي بشكل قياسي.

اكتشف أحدث ما توصلت إليه تقنية الذكاء الاصطناعي في مجال الرؤية

على الرغم من أن YOLOv9 أداءً استثنائيًا، فإننا نوصي بشدة بالنظر في الإصدار الجديد Ultralytics للمشاريع الجديدة. يتميز YOLO26 بتصميم أصلي شامل NMS، مما يبسط عملية النشر بشكل كبير. بفضل إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة المتطورة/منخفضة الطاقة)، فإنه يوفر CPU أسرع بنسبة تصل إلى 43٪ CPU للحوسبة المتطورة. مدعومًا بمحسن MuSGD، فإنه يضمن تدريبًا مستقرًا وتقاربًا سريعًا. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

التنوع ودعم المهام

نادراً ما تقتصر مشاريع الرؤية الحاسوبية الحديثة على مجرد مربعات الحدود البسيطة.

تم تصميم PP-YOLOE+ في المقام الأول للكشف عن الأجسام القياسية. ويتطلب تكييف بنيته الهندسية لمهام أخرى هندسة مخصصة واسعة النطاق.

على العكس من ذلك، يعد إطار عمل Ultralytics قوة متعددة المهام. باستخدام واجهة برمجة تطبيقات موحدة، يمكن للمطورين التبديل بسهولة من اكتشاف الكائنات القياسي إلى تجزئة الكائنات (Instance Segmentation) المعقدة، وتقدير الوضعيات (Pose Estimation) عالي الدقة، واكتشاف الصناديق المحيطة الموجهة (OBB) للصور الجوية، وتصنيف الصور (Image Classification). هذه المرونة التي لا مثيل لها هي السبب وراء اختيار فرق الشركات باستمرار لنماذج Ultralytics مثل YOLOv9 وYOLO11 وYOLO26.

حالات الاستخدام والتطبيقات المثالية

تحليلات المدن الذكية وإدارة حركة المرور: إن كفاءة المعلمات العالية وزمن الانتقال المنخفض لـ YOLOv9 (وYOLO26 اللاحق) تجعلها مثالية للنشر على أجهزة الحافة ذات الموارد المحدودة (مثل أجهزة NVIDIA Jetson) لمراقبة تدفق حركة المرور والأمن الحضري.
أنظمة مخزون التجزئة: لاكتشاف التكوينات الكثيفة للعناصر الصغيرة على الأرفف، تحافظ PGI في YOLOv9 بفعالية على التفاصيل المكانية الدقيقة، متفوقة على PP-YOLOE+ في مهام اكتشاف الكائنات الصغيرة.
عمليات النشر القديمة:PP-YOLOE+ يظل خيارًا قابلاً للتطبيق حصريًا للفرق المكلفة صراحةً باستخدام حزمة برامج Baidu/PaddlePaddle في البنية التحتية القديمة الحالية.

بالنسبة للباحثين الذين يستكشفون البنى القائمة على Transformer، تدعم Ultralytics بشكل أصلي RT-DETR ضمن نفس واجهة برمجة التطبيقات (API) سهلة الاستخدام، مما يضمن لك الوصول دائمًا إلى النموذج الأمثل لمتطلبات النشر الخاصة بك.