PP-YOLOE+ مقابل YOLOv9: مقارنة شاملة بين هياكل الكشف عن الكائنات
يستمر اكتشاف الكائنات في الوقت الفعلي في التطور بسرعة، حيث يعمل الباحثون باستمرار على تخطي حدود الدقة والكمون وكفاءة المعلمات. ومن المعالم الهامة في هذه الرحلة PP-YOLOE+، الذي طوره PaddlePaddle في Baidu، و YOLOv9 الذي ابتكره YOLOv7 الأصليون. تستكشف هذه المقارنة الابتكارات المعمارية ومقاييس الأداء وواقع النشر لهذين النموذجين القويين.
بيانات تعريف النموذج
PP-YOLOE+
المؤلفون: PaddlePaddle
المنظمة: Baidu
التاريخ: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddleDetection Repository
المستندات: PaddleDocs الرسمية
YOLOv9
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينكا، تايوان
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: YOLOv9
المستندات: YOLOv9 Ultralytics YOLOv9
تحليل الأداء
عند مقارنة هذه النماذج، ينظر المطورون عادةً إلى المفاضلة بين mAP (متوسط الدقة) وسرعة الاستدلال. يوضح الجدول أدناه أنه في حين كان PP-YOLOE+ أحدث كاشف بدون مرساة في عام 2022، فإن YOLOv9 2024) يستخدم مبادئ معمارية أحدث لتحقيق كفاءة معلمات فائقة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
ومن النقاط البارزة ما يلي:
- كفاءة المعلمات: يحقق YOLOv9t دقة تنافسية بأقل من نصف معلمات PP-YOLOE+t (2.0 مليون مقابل 4.85 مليون)، مما يجعله أكثر ملاءمة للأجهزة الطرفية ذات الذاكرة المحدودة.
- الدقة على نطاق واسع: بالنسبة للنماذج الأكبر حجماً، يتفوق YOLOv9e على PP-YOLOE+x في mAP 55.6٪ مقابل 54.7٪) مع استخدام معلمات أقل بكثير (57.3 مليون مقابل 98.42 مليون).
- السرعة: YOLOv9 سرعات استدلال تنافسية للغاية على وحدات معالجة الرسومات NVIDIA خاصة بالنسبة للمتغيرات الأصغر حجمًا.
الاختلافات المعمارية
PP-YOLOE+: كشف مُحسَّن بدون نقاط ارتكاز
PP-YOLOE+ هو تطور لـ PP-YOLOv2، ويؤكد على نموذج خالٍ من المراسي. ويستخدم عمودًا فقريًا CSPResNet وعنقًا CSPPAN مبسطًا. وتشمل الميزات الرئيسية ما يلي:
- تعلم مواءمة المهام (TAL): استراتيجية لتعيين التسميات تختار العينات الإيجابية ديناميكيًا بناءً على مزيج من درجات التصنيف والتوطين.
- ET-Head: رأس فعال ومتوافق مع المهام مصمم لتحقيق التوازن بين السرعة والدقة.
- المطابقة الديناميكية: تحسن سرعة التقارب أثناء التدريب مقارنة بتخصيص المرجع الثابت.
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9 تغييرات جوهرية في كيفية تعامل الشبكات العميقة مع تدفق البيانات. وهو يعالج مشكلة "اختناق المعلومات" التي تؤدي إلى فقدان البيانات أثناء مرورها عبر الطبقات العميقة.
- GELAN Architecture: تجمع شبكة التجميع الطبقي الفعالة المعممة بين أفضل ميزات CSPNet و ELAN لتعظيم الاستفادة من المعلمات.
- PGI (معلومات التدرج القابلة للبرمجة): يستخدم هذا المفهوم الجديد فرعًا مساعدًا قابلًا للانعكاس لتوليد تدرجات موثوقة للفرع الرئيسي، مما يضمن احتفاظ الميزات العميقة بالمعلومات الهامة عن الصورة المدخلة.
- الإشراف الإضافي: على غرار التقنيات المستخدمة في نماذج التجزئة، YOLOv9 رؤوسًا إضافية أثناء التدريب لتعزيز الأداء دون التأثير على سرعة الاستدلال (حيث يتم إزالة هذه الرؤوس أثناء النشر).
لماذا تعتبر معلومات التدرج مهمة
في الشبكات العصبية العميقة جدًا، يمكن "نسيان" البيانات المدخلة الأصلية بحلول الوقت الذي تصل فيه الميزات إلى الطبقات النهائية. يضمن PGI YOLOv9 أن يحتفظ النموذج بفهم كامل للكائن، وهو أمر مفيد بشكل خاص للكشف عن الكائنات الصغيرة أو المحجوبة في المشاهد المعقدة.
النظام البيئي وسهولة الاستخدام
يكمن الاختلاف الأكثر أهمية بالنسبة للمطورين في النظام البيئي وسير العمل.
ميزة Ultralytics
YOLOv9 بالكامل في نظام Ultralytics . وهذا يعني أنه يمكنك تدريب النموذج والتحقق من صحته ونشره باستخدام نفس واجهة برمجة التطبيقات البسيطة المستخدمة في YOLO11 و YOLO26.
المزايا الرئيسية:
- واجهة برمجة تطبيقات موحدة: يمكنك التبديل بين المهام مثل اكتشاف الكائنات وتقدير الوضع ببساطة عن طريق تغيير ملف وزن النموذج.
- MLOps الآلي: يتيح التكامل السلس مع Ultralytics التدريب السحابي وإدارة مجموعات البيانات ونشر النماذج بنقرة واحدة.
- كفاءة الذاكرة: حلقات Ultralytics محسّنة للغاية، وغالبًا ما تتطلب ذاكرة VRAM أقل من الأطر المنافسة. وهذه ميزة حاسمة مقارنة بالعديد من النماذج القائمة على المحولات التي تتطلب موارد حوسبة ضخمة.
- تنوع التصدير: دعم أصلي للتصدير إلى ONNXو OpenVINOو CoreML و TensorRT تشغيل نموذجك في أي مكان.
from ultralytics import YOLO
# Load a pretrained YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to TensorRT for maximum GPU speed
model.export(format="engine")
سير عمل PP-YOLOE+
يعتمد PP-YOLOE+ على PaddlePaddle . على الرغم من قوته، إلا أنه يتطلب اعتماد نظام بيئي محدد يختلف عن سير العمل PyTorch والذي يفضله العديد من الباحثين. غالبًا ما يتطلب إعداده استنساخ PaddleDetection مستودع وإدارة ملفات التكوين يدويًا، مما قد يمثل منحنى تعلم أكثر صعوبة مقارنة بـ pip install ultralytics تجربة.
حالات الاستخدام والتوصيات
متى يجب الالتزام بـ PP-YOLOE+
- التكامل القديم: إذا كانت بيئة الإنتاج الخاصة بك مبنية بالفعل على PaddlePaddle من Baidu.
- أجهزة محددة: إذا كنت تقوم بالنشر على أجهزة مزودة بتحسينات متخصصة حصريًا لـ Paddle Lite.
متى تختارYOLO Ultralytics YOLO
بالنسبة للغالبية العظمى من المشاريع الجديدة، YOLOv9 أو YOLO26 الأحدث هما الخياران الموصى بهما.
- البحث والتطوير: YOLOv9 بنية PGI في YOLOv9 بيئة غنية للباحثين الذين يدرسون تدفق التدرج.
- النشر التجاري: تسهل خيارات التصدير القوية في Ultralytics الانتقال من PyTorch إلى تطبيق إنتاج C++ باستخدام TensorRT أو OpenVINO.
- الحوسبة الطرفية: بفضل كفاءة المعلمات الفائقة (mAP FLOP)، تعد Ultralytics مثالية للأجهزة التي تعمل بالبطاريات مثل الطائرات بدون طيار أو الكاميرات الذكية.
نظرة إلى المستقبل: قوة YOLO26
على الرغم من YOLOv9 نموذج ممتاز، YOLOv9 هذا المجال قد تطور أكثر مع إصدار YOLO26. إذا كنت تبدأ مشروعًا جديدًا اليوم، فإن YOLO26 يقدم العديد من المزايا الهامة مقارنة بكل من PP-YOLOE+ و YOLOv9.
يمثل YOLO26 أحدث ما توصلت إليه كفاءة الرؤية الحاسوبية:
- NMS من البداية إلى النهاية: على عكس PP-YOLOE+ و YOLOv9 يتطلبان معالجة لاحقة لـ Non-Maximum Suppression (NMS)، فإن YOLO26 NMS بشكل أساسي. وهذا يقلل من تقلب زمن الاستجابة ويبسط خطوط الإنتاج بشكل كبير.
- مُحسِّن MuSGD: مستوحى من الابتكارات في تدريب LLM (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مُحسِّن MuSGD لتحقيق تقارب أسرع وتشغيل تدريب أكثر استقرارًا.
- كشف محسّن للأجسام الصغيرة: بفضل ProgLoss + STAL، يتفوّق YOLO26 في كشف الأجسام الصغيرة، وهي نقطة ضعف تقليدية في العديد من أجهزة الكشف في الوقت الفعلي.
- CPU : مع إزالة Distribution Focal Loss (DFL) والتحسينات الأخرى، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله الخيار الأول للبيئات التي لا تحتوي على خوادم أو الأجهزة الطرفية التي لا تحتوي على وحدات معالجة خاصة (NPU).
ملخص
YOLOv9 كل من PP-YOLOE+ و YOLOv9 علامتين بارزتين في تاريخ اكتشاف الأجسام. فقد طور PP-YOLOE+ النهج الخالي من المراسي، بينما YOLOv9 مفاهيم الإشراف العميق عبر PGI. ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين الدقة وسهولة الاستخدام والنشر المستقبلي، فإن Ultralytics — بقيادة YOLOv9 و YOLO26الثوري — يوفر الحل الأكثر قوة.
استكشف المزيد
هل أنت مهتم ببنى أخرى؟ اطلع على مقارناتنا لـ RT-DETR (القائمة على المحولات) أو YOLO11 لتجد الأنسب لتطبيقك.