YOLOv9 PP-YOLOE+: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
يتم تحديد مشهد الكشف عن الأجسام في الوقت الفعلي من خلال السعي المستمر لتحقيق دقة أعلى ووقت استجابة أقل. وهناك عاملان مهمان ساهما في هذا التطور، وهما YOLOv9، الذي قدمه فريق البحث وراء YOLOv7 و PP-YOLOE+، وهو إصدار متقدم من PaddlePaddle من Baidu. يستكشف هذا التحليل ابتكاراتهما المعمارية ومعاييرهما ومدى ملاءمتهما لمختلف سيناريوهات النشر لمساعدتك في اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بك.
ملخص تنفيذي
YOLOv9 يركز على التغلب على فقدان المعلومات في الشبكات العميقة من خلال معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). وهو يتفوق في السيناريوهات التي تتطلب دقة عالية مع موارد حسابية معتدلة. على العكس من ذلك، تم تحسين PP-YOLOE+ بشكل كبير PaddlePaddle ويتميز بهيكل موحد بين السحابة والحافة يستفيد من التخصيص المدرك للحجم والتخصيص الديناميكي للعلامات من أجل تحديد الموقع بدقة.
على الرغم من أن كلا النموذجين قويان، إلا أن المطورين غالبًا ما يفضلون Ultralytics YOLO —مثل نموذج YOLO26المتطور—لسهولة استخدامها التي لا تضاهى، ووثائقها الشاملة، وتكاملها السلس في نظام بيئي عالمي مفتوح المصدر.
YOLOv9: تدرجات قابلة للبرمجة لتعزيز التعلم
YOLOv9 مشكلة "اختناق المعلومات" المتأصلة في الشبكات العصبية العميقة، حيث تُفقد البيانات الأساسية مع خضوع خرائط الميزات لعملية تقليل الدقة المتتالية.
الميزات المعمارية الرئيسية
- معلومات التدرج القابلة للبرمجة (PGI): إطار عمل إرشادي إضافي يولد تدرجات موثوقة لتحديث أوزان الشبكة، مما يضمن احتفاظ الطبقات العميقة بالمعلومات الدلالية الهامة.
- GELAN Architecture: تجمع شبكة التجميع الطبقي الفعالة المعممة بين نقاط قوة CSPNet و ELAN، مما يؤدي إلى تحسين تخطيط مسار التدرج لتحقيق أقصى قدر من كفاءة المعلمات.
- التكامل مع Ultralytics: YOLOv9 دمج YOLOv9 بالكامل في Ultralytics مما يتيح للمستخدمين الاستفادة من الأدوات المألوفة للتدريب والتحقق والنشر.
YOLOv9 :
المؤلفون: Chien-Yao Wang، Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينكا
التاريخ: 2024-02-21
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: https://github.com/WongKinYiu/yolov9
PP-YOLOE+: تطور PaddleDetection
PP-YOLOE+ هو إصدار مطور من PP-YOLOE، مصمم ليكون أساسًا قويًا للتطبيقات الصناعية. وهو مبني على نموذج بدون مرساة، مما يبسط رأس الكشف ويحسن التعميم عبر أشكال الأجسام المتنوعة.
الميزات المعمارية الرئيسية
- آلية بدون مثبتات: تلغي الحاجة إلى مربعات مثبتات محددة مسبقًا، مما يقلل من ضبط المعلمات الفائقة ويحسن الأداء على الكائنات ذات نسب العرض إلى الارتفاع غير المنتظمة.
- CSPRepResStage: تحسين أساسي يستخدم تقنيات إعادة المعلمات لتحقيق التوازن بين استقرار التدريب وسرعة الاستدلال.
- تعلم مواءمة المهام (TAL): استراتيجية ديناميكية لتعيين التسميات تعمل على مواءمة درجة التصنيف بشكل واضح مع جودة التوطين، مما يضمن دقة الكشف عالية الثقة من الناحية المكانية.
تفاصيل PP-YOLOE+:
المؤلفون: PaddlePaddle
المنظمة: Baidu
التاريخ: 2022-04-02
Arxiv: https://arxiv.org/abs/2203.16250
GitHub: PaddlePaddle
مقارنة الأداء
عند اختيار نموذج، فإن التوازن بين السرعة والدقة أمر بالغ الأهمية. يوضح الجدول أدناه مقاييس الأداء على COCO وهي معيار قياسي لاكتشاف الكائنات.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
تحليل
- كفاءة المعلمات: يحقق YOLOv9 متوسط دقةmAP ) مماثل أو أعلى باستخدام معلمات أقل، لا سيما في المتغيرات المتوسطة (M) والمضغوطة (C). وهذا يعني متطلبات تخزين أقل واستخدامًا أقل للذاكرة أثناء الاستدلال.
- سرعة الاستدلال: بينما يُظهر PP-YOLOE+ سرعات تنافسية على وحدات معالجة الرسومات T4، فإن بنية YOLOv9 مُحسّنة للغاية لتدفق التدرج، مما قد يؤدي إلى تقارب أفضل أثناء التدريب.
- الاعتماد على إطار العمل: YOLOv9 بشكل أساسي على PyTorch وهو إطار العمل السائد في مجال البحث والصناعة. يتطلب PP-YOLOE+ PaddlePaddle مما قد يسبب بعض الصعوبات للفرق التي تعمل بالفعل في TensorFlow PyTorch TensorFlow .
ميزة Ultralytics
في حين أن مقارنة البنى المحددة أمر مفيد، فإن النظام البيئي المحيط بالنموذج غالبًا ما يكون العامل الحاسم لنجاح المشروع على المدى الطويل.
سهولة الاستخدام والنظام البيئي
تم تصميم Ultralytics ، بما في ذلك YOLOv9 YOLO26 الأحدث، لتحقيق إنتاجية فورية. تعمل Python على تجريد الكود النمطي المعقد، مما يتيح للمطورين تحميل النماذج وتدريبها ونشرها في بضع أسطر فقط.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
في المقابل، يعتمد PP-YOLOE+ عادةً على ملفات التكوين وواجهات سطر الأوامر الخاصة بـ PaddleDetection، والتي قد تتطلب منحنى تعلم أكثر صعوبة للتخصيص.
تعدد الاستخدامات عبر المهام
من المزايا الهامة Ultralytics أنه يدعم مجموعة واسعة من مهام الرؤية الحاسوبية التي تتجاوز مجرد الكشف عن المربعات المحددة. سواء كنت بحاجة إلى تقسيم المثيلات أو تقدير الوضع أو الكشف عن المربعات المحددة الموجهة (OBB) ، يظل سير العمل متسقًا. هذه المرونة مهمة جدًا للمشاريع الديناميكية التي قد تتطور من الكشف البسيط إلى التحليل السلوكي المعقد.
النشر المتكامل
Ultralytics عملية الإنتاج. يمكنك بسهولة تصدير النماذج المدربة إلى تنسيقات مثل ONNXو TensorRTو OpenVINO بأمر واحد، مما يضمن التوافق مع الأجهزة المتنوعة من الأجهزة الطرفية إلى خوادم السحابة.
الاستعداد للمستقبل مع YOLO26
بالنسبة للمطورين الذين يبدأون مشاريع جديدة في عام 2026، يمثل YOLO26 يمثل قمة الكفاءة والأداء.
يقدم YOLO26 العديد من الميزات المتطورة التي تتفوق على كل من YOLOv9 PP-YOLOE+:
- NMS من البداية إلى النهاية: من خلال التخلص من الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، تقلل YOLO26 بشكل كبير من زمن الاستجابة وتعقيد النشر.
- مُحسّن CPU: مع إزالة Distribution Focal Loss (DFL) وتحسينات الهندسة المعمارية، يوفر YOLO26 استنتاجًا أسرع بنسبة تصل إلى 43٪ على وحدات المعالجة المركزية (CPU)، مما يجعله مثاليًا للحوسبة الطرفية.
- محسّن MuSGD: مستوحى من تدريب LLM، يعمل محسّن MuSGD على استقرار التدريب وتسريع التقارب.
- وظائف الخسارة المتقدمة: يؤدي الجمع بين ProgLoss و STAL إلى تحسين كبير في اكتشاف الأجسام الصغيرة، وهو تحدٍ شائع في مجالات مثل المراقبة الجوية والتصوير الطبي.
حالات الاستخدام
فحص التصنيع في الوقت الفعلي
بالنسبة لخطوط التجميع عالية السرعة، YOLOv9 إنتاجية ممتازة. ومع ذلك، إذا كان نظام الفحص يعمل على أجهزة طرفية بدون وحدات معالجة رسومات مخصصة (مثل Raspberry Pi أو أجهزة الكمبيوتر الصناعية للمبتدئين)، فإن YOLO26 هو الخيار الأفضل بسبب CPU واستهلاكه الأقل للذاكرة مقارنة بالبدائل التي تستخدم محولات كثيفة.
إدارة حركة المرور في المدن الذكية
يعد PP-YOLOE+ خيارًا قابلاً للتطبيق بالنسبة لكاميرات المرور الثابتة إذا كانت البنية التحتية مبنية بالفعل على نظام بايدو البيئي. ومع ذلك، بالنسبة للأنظمة الديناميكية التي تتطلب تتبع المركبات وتحليل سلامة المشاة، توفر Ultralytics دعمًا مدمجًا للتتبع (BoT-SORT، ByteTrack) ومعالجة فائقة للحجب من خلال تقنيات تعزيز متقدمة.
رصد الزراعة
في الزراعة الدقيقة، غالبًا ما يتطلب اكتشاف الأمراض التي تصيب المحاصيل تحديد سمات صغيرة ودقيقة. يتفوق YOLO26 في هذا المجال بفضل وظيفة ProgLoss، التي تعمل على تحسين دقة تحديد مواقع الأجسام الصغيرة مقارنة بالطرق القائمة على المراسي في النماذج القديمة. بالإضافة إلى ذلك، تعمل Ultralytics على تبسيط إدارة مجموعات البيانات وتدريب النماذج للمهندسين الزراعيين الذين قد لا يكونون خبراء في التعلم العميق.
الخلاصة
يساهم كل YOLOv9 PP-YOLOE+ بشكل كبير في تقدم الرؤية الحاسوبية. PP-YOLOE+ هو منافس قوي داخل PaddlePaddle حيث يوفر كشفًا قويًا بدون مرساة. YOLOv9 حدود الاحتفاظ بالمعلومات في الشبكات العميقة، مما يوفر كفاءة عالية.
ومع ذلك، بالنسبة لغالبية المطورين والباحثين، توفر YOLO Ultralytics YOLO أفضل توازن بين الأداء وسهولة الاستخدام والتنوع. مع إصدار YOLO26، يحصل المستخدمون على إمكانية الوصول إلى الكشف الشامل NMS، CPU أسرع CPU ، ومجموعة شاملة من الأدوات التي تبسط دورة حياة MLOps بأكملها.
لمزيد من المعلومات حول الطرز الأخرى عالية الأداء، اطلع على وثائقنا حول YOLO11 و RT-DETR.