YOLOv9 مقابل PP-YOLOE+: نظرة تقنية متعمقة على كشف الأشياء الحديث

يستمر مشهد كشف الأشياء في الوقت الفعلي في التقدم بسرعة، مما يوفر لمهندسي الرؤية الحاسوبية مجموعة واسعة من الخيارات لنشر نماذج عالية الدقة على البنية التحتية للحافة (Edge) والسحابة. نموذجان بارزان في هذا المجال هما YOLOv9 و PP-YOLOE+. وبينما يدفع كلاهما حدود الدقة والسرعة، إلا أنهما ينبثقان من سلالات بحثية وأنظمة برمجية مختلفة.

تستكشف هذه المقارنة التقنية الشاملة بنيتها ومنهجيات التدريب ومقاييس الأداء والتطبيقات الواقعية المثالية. سنستكشف أيضاً كيف يوفر نظام Ultralytics البيئي مزايا كبيرة للمطورين الذين يعطون الأولوية لسهولة الاستخدام وكفاءة الذاكرة والنشر المتنوع.

أصول النماذج والمواصفات التقنية

يساعد فهم خلفية هذه النماذج في وضع سياق لقراراتها المعمارية واعتماديات الإطار البرمجي الخاص بها.

YOLOv9: حل اختناق المعلومات

تم تقديم YOLOv9 في أوائل عام 2024، وهو يعالج فقدان البيانات الذي يحدث أثناء تدفق المعلومات عبر الشبكات العصبية العميقة. إنه شبكة عصبية تلافيفية محسنة للغاية مصممة لتحقيق أقصى قدر من كفاءة المعلمات.

  • المؤلفون: Chien-Yao Wang، Hong-Yuan Mark Liao
  • المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
  • التاريخ: 21 فبراير 2024
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9
  • الوثائق: توثيق Ultralytics YOLOv9

اعرف المزيد حول YOLOv9

PP-YOLOE+: تطوير نظام Paddle البيئي

تم إصدار PP-YOLOE+ بواسطة Baidu في عام 2022، وهو تحسين تكراري لـ PP-YOLOv2. وهو يستخدم نموذجاً خالياً من نقاط الارتكاز (anchor-free) ويقدم استراتيجية تعيين تسميات ديناميكية لتحسين التقارب والدقة داخل إطار عمل PaddlePaddle.

تعرف على المزيد حول PP-YOLOE+

مقارنة معمارية

معلومات التدرج القابلة للبرمجة مقابل CSPRepResStage

الابتكار الأساسي في YOLOv9 هو معلومات التدرج القابلة للبرمجة (PGI). تعمل PGI كإطار إشراف مساعد، مما يضمن حفظ معلومات التدرج الحيوية ونشرها بدقة مرة أخرى إلى الطبقات الضحلة أثناء التدريب. يتم إقران هذا بـ شبكة تجميع الطبقات الفعالة المعممة (GELAN)، والتي تجمع بين نقاط قوة CSPNet و ELAN لتقديم دقة عالية مع تقليل التكلفة الحسابية بشكل كبير (FLOPs).

يعتمد PP-YOLOE+ على عمود فقري متخصص يسمى CSPRepResStage. وهو يستفيد من تقنيات إعادة التقييم (مشابهة لتلك الموجودة في RepVGG) لتسريع الاستدلال عن طريق دمج الطبقات التلافيفية أثناء النشر. علاوة على ذلك، فإنه يستخدم رأس المهام المتوافقة الفعالة (ET-head) لموازنة مهام التصنيف والانحدار.

بينما يتميز PP-YOLOE+ بالقوة، تتطلب بنية GELAN في YOLOv9 عادةً بصمة ذاكرة أصغر أثناء التدريب والاستدلال، مما يجعلها مناسبة بشكل استثنائي لـ أجهزة الحافة التي تعمل بالذكاء الاصطناعي.

مقارنة الأداء

عند تقييم النماذج للإنتاج، تعد المقايضة بين mAP (متوسط دقة متوسط)، وسرعة الاستدلال، وحجم النموذج أمراً بالغ الأهمية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

التحليل

  • كفاءة المعلمات: يحقق YOLOv9 كفاءة أعلى بشكل ملحوظ. على سبيل المثال، يصل YOLOv9c إلى mAP بنسبة 53.0٪ باستخدام 25.3 مليون معلمة فقط، بينما يتطلب PP-YOLOE+l أكثر من ضعف المعلمات (52.2 مليون) لتحقيق mAP أقل قليلاً بنسبة 52.9٪. هذا يقلل بشكل كبير من متطلبات الذاكرة لـ YOLOv9.
  • سرعة الاستدلال: تُظهر نماذج YOLOv9 تحسيناً ممتازاً لمسرعات الأجهزة مثل TensorRT، مما يؤدي إلى سرعات استدلال تنافسية على وحدات معالجة الرسومات NVIDIA T4 والتي تعد ضرورية لـ الاستدلال في الوقت الفعلي.

منهجيات التدريب والنظام البيئي

غالباً ما يعود الاختيار بين هذه النماذج إلى النظام البيئي للبرمجيات.

PP-YOLOE+ و PaddlePaddle

يرتبط PP-YOLOE+ ارتباطاً وثيقاً بحزمة PaddleDetection. على الرغم من قوتها، إلا أنها تتطلب من المستخدمين التنقل في بيئة كثيفة التكوين ومدفوعة بسطر الأوامر. بالنسبة للفرق المتجذرة بعمق في أنظمة PyTorch أو TensorFlow، فإن الانتقال إلى PaddlePaddle يفرض احتكاكاً كبيراً ومنحنى تعلم أكثر حدة.

ميزة Ultralytics: سير عمل مبسط

على النقيض من ذلك، يعمل YOLOv9 داخل نظام Ultralytics البيئي المصقول للغاية. صُمم Ultralytics للمطورين والباحثين، ويعطي الأولوية لسهولة الاستخدام الاستثنائية. يقوم Python API بتجريد الكود النمطي المعقد بالكامل.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Run inference and visualize results
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for production deployment
model.export(format="onnx")

يسلط سير العمل هذا الضوء على كفاءة التدريب الفائقة لنماذج Ultralytics. الدعم الأصلي لزيادة البيانات، والتدريب الموزع، وتسجيل الدخول التلقائي إلى منصات مثل Weights & Biases أو MLflow يأتي كمعيار قياسي.

استكشف الأحدث في الذكاء الاصطناعي للرؤية

بينما يوفر YOLOv9 أداءً استثنائياً، نوصي بشدة بالنظر في Ultralytics YOLO26 الذي تم إصداره حديثاً للمشاريع الجديدة. يتميز YOLO26 بـ تصميم أصلي شامل خالٍ من NMS، مما يبسط النشر بشكل كبير. مع إزالة DFL (إزالة خسارة التنسيق التوزيعي من أجل تصدير مبسط وتوافق أفضل مع أجهزة الحافة/الأجهزة منخفضة الطاقة)، فإنه يوفر استدلالاً أسرع بـ 43٪ على وحدة المعالجة المركزية لحوسبة الحافة. مدعوم بـ MuSGD Optimizer، فهو يضمن تدريباً مستقراً وتقارباً سريعاً. بالإضافة إلى ذلك، توفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء والروبوتات والصور الجوية.

تعدد الاستخدامات ودعم المهام

نادراً ما تتوقف مشاريع الرؤية الحاسوبية الحديثة عند مربعات الإحاطة البسيطة.

صُمم PP-YOLOE+ في المقام الأول لكشف الأشياء القياسي. يتطلب تكييف بنيته لمهام أخرى هندسة مخصصة واسعة النطاق.

على العكس من ذلك، يعد إطار عمل Ultralytics قوة متعددة المهام. من خلال استخدام واجهة برمجة تطبيقات موحدة، يمكن للمطورين التبديل بسهولة من كشف الأشياء القياسي إلى تجزئة المثيلات المعقدة، وتقدير الوضعية عالي الدقة، وكشف مربع الإحاطة الموجه (OBB) للصور الجوية، وتصنيف الصور. هذا التنوع الذي لا مثيل له هو السبب في أن فرق المؤسسات تختار باستمرار نماذج Ultralytics مثل YOLOv9 و YOLO11 و YOLO26.

حالات الاستخدام والتطبيقات المثالية

  • تحليلات المدن الذكية وإدارة المرور: كفاءة المعلمات العالية وزمن الوصول المنخفض لـ YOLOv9 (و YOLO26 اللاحق) تجعلها مثالية للنشر على أجهزة الحافة المقيدة (مثل أجهزة NVIDIA Jetson) لمراقبة تدفق حركة المرور والأمن الحضري.
  • أنظمة جرد التجزئة: للكشف عن التكوينات الكثيفة للعناصر الصغيرة على الرفوف، تحافظ PGI في YOLOv9 بشكل فعال على تفاصيل مكانية دقيقة، متفوقة على PP-YOLOE+ في مهام كشف الأشياء الصغيرة.
  • عمليات النشر القديمة: يظل PP-YOLOE+ خياراً قابلاً للتطبيق حصرياً للفرق الملزمة صراحةً باستخدام حزمة برمجيات Baidu/PaddlePaddle في البنية التحتية القديمة الموجودة.

بالنسبة للباحثين الذين يستكشفون بنيات قائمة على المحولات (Transformer)، يدعم Ultralytics أيضاً أصلاً RT-DETR داخل نفس واجهة برمجة التطبيقات سهلة الاستخدام، مما يضمن حصولك دائماً على الوصول إلى النموذج الأمثل لمتطلبات النشر الخاصة بك.

التعليقات