نظرة عميقة في اكتشاف الكائنات في الوقت الفعلي: PP-YOLOE+ مقابل YOLO11
يتطور مجال الرؤية الحاسوبية باستمرار، مدفوعًا بالحاجة إلى نماذج أسرع وأكثر دقة وكفاءة. بالنسبة للمطورين والباحثين الذين يتعاملون مع مهام اكتشاف الأجسام، فإن اختيار البنية المناسبة أمر بالغ الأهمية. في هذه المقارنة الشاملة، سوف نستكشف الفروق الدقيقة بين نموذجين بارزين: PP-YOLOE+ و Ultralytics YOLO11.
من خلال تحليل بنياتها المعمارية ومقاييس الأداء وحالات الاستخدام المثالية، يهدف هذا الدليل إلى توفير الرؤى اللازمة لاتخاذ قرار مستنير لنشر تعلم الآلة التالي الخاص بك.
أصول النموذج والنظرة العامة التقنية
ينبع كلا النموذجين من بحث أكاديمي دقيق وهندسة مكثفة، لكنهما ينبعان من أنظمة بيئية مختلفة تمامًا. دعونا نلقي نظرة على التفاصيل الأساسية لكل نموذج.
نظرة عامة على PP-YOLOE+
تم تطوير PP-YOLOE+ من قبل باحثي Baidu، وهو نسخة مطورة من PP-YOLOE السابق، مصمم لتوسيع حدود الكشف في الوقت الفعلي ضمن نظام PaddlePaddle .
- المؤلفون: مؤلفو PaddlePaddle
- المؤسسة:بايدو
- التاريخ: 2022-04-02
- أرشيف:https://arxiv.org/abs/2203.16250
- GitHub:مستودع PaddleDetection
- الوثائق:وثائق PP-YOLOE+
YOLO11
يمثل YOLO11 أنشأته Ultralytics قفزة كبيرة إلى الأمام في قابلية الاستخدام والدقة. وهو يعتمد على إرث من البنى الهندسية الناجحة للغاية، ويحسن تجربة المطورين وتعدد المهام.
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 2024-09-27
- GitHub:مستودع Ultralytics GitHub
- الوثائق:الوثائق الرسمية لـ YOLO11
هل تعلم؟
YOLO11 Ultralytics YOLO11 أكثر من مجرد اكتشاف الكائنات. يمكنك تنفيذ تقسيم المثيلات وتقدير الوضع واكتشاف الصندوق المحيط الموجه (OBB) باستخدام نفس واجهة برمجة التطبيقات (API) مباشرةً.
مقارنة معمارية وأدائية
عند مقارنة هذين الكاشفين، يجب أن ننظر إلى ما وراء الأرقام الأولية ونفهم كيف تؤثر خياراتهما المعمارية على نشر النماذج في العالم الحقيقي.
بنية PP-YOLOE+
يعتمد PP-YOLOE+ بشكل كبير على PaddlePaddle . وهو يقدم نموذجًا قويًا خاليًا من المراسي، باستخدام العمود الفقري RepResNet وشبكة تجميع المسارات (PAN) المعدلة. تم تحسين النسخة "+" عن سابقتها من خلال دمج تدريب مسبق لمجموعات بيانات واسعة النطاق (مثل Objects365) ومُحسّن TaskAlignedAssigner. على الرغم من تحقيقه لمتوسط دقة عالٍ (mAP)، إلا أن الاعتماد الشديد على PaddlePaddle يسبب صعوبات للفرق المعتادة على TensorFlow PyTorch TensorFlow .
معمارية YOLO11
YOLO11 تصميم Ultralytics YOLO11 بشكل أساسي على PyTorch، وهو المعيار الصناعي للتعلم العميق الحديث. تركز بنيته بشكل كبير على توازن الأداء، محققة توازنًا جيدًا بين السرعة والدقة بما يتناسب مع سيناريوهات النشر المتنوعة في العالم الواقعي. YOLO11 بوحدة C2f محسّنة لتحسين تدفق التدرج ورأس منفصل يعالج مهام التصنيف والانحدار بشكل منفصل بكفاءة. علاوة على ذلك، YOLO11 تصميم YOLO11 لتقليل متطلبات الذاكرة، حيث يتميز باستخدام ذاكرة أقل بكثير أثناء التدريب والاستدلال مقارنة بنماذج المحولات المعقدة مثل RT-DETR.
جدول مقاييس الأداء
يوضح الجدول التالي الاختلافات في الأداء عبر نماذج مختلفة. لاحظ كيف يحقق YOLO11 mAP مماثلًا أو أفضل mAP تقليل عدد المعلمات و FLOPs بشكل كبير.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
حالات الاستخدام والتوصيات
يعتمد الاختيار بين PP-YOLOE+ وYOLO11 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار PP-YOLOE+
PP-YOLOE+ هو خيار قوي لـ:
- تكامل منظومة PaddlePaddle: المنظمات ذات البنية التحتية الحالية المبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
- نشر Paddle Lite على الحوسبة الطرفية: النشر على أجهزة بنواة استدلال محسّنة للغاية خصيصًا لمحرك استدلال Paddle Lite أو Paddle.
- الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة detect على خوادم GPU القوية حيث لا يمثل الاعتماد على الإطار مشكلة.
متى تختار YOLO11
YOLO11 في الحالات التالية:
- النشر الإنتاجي على الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف (detect)، والـsegmentation، وتقدير الوضعية (pose estimation)، وOBB ضمن إطار عمل موحد واحد.
- النماذج الأولية والنشر السريع: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام واجهة برمجة تطبيقات Ultralytics Python المبسطة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
ميزة Ultralytics
على الرغم من أهمية المعايير الأكاديمية، فإن النجاح طويل الأمد لمشروع الذكاء الاصطناعي يعتمد بشكل كبير على النظام البيئي المحيط بالنموذج. توفر Ultralytics مزايا مميزة للمطورين والشركات على حد سواء.
- سهولة الاستخدام: تجرد Ultralytics تعقيدات التعلم العميق. تتيح تجربة المستخدم المبسطة وواجهة برمجة تطبيقات Python البسيطة للمطورين تدريب نماذج مخصصة ببضعة أسطر فقط من التعليمات البرمجية. وهذا يتناقض مع ملفات التكوين المعقدة التي غالبًا ما يتطلبها PP-YOLOE+.
- نظام بيئي يتم صيانته جيدًا: على عكس العديد من المستودعات المخصصة للبحث فقط، يتم تطوير نظام Ultralytics البيئي بنشاط. وهو يتميز بدعم مجتمعي قوي، وتحديثات متكررة، وتكامل واسع مع أدوات مثل Weights & Biases و Comet ML.
- تعدد الاستخدامات: يوفر YOLO11 إطار عمل واحدًا وموحدًا لمهام رؤية الكمبيوتر المتعددة، مما يلغي الحاجة إلى تعلم مكتبات مختلفة للتصنيف أو segment أو اكتشاف الصناديق المحيطة.
- كفاءة التدريب: توفر عمليات التدريب الفعالة لنماذج YOLO الوقت وتكاليف الحوسبة. بالاستفادة من الأوزان المدربة مسبقًا على مجموعة بيانات COCO، تتقارب النماذج بسرعة حتى على الأجهزة الاستهلاكية.
مقارنة رموز التدريب
لتوضيح سهولة الاستخدام، إليك كيفية تدريب YOLO11 المتطور. فهو يتعامل مع جميع عمليات زيادة البيانات والتسجيل وتنسيق الأجهزة تلقائيًا:
from ultralytics import YOLO
# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model on your custom dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run a quick inference test on a public image
inference_results = model("https://ultralytics.com/images/bus.jpg")
inference_results[0].show()
يتطلب إعداد خط الأنابيب المكافئ في PaddleDetection التنقل يدويًا بين تكوينات XML المعقدة وتنفيذ سلاسل أسطر أوامر طويلة، مما قد يؤدي إلى إبطاء دورات التطوير السريعة.
التطلع إلى المستقبل: وصول YOLO26
في حين أن YOLO11 أداة قوية للغاية، فإن مجال الذكاء الاصطناعي يتطور بسرعة. تم إصداره في يناير 2026، يمثل يمثل أحدث ما توصلت إليه Ultralytics وهو النموذج الموصى به لجميع المشاريع الجديدة.
يقدم YOLO26 العديد من الابتكارات الثورية:
- تصميم شامل خالٍ من NMS: استنادًا إلى المفاهيم التي تم ابتكارها لأول مرة في YOLOv10، يتميز YOLO26 بتصميم شامل أصيل. فهو يلغي تمامًا معالجة ما بعد التثبيط غير الأقصى (NMS)، مما يجعل النشر أبسط بكثير ويقلل بشكل كبير من تباين زمن الانتقال.
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: من خلال الإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يصبح النموذج أخف بكثير. هذا التحسين يجعله الخيار الأمثل لـ الحوسبة الطرفية وأجهزة إنترنت الأشياء منخفضة الطاقة.
- مُحسِّن MuSGD: يجلب YOLO26 ابتكارات تدريب نماذج اللغة الكبيرة (LLM) إلى الرؤية الحاسوبية. باستخدام مُحسِّن MuSGD (وهو مزيج من SGD و Muon)، يحقق ديناميكيات تدريب مستقرة للغاية وتقاربًا أسرع.
- ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة حاسمة لـصور الطائرات بدون طيار والمراقبة الجوية.
الخلاصة والتطبيقات الواقعية
عند الاختيار بين PP-YOLOE+ و YOLO11 أو YOLO26 الأحدث)، يعتمد الاختيار على نظام النشر الخاص بك.
PP-YOLOE+ يتألق في بيئات صناعية محددة، خاصة في مراكز التصنيع الآسيوية حيث تتكامل الأجهزة بعمق مع مكدس تقنية Baidu ومكتبة PaddlePaddle. إنه ممتاز لتحليل الصور الثابتة حيث يكون أقصى mAP هو الأولوية الوحيدة.
YOLO11 و YOLO26، مع ذلك، يقدمان نهجًا أكثر تنوعًا وسهولة للمطورين. فعدد معلماتهما الأقل وسرعاتهما العالية تجعلهما مثاليين لـ:
- تجارة التجزئة الذكية: معالجة خلاصات الفيديو في الوقت الفعلي للدفع الآلي و إدارة المخزون.
- الروبوتات المستقلة: تمكين تجنب العوائق عالي السرعة على الأجهزة المدمجة محدودة الموارد.
- الأمن والمراقبة: توفير تحليل قوي ومتعدد المهام (مثل تتبع وتقدير الوضع) في تمريرات استدلال واحدة عالية الكفاءة.
للمهندسين المعاصرين في مجال الذكاء الاصطناعي الذين يبحثون عن الموثوقية والدعم المجتمعي الواسع النطاق وخطوط إنتاج بسيطة لتنفيذ تنسيقات مثل ONNX و TensorRT، يظل Ultralytics هو الخيار الأمثل بلا منازع.