PP-YOLOE+ مقابل YOLOX: تحليل تقني لأجهزة الكشف الخالية من المثبتات
في عالم الرؤية الحاسوبية المتطور، أصبح الكشف عن الكائنات بدون مرساة نموذجًا سائدًا، حيث يوفر هياكل أبسط وأداءً أفضل في كثير من الأحيان مقارنة بالطرق التقليدية القائمة على المرساة. ومن المساهمات المهمة في هذا المجال PP-YOLOE+، الذي طوره PaddlePaddle التابع لشركة Baidu، و YOLOX، وهو كاشف عالي الأداء بدون مرساة من شركة Megvii.
يقدم هذا التحليل نظرة متعمقة على هياكلها ومقاييس أدائها وقابليتها للتطبيق في العالم الواقعي، مع تسليط الضوء على كيفية تقديم Ultralytics الحديث Ultralytics ونموذج YOLO26 المتطور بديلاً جذاباً للمطورين الباحثين عن التوازن المثالي بين السرعة والدقة وسهولة الاستخدام.
نظرات عامة على النموذج
PP-YOLOE+
المؤلفون: PaddlePaddle
المنظمة:Baidu
التاريخ: 2022-04-02
Arxiv:https://arxiv.org/abs/2203.16250
GitHub:PaddleDetection
PP-YOLOE+ هو تطور لـ PP-YOLOE، الذي تم تحسينه بدوره عن PP-YOLOv2. وهو بمثابة النموذج الرئيسي لمكتبة PaddleDetection. يتميز بعمود فقري CSPRepResNet فريد من نوعه ويستخدم استراتيجية تعلم محاذاة المهام (TAL) لتعيين التسميات ديناميكيًا. تم تحسينه PaddlePaddle ويؤكد على سرعات استدلال عالية على وحدات معالجة الرسومات V100 ويدمج تقنيات مثل الخسارة متغيرة البؤرة للتعامل مع عدم التوازن بين الفئات بشكل فعال.
YOLOX
المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv:https://arxiv.org/abs/2107.08430
GitHub:مستودع YOLOX
شكل YOLOX نقطة تحول في YOLO من خلال التحول إلى آلية خالية من المثبتات وفصل رأس الكشف. يفصل هذا التصميم بين مهام التصنيف والانحدار، مما يحسن بشكل كبير من سرعة ودقة التقارب. من خلال دمج تقنيات متقدمة مثل SimOTA لتعيين العلامات الديناميكية، حقق YOLOX نتائج متطورة عند إصداره، وفاز بتحدي Streaming Perception Challenge في ورشة عمل CVPR 2021 حول القيادة الذاتية.
مقارنة معمارية
يكمن الاختلاف الجوهري بين هذه النماذج في تطبيقاتها المحددة لمفهوم عدم الارتباط وأهدافها في مجال التحسين.
العمود الفقري والعنق
يستخدم PP-YOLOE+ العمود الفقري CSPRepResNet، الذي يجمع بين مزايا الاتصالات المتبقية وكفاءة CSPNet (شبكة جزئية عبر المراحل). ويقترن ذلك برقبة شبكة تجميع المسارات (PANet) لتعزيز دمج الميزات متعددة النطاقات. تعمل النسخة "+" على تحسين العمود الفقري بشكل خاص باستخدام تقنيات إعادة تحديد المعلمات، مما يسمح ببنية تدريب معقدة تنهار إلى بنية أبسط وأسرع أثناء الاستدلال.
يستخدم YOLOX عادةً بنية أساسية CSPDarknet معدلة، مشابهة لـ YOLOv5 ولكنه يتميز برأسه المنفصل. تقوم YOLO التقليدية بالتصنيف والتحديد في وقت واحد، مما يؤدي غالبًا إلى حدوث تعارض. يقوم الرأس المنفصل لـ YOLOX بمعالجة هذه المهام في فروع متوازية، مما يؤدي إلى محاذاة أفضل للميزات. وهو يسمح للنموذج بتعلم الميزات الخاصة بـ "ماهية" الكائن (التصنيف) بشكل منفصل عن "مكان" وجوده (التحديد).
تعيين التسميات
تعد عملية تخصيص التسميات — أي تحديد وحدات البكسل الناتجة التي تتوافق مع الكائنات الحقيقية — أمرًا بالغ الأهمية بالنسبة لأجهزة الكشف الخالية من المراسي.
- قدمت YOLOX SimOTA (تخصيص النقل الأمثل المبسط). تعامل هذه الخوارزمية تخصيص العلامات على أنه مشكلة نقل مثالية، حيث تقوم بتخصيص العينات الإيجابية بشكل ديناميكي إلى الحقائق الأساسية بناءً على تكلفة التحسين الشاملة. وينتج عن ذلك أداء قوي حتى في المشاهد المزدحمة.
- يستخدم PP-YOLOE+ تقنية تعلم مواءمة المهام (TAL). تعمل تقنية TAL على مواءمة درجة التصنيف وجودة تحديد الموقع (IoU) بشكل صريح، مما يضمن أن عمليات الكشف عالية الثقة تتمتع أيضًا بدقة عالية في تحديد الموقع. يقلل هذا النهج من عدم المواءمة بين المهمتين، وهي مشكلة شائعة في أجهزة الكشف أحادية المرحلة.
خالية من المراسي مقابل قائمة على المراسي
كلا النموذجين خاليان من المراسي، مما يعني أنهما يتنبآن بمراكز الأجسام وأحجامها مباشرةً بدلاً من تحسين مربعات المراسي المحددة مسبقًا. وهذا يبسط التصميم، ويقلل من عدد المعلمات الفائقة (لا حاجة لضبط أحجام المراسي)، ويحسن بشكل عام التعميم عبر مجموعات البيانات المتنوعة.
تحليل الأداء
عند مقارنة الأداء، من الضروري النظر إلى كل من الدقة (mAP) والسرعة (الكمون/FPS) عبر الأجهزة المختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
النقاط الرئيسية:
- الدقة: يحقق PP-YOLOE+ عمومًا دقة أعلى mAP في أحجام نماذج قابلة للمقارنة، لا سيما في المتغيرات الأكبر (L و X)، بفضل استراتيجية TAL المحسنة والعمود الفقري RepResNet.
- الكفاءة: في حين أن YOLOX عالي الكفاءة، فإن PP-YOLOE+ يظهر انخفاضًا في FLOPs وعدد المعلمات لمستويات أداء مماثلة، مما يشير إلى تصميم هندسي أكثر إحكاما.
- السرعة: سرعات الاستدلال تنافسية، ولكن PP-YOLOE+ غالبًا ما يتفوق على YOLOX على الأجهزة TensorRT نظرًا لتصميمه المعماري العصبي الذي يراعي الأجهزة.
التطبيقات الواقعية وحالات الاستخدام
متى تختار PP-YOLOE+
PP-YOLOE+ مناسب بشكل مثالي للتطبيقات الصناعية التي تدعم بيئة النشر PaddlePaddle .
- مراقبة جودة التصنيع: دقتها العالية تجعلها ممتازة للكشف عن العيوب الدقيقة في خطوط التجميع.
- التجزئة الذكية: يتيح الأداء القوي لمتغيرات "s" و"m" التعرف على المنتجات بكفاءة على خوادم الحافة.
- النقل عالي السرعة: إن تحسينه لمعالجات الرسومات V100/T4 يجعله مرشحًا لمعالجة تدفقات حركة المرور من جانب الخادم.
متى تختار YOLOX
يظل YOLOX المفضل في الأوساط الأكاديمية والبحثية بفضل PyTorch النقي PyTorch وابتكاراته المعمارية الواضحة.
- أبحاث القيادة الذاتية: بعد فوزها في تحديات الإدراك المتدفق، تتميز YOLOX بمتانتها في البيئات الديناميكية التي تتطلب تتبعًا مستقرًا.
- الانتشار المتنقل: تتميز إصدارات YOLOX-Nano و Tiny بخفة وزنها، مما يجعلها مناسبة للتطبيقات المتنقلة أو الطائرات بدون طيار ذات القدرات الحاسوبية المحدودة.
- البحث المخصص: غالبًا ما يكون تصميمه المتميز برأس منفصل وبدون مرساة أسهل في التعديل لمهام جديدة تتجاوز الكشف القياسي.
ميزة Ultralytics
في حين أن PP-YOLOE+ و YOLOX هما نموذجان فعالان، فإن Ultralytics يوفر ميزة واضحة للمطورين الذين يولون الأولوية لسرعة التطوير وسهولة الصيانة ومرونة النشر.
سهولة الاستخدام والنظام البيئي
Ultralytics ، بما في ذلك أحدث نموذج YOLO26، مصممة وفقًا لفلسفة "من الصفر إلى القمة". على عكس PP-YOLOE+، التي تتطلب PaddlePaddle المحدد، أو YOLOX، التي يمكن أن تحتوي على ملفات تكوين معقدة، Ultralytics Python موحدة. يمكنك تدريب النماذج والتحقق من صحتها ونشرها باستخدام بضع أسطر من التعليمات البرمجية فقط.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
ويتم تعزيز النظام البيئي بشكل أكبر من خلال Ultralytics ، التي تبسط إدارة مجموعات البيانات والتدريب على السحابة وإصدار نماذج.
تنوع لا مثيل له
لا تقتصر Ultralytics على اكتشاف الكائنات. تدعم نفس واجهة برمجة التطبيقات (API) ما يلي:
- تجزئة المثيل: إخفاء دقيق للأجسام على مستوى البكسل.
- تقدير الوضعية: اكتشاف النقاط الرئيسية على أجسام الإنسان أو الحيوانات.
- الكشف عن الأجسام الموجهة (OBB): التعامل مع الأجسام الدوارة مثل السفن في صور الأقمار الصناعية.
- التصنيف: تصنيف الصور بالكامل بكفاءة.
لا يقدم PP-YOLOE+ ولا YOLOX هذا المستوى من الدعم الأصلي والمتعدد المهام ضمن إطار عمل واحد وموحد.
كفاءة الذاكرة والتدريب
تم تصميمYOLO Ultralytics YOLO لتحقيق الكفاءة. وهي تتطلب عادةً ذاكرة GPU أقل GPU أثناء التدريب مقارنة بالبنى القائمة على المحولات أو نماذج الكشف القديمة. وهذا يتيح للمطورين تدريب أحجام دفعات أكبر على أجهزة المستهلكين، مما يتيح الوصول إلى الذكاء الاصطناعي عالي الأداء للجميع. الأوزان المدربة مسبقًا متاحة بسهولة ويتم تنزيلها تلقائيًا، مما يبسط عملية نقل التعلم.
المستقبل: YOLO26
بالنسبة للمطورين الباحثين عن أحدث التقنيات، يمثل YOLO26 قفزة كبيرة إلى الأمام. تم إصداره في يناير 2026، ويقدم إمكانات أصلية شاملة تلغي الحاجة إلى تقنية Non-Maximum Suppression (NMS).
ابتكارات YOLO26 الرئيسية
- NMS من البداية إلى النهاية: من خلال إزالة خطوة NMS تبسط YOLO26 خطوط أنابيب النشر وتقلل من تباين زمن الاستجابة، وهي ميزة رائدة في YOLOv10.
- MuSGD Optimizer: مستوحى من تدريب LLM، يضمن هذا المحسن الهجين (SGD Muon) تدريبًا مستقرًا وتقاربًا أسرع.
- تحسين الحافة: مع إزالة Distribution Focal Loss (DFL)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله الخيار الأفضل للأجهزة الطرفية مثل Raspberry Pi أو الهواتف المحمولة.
- ProgLoss + STAL: تعمل وظائف الخسارة المتقدمة على تحسين اكتشاف الأجسام الصغيرة، وهو أمر بالغ الأهمية لعمليات التفتيش بواسطة الطائرات بدون طيار وتطبيقات إنترنت الأشياء.
الخلاصة
ساعد PP-YOLOE+ و YOLOX في قيادة ثورة الكشف عن الكائنات بدون مرساة. يوفر PP-YOLOE+ دقة عالية ضمن PaddlePaddle بينما يوفر YOLOX بنية نظيفة وفعالة للبحث. ومع ذلك، بالنسبة لمعظم التطبيقات الحديثة، توفر YOLO Ultralytics YOLO — وبالتحديد YOLO26— توازنًا فائقًا بين الأداء والتنوع وسهولة الاستخدام. سواء كنت تبني حلولًا للمدن الذكية أو روبوتات زراعية، تضمن Ultralytics أن يكون خط أنابيب الرؤية الحاسوبية الخاص بك مستقبليًا وفعالًا.