PP-YOLOE+ مقابل YOLOX: استكشاف تطور أجهزة الكشف عن الأجسام في الوقت الفعلي
لقد تأثر مجال الرؤية الحاسوبية بشكل كبير بالتطور السريع لنماذج الكشف عن الأشياء. ومن بين المعالم البارزة في هذه الرحلة PP-YOLOE+ و YOLOX، وهما بنيتان معماريتان دفعتا حدود الأداء والدقة في الوقت الفعلي. إن فهم الفروق الدقيقة في بنيتهما المعمارية، والمفاضلات في الأداء، وسيناريوهات النشر المثالية أمر بالغ الأهمية للباحثين والمطورين الذين يعملون على بناء الجيل التالي من أنظمة التعرف البصري.
سلسلة الطرازات وتفاصيلها
قبل الخوض في البنى التقنية، من المفيد وضع أصل كلا النموذجين في سياقه الصحيح. فقد تم تطوير كل منهما لمعالجة عقبات محددة في مجال اكتشاف الأجسام، وتأثر كل منهما بشكل كبير بالمنظمات الداعمة له.
تفاصيل PP-YOLOE+:
- المؤلفون: PaddlePaddle Authors
- المنظمة: Baidu
- التاريخ: 2022-04-02
- Arxiv: https://arxiv.org/abs/2203.16250
- GitHub: PaddlePaddle
- المستندات: PaddleDetection PP-YOLOE+ README
تفاصيل YOLOX:
- المؤلفون: Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun
- المنظمة: Megvii
- التاريخ: 2021-07-18
- Arxiv: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- المستندات: الوثائق الرسمية لـ YOLOX
الابتكارات المعمارية
تكمن الاختلافات الأساسية بين هذين الكاشفين في نهجهما لاستخراج الميزات والتنبؤ بمربع الحدود.
أحدثت YOLOX ضجة كبيرة في عام 2021 من خلال نجاحها في تكييف YOLO مع تصميم خالٍ من المراسي. من خلال إزالة صناديق المراسي، قللت YOLOX بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المخصصة. علاوة على ذلك، أدخلت رأسًا منفصلاً، يفصل مهام التصنيف والتوطين إلى مسارات عصبية متميزة. أدى هذا الفصل إلى حل التضارب الكامن بين تصنيف كائن ما وتراجع إحداثياته المكانية، مما أدى إلى تقارب أسرع أثناء التدريب.
تم تطوير PP-YOLOE+ بواسطة Baidu، وهو مُحسّن بشكل كبير لـ PaddlePaddle . وهو مبني على سلفه PP-YOLOv2، حيث يقدم استراتيجية تخصيص تسميات ديناميكية (TAL) وعمود فقري جديد يسمى CSPRepResNet. يستفيد هذا العمود الفقري من إعادة تحديد المعلمات الهيكلية، مما يسمح للنموذج بالاستفادة من البنى المعقدة متعددة الفروع أثناء التدريب، مع الاندماج بسلاسة في شبكة سريعة أحادية المسار للاستدلال.
إعادة تحديد المعلمات الهيكلية
تسمح إعادة تحديد المعلمات الهيكلية للنموذج بالتدريب باستخدام عدة فروع متوازية (مما يحسن تدفق التدرج) ثم دمج تلك الفروع رياضيًا في طبقة تلافيفية واحدة للنشر، مما يعزز سرعات الاستدلال دون التضحية بالدقة.
مقارنة الأداء والمقاييس
عند مقارنة هذين النموذجين وجهاً لوجه، يتضح أنهما يخدمان طرفي نطاق الأداء بشكل مختلف قليلاً. يحقق PP-YOLOE+ عموماً دقة مطلقة أعلى، بينما يتفوق YOLOX في توفير متغيرات خفيفة الوزن للغاية مناسبة للأجهزة المقيدة للغاية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
ملاحظة: segment تمييز القيم الأفضل أداءً في كل segment الأعمدة ذات الصلة بالخط العريض.
بينما يوفر YOLOX إصدارات نانوية وصغيرة لا تستهلك سوى القليل من مساحة القرص أو CUDA فإن PP-YOLOE+ يتكيف بشكل مذهل مع الأجهزة من فئة الخوادم، مما يجعله خيارًا قويًا للتطبيقات الصناعية الثقيلة داخل نظام Baidu البيئي.
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه الأطر على متطلبات التكامل وأهداف الأجهزة.
أين يتفوق YOLOX
نظرًا لطبيعته الخالية من المراسي وتوافر متغيرات الحافة القصوى، فإن YOLOX يحظى بشعبية في مجال الروبوتات ونشر الميكروكونترولر. تسمح خطوط الإنتاج البسيطة للمعالجة اللاحقة بنقله بسهولة إلى تنسيقات أجهزة NPU المخصصة مثل TensorRT و NCNN.
أين يتفوق PP-YOLOE+
بالنسبة للمؤسسات المدمجة بعمق في مراكز التصنيع الآسيوية التي تستخدم مجموعة تقنيات Baidu، يوفر PP-YOLOE+ مسارًا مُحسّنًا مسبقًا للنشر. ويتميز هذا البرنامج في سيناريوهات فحص الجودة عالية الدقة التي تعمل على رفوف خوادم قوية حيث تسمح القيود الصارمة في الوقت الفعلي بوزن نماذج أثقل قليلاً.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين PP-YOLOE+ و YOLOX على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار PP-YOLOE+
PP-YOLOE+ هو خيار قوي لـ:
- تكاملPaddlePaddle : المؤسسات التي تمتلك بنية تحتية قائمة مبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
- نشر Paddle Lite Edge: النشر على الأجهزة باستخدام نوى استدلال محسّنة للغاية خصيصًا لمحرك الاستدلال Paddle Lite أو Paddle.
- الكشف عالي الدقة من جانب الخادم: سيناريوهات تعطي الأولوية لأقصى دقة في الكشف على GPU قوية حيث لا تشكل تبعية إطار العمل مشكلة.
متى تختار YOLOX
يوصى باستخدام YOLOX في الحالات التالية:
- أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
- دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics: تقديم YOLO26
في حين يمثل PP-YOLOE+ و YOLOX إنجازات بحثية ممتازة، فإن المشهد الحديث للنشر يتطلب تجربة أكثر تماسكًا وسهولة للمطورين مع كفاءة فائقة. وهنا يأتي دور Ultralytics الذي يعيد تعريف معايير الذكاء الاصطناعي البصري الحديث تمامًا.
بالنسبة للفرق التي تسعى إلى الانتقال من مستودعات الأبحاث المعزولة إلى أنظمة جاهزة للإنتاج، Ultralytics نظامًا بيئيًا قويًا ومُحافظًا عليه جيدًا. لم يعد تدريب النموذج يتطلب تكوين بيئات معقدة؛ فقد أصبح الأمر بسيطًا مثل الوصول إلى Python موحدة.
تشمل المزايا الرئيسية لـ Ultralytics ما يلي:
- تصميم شامل NMS: على عكس PP-YOLOE+ و YOLOX، اللذين يتطلبان استخدام تقنية Non-Maximum Suppression (NMS) لتصفية المربعات المحددة الزائدة، فإن YOLO26 هو نظام شامل بطبيعته. وهذا يزيل اختناقات التأخير ويبسط منطق النشر بشكل كبير.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة فقدان التركيز التوزيعي (DFL) بشكل استراتيجي، يحقق YOLO26 سرعات استنتاج لا مثيل لها على CPU ، مما يجعله متفوقًا بدرجة كبيرة في الحوسبة الطرفية والأجهزة منخفضة الطاقة.
- MuSGD Optimizer: مستوحى من Kimi K2 من Moonshot AI، يوفر هذا المحسن الهجين استقرار تدريب LLM للرؤية الحاسوبية، مما يضمن تقاربًا أسرع بكثير ويقلل من متطلبات الذاكرة أثناء مراحل التدريب.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة مهمة لعمليات الطائرات بدون طيار والصور الجوية عالية الدقة.
- تعدد الاستخدامات: بينما يركز PP-YOLOE+ و YOLOX على الكشف فقط، فإن YOLO26 يتعامل بسلاسة مع تقسيم الحالات وتقدير الوضع ومربعات الحدود الموجهة (OBB) باستخدام نفس الصيغة البديهية بالضبط.
تدريب مبسط مع Ultralytics
تتميز Ultralytics بكفاءة ذاكرة وسرعة تدريب لا مثيل لهما، حيث تتفوق تمامًا على البدائل القائمة على المحولات التي تتطلب مساحة CUDA هائلة. يمكنك الاستفادة من قوة YOLO26 في بضع أسطر من التعليمات البرمجية:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
استكشف Ultralytics
بالنسبة للفرق التي تبحث عن حل لا يتطلب كتابة أكواد برمجية، توفر Ultralytics تدريبًا قائمًا على السحابة، وتعليقات متكاملة على مجموعات البيانات، ونشر بنقرة واحدة لجميع YOLO الخاصة بك.
الخلاصة
اكتسب كل من PP-YOLOE+ و YOLOX مكانتهما في تاريخ الرؤية الحاسوبية، حيث يوفران دقة عالية وتصميمات خفيفة الوزن خالية من المراسي، على التوالي. ومع ذلك، بالنسبة للمؤسسات التي تبني مستقبل الذكاء الاصطناعي في الزراعة والمدن الذكية والتجزئة، فإن الصيانة المستمرة وسهولة الاستخدام والبنية الأصلية NMS لـ Ultralytics تجعله الخيار الأمثل بلا منازع.
إذا كنت تستكشف بنى بديلة لمعايير محددة، فقد تجد فائدة في مقارنة الإصدار الأقدم YOLO11 أو الخيارات القائمة على المحولات مثل RT-DETR من خلال Ultralytics الشاملة Ultralytics . من خلال الانتقال إلى Ultralytics الموحد، يوفر المطورون وقتًا وموارد لا تقدر بثمن مع تحقيق نتائج متطورة في أي نشر على الحافة أو السحابة.