PP-YOLOE+ مقابل YOLOX: استكشاف تطور أجهزة الكشف عن الأجسام في الوقت الفعلي
لقد تأثر مجال الرؤية الحاسوبية بشكل كبير بالتطور السريع لنماذج الكشف عن الأشياء. ومن بين المعالم البارزة في هذه الرحلة PP-YOLOE+ و YOLOX، وهما بنيتان معماريتان دفعتا حدود الأداء والدقة في الوقت الفعلي. إن فهم الفروق الدقيقة في بنيتهما المعمارية، والمفاضلات في الأداء، وسيناريوهات النشر المثالية أمر بالغ الأهمية للباحثين والمطورين الذين يعملون على بناء الجيل التالي من أنظمة التعرف البصري.
سلسلة الطرازات وتفاصيلها
قبل الخوض في البنى التقنية، من المفيد وضع أصول كلا النموذجين في سياقها. تم تطوير كل منهما لمعالجة اختناقات محددة في اكتشاف الكائنات، وتأثر بشكل كبير بالمنظمات الداعمة لهما.
تفاصيل PP-YOLOE+:
- المؤلفون: PaddlePaddle Authors
- المنظمة: Baidu
- التاريخ: 2022-04-02
- أرشيف: https://arxiv.org/abs/2203.16250
- GitHub: PaddlePaddle
- المستندات: PaddleDetection PP-YOLOE+ README
تفاصيل YOLOX:
- المؤلفون: Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun
- المنظمة: Megvii
- التاريخ: 2021-07-18
- أرشيف: https://arxiv.org/abs/2107.08430
- GitHub: https://github.com/Megvii-BaseDetection/YOLOX
- المستندات: الوثائق الرسمية لـ YOLOX
الابتكارات المعمارية
تكمن الاختلافات الأساسية بين هذين الكاشفين في نهجهما لاستخراج الميزات والتنبؤ بمربع الحدود.
أحدث YOLOX ضجة في عام 2021 من خلال تكييف عائلة YOLO بنجاح مع تصميم بدون نقاط ارتكاز (anchor-free). من خلال إزالة مربعات نقاط الارتكاز (anchor boxes)، قلل YOLOX بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المخصصة. علاوة على ذلك، قدم رأسًا مفككًا (decoupled head)، يفصل مهام التصنيف وتحديد المواقع إلى مسارات عصبية مميزة. حل هذا الفصل التضارب المتأصل بين تصنيف كائن وتحديد إحداثياته المكانية، مما أدى إلى تقارب أسرع أثناء التدريب.
PP-YOLOE+، الذي طورته Baidu، مُحسّن بشكل كبير للنظام البيئي لـ PaddlePaddle. يعتمد على سلفه، PP-YOLOv2، من خلال تقديم استراتيجية تعيين تسمية ديناميكية (TAL) وهيكل أساسي جديد يسمى CSPRepResNet. يستفيد هذا الهيكل الأساسي من إعادة التوسيط الهيكلي، مما يسمح للنموذج بالاستفادة من البنى المعقدة متعددة الفروع أثناء التدريب مع الاندماج بسلاسة في شبكة سريعة أحادية المسار للاستدلال.
إعادة تحديد المعلمات الهيكلية
تسمح إعادة تحديد المعلمات الهيكلية للنموذج بالتدريب باستخدام عدة فروع متوازية (مما يحسن تدفق التدرج) ثم دمج تلك الفروع رياضيًا في طبقة تلافيفية واحدة للنشر، مما يعزز سرعات الاستدلال دون التضحية بالدقة.
مقارنة الأداء والمقاييس
عند مقارنة هذين النموذجين وجهاً لوجه، يتضح أنهما يخدمان طرفي نطاق الأداء بشكل مختلف قليلاً. يحقق PP-YOLOE+ عموماً دقة مطلقة أعلى، بينما يتفوق YOLOX في توفير متغيرات خفيفة الوزن للغاية مناسبة للأجهزة المقيدة للغاية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
ملاحظة: segment تمييز القيم الأفضل أداءً في كل segment الأعمدة ذات الصلة بالخط العريض.
بينما يوفر YOLOX إصدارات نانوية وصغيرة لا تستهلك سوى القليل من مساحة القرص أو CUDA فإن PP-YOLOE+ يتكيف بشكل مذهل مع الأجهزة من فئة الخوادم، مما يجعله خيارًا قويًا للتطبيقات الصناعية الثقيلة داخل نظام Baidu البيئي.
تطبيقات عملية في أرض الواقع
يتوقف الاختيار بين هذه الأطر البرمجية غالبًا على متطلبات التكامل والأجهزة المستهدفة.
أين يتفوق YOLOX
نظرًا لطبيعته الخالية من المراسي وتوافر متغيرات الحافة القصوى، فإن YOLOX يحظى بشعبية في مجال الروبوتات ونشر الميكروكونترولر. تسمح خطوط الإنتاج البسيطة للمعالجة اللاحقة بنقله بسهولة إلى تنسيقات أجهزة NPU المخصصة مثل TensorRT و NCNN.
أين يتفوق PP-YOLOE+
بالنسبة للمؤسسات المدمجة بعمق في مراكز التصنيع الآسيوية التي تستخدم مجموعة تقنيات Baidu، يوفر PP-YOLOE+ مسارًا مُحسّنًا مسبقًا للنشر. ويتميز هذا البرنامج في سيناريوهات فحص الجودة عالية الدقة التي تعمل على رفوف خوادم قوية حيث تسمح القيود الصارمة في الوقت الفعلي بوزن نماذج أثقل قليلاً.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين PP-YOLOE+ وYOLOX على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار PP-YOLOE+
PP-YOLOE+ هو خيار قوي لـ:
- تكامل منظومة PaddlePaddle: المنظمات ذات البنية التحتية الحالية المبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
- نشر Paddle Lite على الحوسبة الطرفية: النشر على أجهزة بنواة استدلال محسّنة للغاية خصيصًا لمحرك استدلال Paddle Lite أو Paddle.
- الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة detect على خوادم GPU القوية حيث لا يمثل الاعتماد على الإطار مشكلة.
متى تختار YOLOX
يوصى باستخدام YOLOX في الحالات التالية:
- أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
ميزة Ultralytics: تقديم YOLO26
في حين يمثل PP-YOLOE+ و YOLOX إنجازات بحثية ممتازة، فإن المشهد الحديث للنشر يتطلب تجربة أكثر تماسكًا وسهولة للمطورين مع كفاءة فائقة. وهنا يأتي دور Ultralytics الذي يعيد تعريف معايير الذكاء الاصطناعي البصري الحديث تمامًا.
بالنسبة للفرق التي تسعى إلى الانتقال من مستودعات الأبحاث المعزولة إلى أنظمة جاهزة للإنتاج، Ultralytics نظامًا بيئيًا قويًا ومُحافظًا عليه جيدًا. لم يعد تدريب النموذج يتطلب تكوين بيئات معقدة؛ فقد أصبح الأمر بسيطًا مثل الوصول إلى Python موحدة.
تشمل المزايا الرئيسية لـ Ultralytics ما يلي:
- تصميم شامل خالٍ من NMS: على عكس كل من PP-YOLOE+ و YOLOX، اللذين يتطلبان قمع غير الأقصى (NMS) لتصفية مربعات الإحاطة الزائدة، يُعد YOLO26 شاملاً بطبيعته. وهذا يلغي اختناقات زمن الانتقال ويبسط منطق النشر بشكل كبير.
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: من خلال الإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يحقق YOLO26 سرعات استدلال لا مثيل لها على أجهزة CPU، مما يجعله متفوقًا جدًا لـ الحوسبة الطرفية والأجهزة منخفضة الطاقة.
- مُحسِّن MuSGD: مستوحى من Kimi K2 من Moonshot AI، يجلب هذا المُحسِّن الهجين استقرار تدريب نماذج LLM إلى الرؤية الحاسوبية، مما يضمن تقاربًا أسرع بكثير ويقلل من متطلبات الذاكرة خلال مراحل التدريب.
- ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة حاسمة لـعمليات الطائرات بدون طيار والصور الجوية عالية التفاصيل.
- تعدد الاستخدامات: بينما يركز PP-YOLOE+ و YOLOX بشكل بحت على detect، يتعامل YOLO26 بسلاسة مع تجزئة الكائنات، تقدير الوضعيات، والصناديق المحيطة الموجهة (OBB) باستخدام نفس البنية البديهية تمامًا.
تدريب مبسط مع Ultralytics
تتميز Ultralytics بكفاءة ذاكرة وسرعة تدريب لا مثيل لهما، حيث تتفوق تمامًا على البدائل القائمة على المحولات التي تتطلب مساحة CUDA هائلة. يمكنك الاستفادة من قوة YOLO26 في بضع أسطر من التعليمات البرمجية:
from ultralytics import YOLO
# Load the highly efficient, end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with built-in auto-batching and MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT
model.export(format="engine")
استكشف Ultralytics
بالنسبة للفرق التي تبحث عن حل لا يتطلب كتابة أكواد برمجية، توفر Ultralytics تدريبًا قائمًا على السحابة، وتعليقات متكاملة على مجموعات البيانات، ونشر بنقرة واحدة لجميع YOLO الخاصة بك.
الخلاصة
لقد حجز كل من PP-YOLOE+ وYOLOX مكانتهما في تاريخ رؤية الكمبيوتر، حيث يقدمان دقة عالية وتصاميم خالية من المراسي وخفيفة الوزن، على التوالي. ومع ذلك، بالنسبة للمؤسسات التي تبني مستقبل الذكاء الاصطناعي في الزراعة، والمدن الذكية، وتجارة التجزئة، فإن الصيانة المستمرة، وسهولة الاستخدام، والمعمارية الأصلية الخالية من NMS لـ Ultralytics YOLO26 تجعله الخيار بلا منازع.
إذا كنت تستكشف بنى بديلة لمعايير محددة، فقد تجد فائدة في مقارنة الإصدار الأقدم YOLO11 أو الخيارات القائمة على المحولات مثل RT-DETR من خلال Ultralytics الشاملة Ultralytics . من خلال الانتقال إلى Ultralytics الموحد، يوفر المطورون وقتًا وموارد لا تقدر بثمن مع تحقيق نتائج متطورة في أي نشر على الحافة أو السحابة.