YOLOX مقابل YOLO11: نظرة متعمقة على كشف الأشياء عالي الأداء
لقد كان تطور الرؤية الحاسوبية مدفوعًا بشكل كبير بالسعي نحو أطر عمل لكشف الأشياء في الوقت الفعلي توازن بين الدقة العالية وسرعة الاستدلال. ومن بين أبرز المعالم في هذه الرحلة YOLOX و Ultralytics YOLO11. وعلى الرغم من أن كلا النموذجين قدما مساهمات كبيرة في هذا المجال، إلا أن بنياتهما التحتية وفلسفات التصميم والأنظمة البيئية للمطورين تختلف بشكل جوهري.
تستكشف هذه المقارنة التقنية الشاملة بنياتها، ومقاييس الأداء، ومنهجيات التدريب، وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرار مستنير لمشروعك التالي في مجال الذكاء الاصطناعي.
نظرة عامة على YOLOX
تم تقديم YOLOX من قبل الباحثين Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii في 18 يوليو 2021، وقد مثل تحولًا كبيرًا في سلسلة YOLO. فقد نجح في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تقديم تصميم خالٍ من نقاط الارتكاز (anchor-free).
للحصول على مزيد من الخلفية التقنية، يمكنك مراجعة ورقة بحث YOLOX على Arxiv.
الميزات المعمارية الرئيسية
ابتعد YOLOX عن الكشف التقليدي القائم على نقاط الارتكاز (anchor-based) من خلال اعتماد رأس مفكك وآلية خالية من نقاط الارتكاز. قلل هذا التصميم من عدد معاملات التصميم وحسن أداء النموذج في مختلف المعايير. بالإضافة إلى ذلك، قدم استراتيجيات متقدمة لتخصيص التسميات مثل SimOTA لتسريع عملية التدريب وتحسين التقارب.
على الرغم من أن YOLOX يقدم دقة ممتازة لوقته، إلا أنه يركز بشكل أساسي على كشف الأشياء باستخدام صناديق الإحاطة (bounding box) ويفتقر إلى الدعم الأصلي لمهام الرؤية المعقدة الأخرى خارج الصندوق.
من خلال التخلص من صناديق الارتكاز المحددة مسبقًا، قلل YOLOX بشكل كبير من الضبط التجريبي المطلوب لمجموعات البيانات المختلفة، مما جعله أساسًا قويًا للبحث في المنهجيات الخالية من نقاط الارتكاز.
نظرة عامة على Ultralytics YOLO11
تم إصدار YOLO11 في 27 سبتمبر 2024 بواسطة Glenn Jocher و Jing Qiu في Ultralytics، وهو نموذج متطور يعيد تعريف التنوع وسهولة الاستخدام في الرؤية الحاسوبية. وبناءً على سنوات من الأبحاث التأسيسية، فإنه يوفر حلاً محسّنًا للغاية وجاهزًا للإنتاج يتفوق في العديد من المهام.
ميزة Ultralytics
YOLO11 ليس مجرد كاشف للأشياء؛ بل هو إطار عمل موحد يدعم تجزئة المثيلات وتصنيف الصور وتقدير الوضعية وكشف صناديق الإحاطة الموجهة (OBB). وهو يتميز ببنية عالية الكفاءة تعطي الأولوية لتوازن سلس بين السرعة وعدد المعاملات والدقة.
علاوة على ذلك، تم دمج YOLO11 بالكامل في منصة Ultralytics، والتي توفر نظامًا بيئيًا مبسطًا لتعليق البيانات وتدريب النماذج والنشر.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج، يصبح توازن الأداء واضحًا. يحقق YOLO11 متوسط دقة (mAP) أعلى مع عدد أقل بكثير من المعاملات وعمليات الفاصلة العائمة (FLOPs) في معظم فئات الحجم مقارنة بنظيراتها من YOLOX.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما هو موضح، تتفوق نماذج YOLO11 باستمرار على YOLOX في الدقة مع الحفاظ على بصمة معاملات أصغر. على سبيل المثال، يحقق YOLO11m متوسط دقة 51.5 mAP مع 20.1 مليون معامل فقط، بينما يحقق YOLOXx متوسط دقة مشابهًا يبلغ 51.1 mAP ولكنه يتطلب 99.1 مليون معامل ضخمة. تجعل كفاءة الذاكرة هذه أثناء التدريب والاستدلال YOLO11 مناسبًا للغاية للنشر على أجهزة الذكاء الاصطناعي الطرفية، مما يجنبه متطلبات ذاكرة CUDA الثقيلة النموذجية للنماذج الأقدم أو القائمة على Transformer مثل RT-DETR.
تتطلب نماذج Ultralytics ذاكرة GPU أقل بكثير أثناء التدريب مقارنة بـ YOLOX والبنيات القائمة على Transformer، مما يسمح للباحثين بتدريب نماذج قوية على الأجهزة الاستهلاكية القياسية.
النظام البيئي وسهولة الاستخدام
أحد أكثر الاختلافات وضوحًا بين إطاري العمل هو تجربة المطور.
غالبًا ما يتطلب YOLOX استنساخ المستودعات، وإعداد بيئات معقدة، وتشغيل وسيطات سطر أوامر مطولة لتدريب وتصدير النماذج إلى تنسيقات مثل ONNX أو TensorRT.
على النقيض تمامًا، يوفر Ultralytics YOLO11 واجهة برمجة تطبيقات (API) وواجهة سطر أوامر (CLI) بلغة Python بسيطة بشكل لا يصدق. تتعامل مكتبة Ultralytics مع زيادة البيانات وضبط المعاملات الفائقة والتصدير تلقائيًا.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")هذا النظام البيئي الذي يتم صيانته جيدًا مدعوم بـ توثيق شامل وتكامل سلس مع أدوات مثل Weights & Biases لـ تتبع التجارب.
حالات الاستخدام المثالية
غالبًا ما يعتمد الاختيار بين هذه النماذج على تفاصيل بيئة النشر.
متى تستخدم YOLOX
- الأنظمة القديمة: إذا كان لديك خط أنابيب راسخ مبني صراحةً حول إطار عمل MegEngine أو نماذج كشف الأشياء من أوائل عام 2021.
- الأساسيات الأكاديمية: عند إجراء أبحاث تتطلب قياس أداء مباشر مقابل البنيات التأسيسية الخالية من نقاط الارتكاز من حقبة 2021.
متى تستخدم YOLO11
- عمليات النشر في بيئة الإنتاج: للتطبيقات التجارية في تجزئة التجزئة الذكية أو أنظمة الإنذار الأمني، حيث يكون الكود القوي والمصان والدقة العالية أمورًا غير قابلة للتفاوض.
- خطوط أنابيب المهام المتعددة: عندما يتطلب المشروع تتبع الأشياء، وتقدير وضعيات البشر، وتجزئة المثيلات باستخدام إطار عمل واحد وموحد.
- الأجهزة الطرفية محدودة الموارد: نظرًا لعدد معاملاتها المنخفض والإنتاجية العالية، يعد YOLO11 مثاليًا للنشر على Raspberry Pi أو عقد الحافة المحمولة عبر CoreML و NCNN.
نظرة إلى المستقبل: ميزة YOLO26
بينما يمثل YOLO11 قفزة هائلة مقارنة بـ YOLOX، فإن مجال الرؤية الحاسوبية يتقدم بسرعة. للمطورين الذين يبدأون مشاريع جديدة اليوم، فإن Ultralytics YOLO26 هو التوصية النهائية.
تم إصدار YOLO26 في يناير 2026، وهو يأخذ البراعة المعمارية لـ YOLO11 ويقدم العديد من الميزات الرائدة:
- تصميم شامل خالٍ من NMS: يلغي YOLO26 معالجة ما بعد الكشف غير الأقصى (NMS)، مما يسمح ببث الاستدلال بشكل أصلي للحصول على خطوط أنابيب نشر أسرع وأبسط (مفهوم تم استكشافه لأول مرة في YOLOv10).
- استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال إزالة توزيع فقدان التركيز (DFL)، أصبح YOLO26 أكثر كفاءة بشكل كبير على وحدات المعالجة المركزية والأجهزة الطرفية منخفضة الطاقة.
- محسن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة من Moonshot AI، يضمن محسن MuSGD عمليات تدريب مستقرة للغاية وتقاربًا سريعًا.
- وظائف فقدان متقدمة: باستخدام ProgLoss + STAL، يحقق YOLO26 تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهو أمر بالغ الأهمية لـ تصوير الطائرات بدون طيار والروبوتات المستقلة.
بالنسبة للغالبية العظمى من مهام الرؤية الحاسوبية الحديثة، فإن ترقية خط أنابيبك للاستفادة من YOLO26 سيوفر أفضل توازن مطلق بين السرعة والدقة وبساطة النشر.