YOLOX مقابل YOLO11: نظرة متعمقة على الكشف عن الكائنات عالي الأداء
لقد كان تطور الرؤية الحاسوبية مدفوعًا بشكل كبير بالسعي وراء أطر عمل للكشف عن الأجسام في الوقت الفعلي تحقق التوازن بين الدقة العالية وسرعة الاستدلال. ومن بين أبرز المعالم في هذه الرحلة YOLOX و Ultralytics YOLO11. ورغم أن كلا النموذجين قد قدما مساهمات كبيرة في هذا المجال، إلا أن هياكلهما الأساسية وفلسفات تصميمهما ونظمهما البيئية للمطورين تختلف اختلافًا جوهريًا.
تستكشف هذه المقارنة التقنية الشاملة هياكلها ومقاييس أدائها ومنهجيات التدريب وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرار مستنير بشأن مشروعك التالي في مجال الذكاء الاصطناعي.
نظرة عامة على YOLOX
قدم الباحثون Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii في 18 يوليو 2021، YOLOX الذي يمثل تحولًا مهمًا في YOLO . وقد نجح في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تقديم تصميم خالٍ من المراسي.
لمزيد من المعلومات الفنية، يمكنك مراجعة ورقة YOLOX Arxiv الأصلية.
الميزات المعمارية الرئيسية
ابتعد YOLOX عن الكشف التقليدي القائم على المرجع من خلال اعتماد رأس منفصل وآلية خالية من المرجع. أدى هذا التصميم إلى تقليل عدد معلمات التصميم وتحسين أداء النموذج في مختلف المعايير. بالإضافة إلى ذلك، أدخل استراتيجيات متقدمة لتعيين التسميات مثل SimOTA لتسريع عملية التدريب وتحسين التقارب.
بينما يوفر YOLOX دقة ممتازة بالنسبة لوقته، إلا أنه يركز بشكل أساسي على اكتشاف الكائنات في المربعات المحددة ويفتقر إلى الدعم الأصلي لمهام الرؤية المعقدة الأخرى الجاهزة للاستخدام.
تصميم خالٍ من المراسي
من خلال إلغاء صناديق الارتساء (anchor boxes) المحددة مسبقًا، قلل YOLOX بشكل كبير من الضبط التجريبي المطلوب لمجموعات البيانات المختلفة، مما يجعله أساسًا قويًا للبحث في المنهجيات الخالية من الارتساء (anchor-free).
نظرة عامة على Ultralytics YOLO11
صدر في 27 سبتمبر 2024، بقلم جلين جوشر وجينغ تشيو في Ultralytics، YOLO11 نموذج متطور يعيد تعريف التنوع وسهولة الاستخدام في الرؤية الحاسوبية. مبني على سنوات من الأبحاث الأساسية، يوفر حلاً متطورًا للغاية وجاهزًا للإنتاج يتفوق في العديد من المهام.
ميزة Ultralytics
YOLO11 مجرد كاشف للأجسام؛ إنه إطار عمل موحد يدعم تقسيم الحالات وتصنيف الصور وتقدير الوضع وكشف المربعات المحددة (OBB). ويتميز بهيكلية عالية الكفاءة تولي الأولوية للتوازن السلس بين السرعة وعدد المعلمات والدقة.
علاوة على ذلك، YOLO11 دمج YOLO11 بالكامل في Ultralytics التي توفر نظامًا بيئيًا مبسطًا لتعليق البيانات وتدريب النماذج ونشرها.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج، يتضح التوازن في الأداء. YOLO11 متوسط دقة أعلى (mAP) مع عدد أقل بكثير من المعلمات وعمليات FLOP في معظم فئات الحجم مقارنة بنظرائه YOLOX.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما هو موضح، تتفوق نماذج YOLO11 باستمرار على YOLOX في الدقة مع الحفاظ على بصمة معلمات أقل. على سبيل المثال، يحقق YOLO11m نسبة 51.5 mAP بـ 20.1 مليون معلمة فقط، بينما يحقق YOLOXx نسبة 51.1 mAP مماثلة ولكنه يتطلب عددًا هائلاً من 99.1 مليون معلمة. تُعد كفاءة الذاكرة هذه أثناء التدريب والاستدلال تجعل YOLO11 مناسبًا للغاية للنشر على أجهزة الذكاء الاصطناعي الحافية، مع تجنب متطلبات ذاكرة CUDA الثقيلة النموذجية للنماذج القديمة أو القائمة على المحولات مثل RT-DETR.
تدريب فعال
تتطلب Ultralytics GPU أقل بكثير أثناء التدريب مقارنةً ببنى YOLOX والبنى القائمة على المحولات، مما يتيح للباحثين تدريب نماذج قوية على أجهزة المستهلكين القياسية.
النظام البيئي وسهولة الاستخدام
أحد أبرز الاختلافات بين الإطارين هو تجربة المطور.
غالبًا ما يتطلب YOLOX استنساخ المستودعات، وإعداد بيئات معقدة، وتشغيل حجج سطر أوامر مفصلة لتدريب النماذج وتصديرها إلى تنسيقات مثل ONNX أو TensorRT.
في تناقض صارخ، Ultralytics YOLO11 تقدم Python CLI بسيطة للغاية. تتولى Ultralytics زيادة البيانات وضبط المعلمات الفائقة والتصدير تلقائيًا.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")
هذا النظام البيئي الذي يتم صيانته جيدًا مدعوم بوثائق شاملة وتكامل سلس مع أدوات مثل Weights & Biasesلتتبع التجارب.
حالات الاستخدام المثالية
يعتمد الاختيار بين هذه النماذج غالبًا على تفاصيل بيئة النشر.
متى تستخدم YOLOX
- الأنظمة القديمة: إذا كان لديك مسار عمل راسخ مبني بشكل صريح حول إطار عمل MegEngine أو نماذج اكتشاف الكائنات في أوائل عام 2021.
- الأسس الأكاديمية: عند إجراء بحث يتطلب مقارنة معمارية مباشرة مع البنى الأساسية الخالية من نقاط الارتكاز من حقبة عام 2021.
متى تستخدم YOLO11
- عمليات النشر الإنتاجية: للتطبيقات التجارية في التجزئة الذكية أو أنظمة إنذار الأمان، حيث الكود القوي والمُصان والدقة العالية غير قابلة للتفاوض.
- مسارات عمل المهام المتعددة: عندما يتطلب مشروع تتبع الكائنات، تقدير وضعيات البشر، وتجزئة الكائنات باستخدام إطار عمل واحد وموحد.
- أجهزة الحافة محدودة الموارد: نظرًا لعدد معاملاتها المنخفض وإنتاجيتها العالية، يعد YOLO11 مثاليًا للنشر على Raspberry Pi أو عقد الحافة المتنقلة عبر CoreML و NCNN.
التطلع إلى المستقبل: ميزة YOLO26
في حين YOLO11 قفزة هائلة مقارنة بـ YOLOX، فإن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، Ultralytics هو الخيار الموصى به بشكل قاطع.
صدر YOLO26 في يناير 2026، وهو يستفيد من البراعة المعمارية لـ YOLO11 قدم العديد من الميزات الرائدة:
- تصميم شامل خالٍ من NMS: يلغي YOLO26 المعالجة اللاحقة لقمع غير الأقصى (NMS)، مع بث الاستدلال بطبيعته لمسارات نشر أسرع وأبسط (وهو مفهوم تم استكشافه لأول مرة في YOLOv10).
- استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال إزالة Distribution Focal Loss (DFL)، يعد YOLO26 أكثر كفاءة بكثير على وحدات CPU والأجهزة الطرفية منخفضة الطاقة.
- مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM) من Moonshot AI، يضمن مُحسِّن MuSGD تشغيل تدريب مستقر للغاية وتقاربًا سريعًا.
- دوال الخسارة المتقدمة: باستخدام ProgLoss + STAL، يحقق YOLO26 تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لـصور الطائرات بدون طيار والروبوتات المستقلة.
بالنسبة للغالبية العظمى من مهام الرؤية الحاسوبية الحديثة، فإن ترقية خط الإنتاج الخاص بك للاستفادة من YOLO26 سيوفر أفضل توازن على الإطلاق بين السرعة والدقة وسهولة النشر.