YOLOX مقابل YOLO11: نظرة متعمقة على الكشف عن الكائنات عالي الأداء
لقد كان تطور الرؤية الحاسوبية مدفوعًا بشكل كبير بالسعي وراء أطر عمل للكشف عن الأجسام في الوقت الفعلي تحقق التوازن بين الدقة العالية وسرعة الاستدلال. ومن بين أبرز المعالم في هذه الرحلة YOLOX و Ultralytics YOLO11. ورغم أن كلا النموذجين قد قدما مساهمات كبيرة في هذا المجال، إلا أن هياكلهما الأساسية وفلسفات تصميمهما ونظمهما البيئية للمطورين تختلف اختلافًا جوهريًا.
تستكشف هذه المقارنة التقنية الشاملة هياكلها ومقاييس أدائها ومنهجيات التدريب وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرار مستنير بشأن مشروعك التالي في مجال الذكاء الاصطناعي.
نظرة عامة على YOLOX
قدم الباحثون Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii في 18 يوليو 2021، YOLOX الذي يمثل تحولًا مهمًا في YOLO . وقد نجح في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تقديم تصميم خالٍ من المراسي.
لمزيد من المعلومات الفنية، يمكنك مراجعة ورقة YOLOX Arxiv الأصلية.
الميزات المعمارية الرئيسية
ابتعد YOLOX عن الكشف التقليدي القائم على المرجع من خلال اعتماد رأس منفصل وآلية خالية من المرجع. أدى هذا التصميم إلى تقليل عدد معلمات التصميم وتحسين أداء النموذج في مختلف المعايير. بالإضافة إلى ذلك، أدخل استراتيجيات متقدمة لتعيين التسميات مثل SimOTA لتسريع عملية التدريب وتحسين التقارب.
بينما يوفر YOLOX دقة ممتازة بالنسبة لوقته، إلا أنه يركز بشكل أساسي على اكتشاف الكائنات في المربعات المحددة ويفتقر إلى الدعم الأصلي لمهام الرؤية المعقدة الأخرى الجاهزة للاستخدام.
تصميم خالٍ من المراسي
من خلال التخلص من مربعات الربط المحددة مسبقًا، قلل YOLOX بشكل كبير من الضبط التجريبي المطلوب لمجموعات البيانات المختلفة، مما يجعله أساسًا قويًا للبحث في منهجيات خالية من الربط.
نظرة عامة على Ultralytics YOLO11
صدر في 27 سبتمبر 2024، بقلم جلين جوشر وجينغ تشيو في Ultralytics، YOLO11 نموذج متطور يعيد تعريف التنوع وسهولة الاستخدام في الرؤية الحاسوبية. مبني على سنوات من الأبحاث الأساسية، يوفر حلاً متطورًا للغاية وجاهزًا للإنتاج يتفوق في العديد من المهام.
ميزة Ultralytics
YOLO11 مجرد كاشف للأجسام؛ إنه إطار عمل موحد يدعم تقسيم الحالات وتصنيف الصور وتقدير الوضع وكشف المربعات المحددة (OBB). ويتميز بهيكلية عالية الكفاءة تولي الأولوية للتوازن السلس بين السرعة وعدد المعلمات والدقة.
علاوة على ذلك، YOLO11 دمج YOLO11 بالكامل في Ultralytics التي توفر نظامًا بيئيًا مبسطًا لتعليق البيانات وتدريب النماذج ونشرها.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج، يتضح التوازن في الأداء. YOLO11 متوسط دقة أعلى (mAP) مع عدد أقل بكثير من المعلمات وعمليات FLOP في معظم فئات الحجم مقارنة بنظرائه YOLOX.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما هو موضح، تتفوق YOLO11 باستمرار على YOLOX من حيث الدقة مع الحفاظ على بصمة معلمات أقل. على سبيل المثال، تحقق YOLO11m 51.5 mAP بمعلمات 20.1 مليون فقط، في حين تحقق YOLOXx 51.1 mAP مماثلة mAP تتطلب معلمات ضخمة تبلغ 99.1 مليون. هذه الكفاءة في استخدام الذاكرة أثناء التدريب والاستدلال تجعل YOLO11 مناسبة YOLO11 للنشر على أجهزة AI المتطورة، مما يتجنب متطلبات CUDA الثقيلة التي تتميز بها النماذج القديمة أو النماذج القائمة على المحولات مثل RT-DETR.
تدريب فعال
تتطلب Ultralytics GPU أقل بكثير أثناء التدريب مقارنةً ببنى YOLOX والبنى القائمة على المحولات، مما يتيح للباحثين تدريب نماذج قوية على أجهزة المستهلكين القياسية.
النظام البيئي وسهولة الاستخدام
أحد أبرز الاختلافات بين الإطارين هو تجربة المطور.
غالبًا ما يتطلب YOLOX استنساخ المستودعات، وإعداد بيئات معقدة، وتشغيل حجج سطر أوامر مفصلة لتدريب النماذج وتصديرها إلى تنسيقات مثل ONNX أو TensorRT.
في تناقض صارخ، Ultralytics YOLO11 تقدم Python CLI بسيطة للغاية. تتولى Ultralytics زيادة البيانات وضبط المعلمات الفائقة والتصدير تلقائيًا.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")
هذا النظام البيئي الذي يتم صيانته جيدًا مدعوم بوثائق شاملة وتكامل سلس مع أدوات مثل Weights & Biasesلتتبع التجارب.
حالات الاستخدام المثالية
غالبًا ما يعتمد الاختيار بين هذه النماذج على خصائص بيئة النشر.
متى تستخدم YOLOX
- الأنظمة القديمة: إذا كان لديك خط أنابيب راسخ تم إنشاؤه بشكل صريح حول إطار عمل MegEngine أو نماذج الكشف عن الكائنات في أوائل عام 2021.
- المعايير الأكاديمية: عند إجراء أبحاث تتطلب إجراء مقارنات مباشرة مع البنى الأساسية غير المرتبطة بأي معايير مرجعية من عام 2021.
متى تستخدم YOLO11
- عمليات النشر الإنتاجية: للتطبيقات التجارية في أنظمة البيع بالتجزئة الذكية أو أنظمة الإنذار الأمني، حيث لا يمكن التنازل عن متانة الكود وصيانته ودقته العالية.
- خطوط أنابيب متعددة المهام: عندما يتطلب المشروع تتبع الكائنات وتقدير أوضاع البشر وتقسيم الحالات باستخدام إطار عمل واحد موحد.
- الأجهزة الطرفية ذات الموارد المحدودة: نظرًا لعدد معلماتها المنخفض وإنتاجيتها العالية، YOLO11 مثالية للنشر على Raspberry Pi أو العقد الطرفية المتنقلة عبر CoreML و NCNN.
التطلع إلى المستقبل: ميزة YOLO26
في حين YOLO11 قفزة هائلة مقارنة بـ YOLOX، فإن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، Ultralytics هو الخيار الموصى به بشكل قاطع.
صدر YOLO26 في يناير 2026، وهو يستفيد من البراعة المعمارية لـ YOLO11 قدم العديد من الميزات الرائدة:
- تصميم NMS من البداية إلى النهاية: يزيل YOLO26 المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، ويقوم ببث الاستدلال بشكل أصلي من أجل خطوط أنابيب نشر أسرع وأبسط (مفهوم تم استكشافه لأول مرة في YOLOv10).
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL)، أصبح YOLO26 أكثر كفاءة على وحدات المعالجة المركزية والأجهزة الطرفية منخفضة الطاقة.
- محسّن MuSGD: مستوحى من ابتكارات تدريب LLM من Moonshot AI، يضمن محسّن MuSGD تشغيل تدريبات عالية الاستقرار وتقارب سريع.
- وظائف الخسارة المتقدمة: باستخدام ProgLoss + STAL، يحقق YOLO26 تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لصور الطائرات بدون طيار والروبوتات المستقلة.
بالنسبة للغالبية العظمى من مهام الرؤية الحاسوبية الحديثة، فإن ترقية خط الإنتاج الخاص بك للاستفادة من YOLO26 سيوفر أفضل توازن على الإطلاق بين السرعة والدقة وسهولة النشر.