YOLOX مقابل YOLO11: نظرة فنية متعمقة في تطور الكشف عن الأجسام
يُعد اختيار بنية الكشف عن الكائنات المثالية أمرًا محوريًا للمطورين الذين يهدفون إلى تحقيق التوازن بين الدقة وزمن الوصول وكفاءة الحوسبة. يقارن هذا التحليل الشامل بين YOLOX، وهو نموذج رائد بدون مرساة من Megvii، و Ultralytics YOLO11، وهو أحدث تكرار متطور من Ultralytics. في حين أن YOLOX قدمت ابتكارات كبيرة في عام 2021، فإن YOLO11 تمثل أحدث ما توصلت إليه رؤية الحاسوب في عام 2024، حيث تقدم إطارًا موحدًا للمهام المتنوعة التي تتراوح من الكشف إلى تقسيم المثيلات.
YOLOX: سد الفجوة بين البحث والصناعة
يمثل YOLOX، الذي تم إصداره في عام 2021، تحولًا كبيرًا في عائلة YOLO من خلال اعتماد آلية خالية من المرساة وفصل رأس التنبؤ. لقد تم تصميمه لسد الفجوة بين البحث الأكاديمي والتطبيق الصناعي.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 2021-07-18
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
- المستندات:توثيق YOLOX
الهندسة المعمارية والابتكارات
انحرف YOLOX عن التكرارات السابقة مثل YOLOv5 عن طريق إزالة مربعات الارتكاز، مما قلل من تعقيد التصميم وعدد المعلمات الفائقة التجريبية. يتميز هيكلها بـ رأس مفصول، يفصل مهام التصنيف والانحدار إلى فروع مختلفة، مما أدى إلى تحسين سرعة التقارب والدقة. بالإضافة إلى ذلك، قدم SimOTA، وهي إستراتيجية متقدمة لتعيين التسميات تقوم بتعيين عينات موجبة ديناميكيًا، مما يزيد من تحسين الأداء.
نقاط القوة والضعف
نقاط القوة:
- تصميم خالٍ من المرتكزات (Anchor-Free Design): يلغي الحاجة إلى التجميع اليدوي لمربعات الارتكاز، مما يبسط مسار التدريب.
- رأس منفصل: يحسن دقة تحديد الموقع من خلال تحسين التصنيف والانحدار بشكل مستقل.
- Research Baseline: بمثابة نقطة مرجعية قوية لدراسة anchor-free detectors.
نقاط الضعف:
- دعم محدود للمهام: يركز بشكل أساسي على اكتشاف الكائنات، ويفتقر إلى الدعم الأصلي للتقسيم أو تقدير الوضع أو مربعات الإحاطة الموجهة (OBB).
- نظام بيئي مجزأ: يفتقر إلى مجموعة أدوات موحدة ويتم صيانتها بنشاط للنشر والتتبع وعمليات تعلم الآلة مقارنة بالأطر الحديثة.
- كفاءة أقل: يتطلب عمومًا المزيد من المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs) لتحقيق دقة مماثلة للنماذج الأحدث مثل YOLO11.
Ultralytics YOLO11: المعيار الجديد للرؤية الذكاء الاصطناعي
Ultralytics YOLO11 يحسن إرث الكشف عن الأجسام في الوقت الفعلي مع التركيز على الكفاءة والمرونة وسهولة الاستخدام. لقد تم تصميمه ليكون الحل الأمثل لكل من النماذج الأولية السريعة وعمليات النشر واسعة النطاق.
- المؤلفون: Glenn Jocher و Jing Qiu
- المؤسسة:Ultralytics
- التاريخ: 2024-09-27
- GitHub:Ultralytics Repository
- المستندات:مستندات Ultralytics YOLO11
الهندسة المعمارية ومزايا النظام البيئي
يستخدم YOLO11 بنية محسّنة للغاية وخالية من المرساة تعمل على تحسين استخراج الميزات مع تقليل النفقات الحسابية. على عكس YOLOX، فإن YOLO11 ليس مجرد نموذج ولكنه جزء من نظام بيئي شامل. وهو يدعم مجموعة واسعة من مهام رؤية الكمبيوتر - بما في ذلك التصنيف والتجزئة وتقدير الوضع والتتبع - داخل واجهة برمجة تطبيقات واحدة سهلة الاستخدام.
عمليات تعلم الآلة المتكاملة (MLOps)
يتكامل YOLO11 بسلاسة مع Ultralytics HUB وأدوات الطرف الثالث مثل Weights & Biases و Comet، مما يسمح لك بتصور التجارب وإدارة مجموعات البيانات بسهولة.
لماذا تختار YOLO11؟
- Versatility: إطار عمل واحد لـ object detection و instance segmentation و pose estimation و image classification.
- سهولة الاستخدام: يتيح Python API و CLI المبسطان للمطورين تدريب النماذج ونشرها ببضعة أسطر فقط من التعليمات البرمجية.
- توازن الأداء: يحقق mAP فائقًا مع سرعات استدلال أسرع على كل من وحدات المعالجة المركزية ووحدات معالجة الرسومات مقارنة بالأسلاف والمنافسين.
- كفاءة الذاكرة: مصمم بمتطلبات ذاكرة أقل أثناء التدريب والاستدلال، مما يجعله أكثر سهولة من النماذج القائمة على المحولات مثل RT-DETR.
- جاهز للنشر: يضمن الدعم الأصلي للتصدير إلى تنسيقات مثل ONNX و TensorRT و CoreML و TFLite التوافق مع الأجهزة المتنوعة، من NVIDIA Jetson إلى الأجهزة المحمولة.
تحليل الأداء
يسلط الجدول أدناه الضوء على اختلافات الأداء بين YOLOX و YOLO11. يُظهر YOLO11 باستمرار دقة أعلى (mAP) مع عدد أقل من المعلمات و FLOPs، مما يترجم إلى سرعات استدلال أسرع.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
النقاط الرئيسية
- هيمنة الكفاءة: توفر نماذج YOLO11 مقايضة أفضل بكثير بين السرعة والدقة. على سبيل المثال، تحقق YOLO11m 51.5 mAP مع 20.1 مليون معلمة فقط، متفوقة على YOLOX-x الضخمة (51.1 mAP، 99.1 مليون معلمة) بينما هي أصغر بـ 5 مرات تقريبًا.
- سرعة الاستدلال: على T4 GPU باستخدام TensorRT، يسجل YOLO11n 1.5 مللي ثانية، مما يجعله خيارًا استثنائيًا لتطبيقات الاستدلال في الوقت الفعلي حيث يكون زمن الوصول أمرًا بالغ الأهمية.
- أداء وحدة المعالجة المركزية (CPU Performance): توفر Ultralytics معايير شفافة لوحدة المعالجة المركزية (CPU)، مما يعرض صلاحية YOLO11 للنشر على الأجهزة بدون مسرّعات مخصصة.
- كفاءة التدريب: تسمح بنية YOLO11 بتقارب أسرع أثناء التدريب، مما يوفر وقتًا وموارد حاسوبية قيمة.
تطبيقات عملية في أرض الواقع
أين يتفوق YOLO11
- المدن الذكية: بفضل سرعتها ودقتها العالية، تعتبر YOLO11 مثالية لـ أنظمة إدارة حركة المرور ومراقبة سلامة المشاة.
- التصنيع: القدرة على إجراء segmentation و detect obb تجعله مثاليًا لمراقبة الجودة واكتشاف العيوب في الأجزاء الموجهة على خطوط التجميع.
- الرعاية الصحية: الدقة العالية مع الاستخدام الفعال للموارد تمكن تحليل الصور الطبية على الأجهزة الطرفية في البيئات السريرية.
أين يتم استخدام YOLOX
- الأنظمة القديمة: المشاريع التي تأسست حوالي 2021-2022 والتي لم تنتقل بعد إلى Architectures الأحدث.
- البحث الأكاديمي: الدراسات التي تبحث تحديدًا في تأثيرات الرؤوس المنفصلة أو الآليات الخالية من المرساة بمعزل عن غيرها.
تجربة المستخدم ومقارنة التعليمات البرمجية
تعطي Ultralytics الأولوية لتجربة مستخدم مبسطة. في حين أن YOLOX غالبًا ما يتطلب ملفات تهيئة معقدة وإعدادًا يدويًا، يمكن استخدام YOLO11 بأقل قدر من التعليمات البرمجية.
استخدام Ultralytics YOLO11
يمكن للمطورين تحميل نموذج مُدرَّب مسبقًا، وتشغيل الاستدلال، وحتى التدريب على بيانات مخصصة ببضعة أسطر من Python:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
سهولة التدريب
تدريب نموذج YOLO11 على مجموعة بيانات مخصصة بسيط بنفس القدر. تتعامل المكتبة تلقائيًا مع زيادة البيانات وضبط المعلمات الفائقة والتسجيل.
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
الخلاصة
في حين أن YOLOX لعب دورًا محوريًا في نشر detect الكائنات الخالية من anchor، فإن Ultralytics YOLO11 يمثل الخيار الأفضل لتطوير الذكاء الاصطناعي الحديث.
يتفوق YOLO11 على YOLOX في الدقة والسرعة والكفاءة مع توفير نظام بيئي قوي يتم صيانته جيدًا. إن تعدد استخداماته عبر مهام رؤية متعددة - مما يلغي الحاجة إلى التوفيق بين المكتبات المختلفة للـ detect والـ segmentation وتقدير الوضعية - يقلل بشكل كبير من تعقيد التطوير. بالنسبة للمطورين الذين يبحثون عن حل عالي الأداء ومضمون للمستقبل مدعومًا بدعم مجتمعي نشط و وثائق شاملة، فإن YOLO11 هو المسار الموصى به للمضي قدمًا.
اكتشف المزيد من النماذج
استكشف كيف تقارن YOLO11 بالبنى الرائدة الأخرى للعثور على الأنسب لاحتياجاتك الخاصة: