YOLO11 YOLOX: التطور المعماري وتحليل الأداء
في عالم الرؤية الحاسوبية سريع التطور، يعد اختيار نموذج الكشف عن الأجسام المناسب أمراً بالغ الأهمية لنجاح المشروع. وهناك معلمان هامان في هذه الرحلة هما YOLO11 و YOLOX. في حين قدم YOLOX مفاهيم رائدة خالية من المراسي في عام 2021، فإن YOLO11 الذي تم إصداره في أواخر عام 2024) يعمل على تحسين هذه الأفكار من خلال تحسينات معمارية حديثة وكفاءة فائقة ودعم قوي من نظام Ultralytics .
يقدم هذا الدليل مقارنة تقنية متعمقة لمساعدة المطورين والباحثين والمهندسين على اختيار النموذج الأمثل لاحتياجاتهم الخاصة، بدءًا من النشر الفوري على الحافة وحتى التحليل عالي الدقة من جانب الخادم.
ملخص تنفيذي
YOLO11 يمثل تتويجًا لسنوات من التحسين المتكرر من قبل Ultralytics. وهو يتميز بتنوعه، حيث يوفر دعمًا أصليًا للكشف والتجزئة وتقدير الوضع والمربعات المحددة الاتجاه (OBB). تم تحسين بنيته لتناسب الأجهزة الحديثة، مما يوفر دقة أعلى لكل FLOP مقارنة بالطرازات القديمة.
كان YOLOX، الذي طورته Megvii في عام 2021، إصدارًا محوريًا ساهم في انتشار نموذج الكشف بدون مرساة. فقد بسط عملية التدريب من خلال إزالة مربعات المرساة وأدخل تقنيات تعزيز متقدمة مثل MixUp Mosaic. وعلى الرغم من أنه لا يزال كاشفًا فعالًا، إلا أنه يفتقر إلى القدرات متعددة المهام وخط أنابيب النشر السلس الذي يميز Ultralytics الأحدث.
بالنسبة للمطورين الذين يبدؤون مشاريع جديدة اليوم، YOLO11 أو YOLO26 المتطورة بشكل عام بسبب أدائها الفائق من حيث نسبة الأداء إلى الكفاءة وسهولة الاستخدام.
مقاييس المقارنة الفنية
يوضح الجدول التالي الاختلافات في الأداء بين البنيتين عبر مختلف أحجام النماذج.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
تحليل الأداء
يحقق YOLO11m معدل mAP أعلى mAP 51.5٪) من أكبر YOLOXx (51.1٪) مع استخدام معلمات أقل بنحو 5 أضعاف (20.1 مليون مقابل 99.1 مليون) وتشغيل أسرع بنحو 3 أضعاف على وحدات معالجة الرسومات T4. هذا التحسن الكبير في الكفاءة يجعل YOLO11 أرخص YOLO11 في النشر على نطاق واسع.
نظرة معمارية متعمقة
YOLO11: الكفاءة المحسنة والتنوع
المؤلفون: جلين جوشر، جينغ تشيو (Ultralytics)
التاريخ: سبتمبر 2024
YOLO11 على وحدات C2f (CSP Bottleneck مع 2 تلافيف) التي تم تقديمها في الإصدارات السابقة، ولكنه يعززها من أجل تدفق أفضل للانحدار واستخراج الميزات.
- العمود الفقري: عمود فقري محسّن قائم على CSP يوازن بين العمق والعرض لتقليل الحمل الحسابي إلى الحد الأدنى مع زيادة الحقول الاستقبالية إلى الحد الأقصى.
- الرأس: رأس كشف موحد يدعم مهام متعددة — كشف الأجسام، وتقسيم الحالات، وتقدير الوضع— دون الحاجة إلى تغييرات كبيرة في البنية.
- بدون مرساة: مثل YOLOX، YOLO11 نهجًا بدون مرساة، مما يقلل من عدد معلمات التصميم (مثل أحجام ونسب المراسي) ويبسط تعقيد النموذج.
- ديناميكيات التدريب: تدمج استراتيجيات متقدمة لتعزيز البيانات في مسار Ultralytics مما يضمن المتانة في مواجهة الإضاءة المتنوعة والانسداد.
YOLOX: الرائد الخالي من الـ Anchor
المؤلفون: Zheng Ge، وآخرون (Megvii)
التاريخ: يوليو 2021
تم تصميم YOLOX لسد الفجوة بين مجتمع الباحثين والتطبيقات الصناعية.
- رأس منفصل: قدم YOLOX هيكل رأس منفصل حيث يتم التعامل مع مهام التصنيف والانحدار بواسطة فروع منفصلة. وقد وجد أن هذا يحسن سرعة ودقة التقارب.
- SimOTA: كان أحد الابتكارات الرئيسية هو "تخصيص النقل الأمثل المبسط" (SimOTA) لتخصيص التسميات. تخصص هذه الاستراتيجية الديناميكية كائنات الحقيقة الأرضية للتنبؤات بشكل أكثر فعالية من IoU الثابتة.
- آلية بدون مرساة: من خلال إزالة صناديق المرساة، ألغى YOLOX الحاجة إلى الضبط اليدوي للمرساة، وهو أحد المشاكل الشائعة في YOLO السابقة YOLO (v2-v5).
- تعزيز قوي: سمح الاستخدام المكثف MixUp Mosaic و MixUp لـ YOLOX بالتدريب بفعالية من الصفر.
النظام البيئي وسهولة الاستخدام
أحد العوامل الأكثر أهمية للمطورين هو النظام البيئي للبرمجيات المحيط بالنموذج. فهذا يحدد مدى سهولة تدريب النموذج والتحقق من صحته ونشره.
ميزة Ultralytics
YOLO11 من Ultralytics الناضج الذي يتم صيانته بشكل نشط. يوفر هذا التكامل العديد من المزايا المتميزة:
- واجهة برمجة تطبيقات موحدة: التبديل بين المهام أمر بسيط. يمكنك الانتقال من اكتشاف السيارات إلى تقسيم الأورام عن طريق تغيير معلمة واحدة في Python أو CLI.
- مرونة النشر: يتضمن إطار العمل وظيفة تصدير مدمجة إلى تنسيقات مثل ONNXو TensorRTو CoreML و OpenVINO. وهذا يتيح للمطورين نشر النماذج في بيئات الإنتاج بسطر واحد من التعليمات البرمجية.
- دعم المنصة: تعمل Ultralytics على تبسيط دورة الحياة بأكملها، بدءًا من تعليق مجموعات البيانات وحتى التدريب السحابي وإدارة النماذج.
from ultralytics import YOLO
# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")
# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for deployment
path = model.export(format="onnx")
نظام YOLOX البيئي
يتم استضافة YOLOX في المقام الأول كمستودع للأبحاث. على الرغم من أن الكود مفتوح المصدر وعالي الجودة، إلا أنه غالبًا ما يتطلب مزيدًا من التكوين اليدوي. عادةً ما يحتاج المستخدمون إلى إدارة أدوات تحميل البيانات الخاصة بهم، وكتابة نصوص برمجية مخصصة للتصدير لأجهزة معينة، والتنقل في قاعدة كود يتم تحديثها بشكل أقل تكرارًا مقارنة Ultralytics .
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه النماذج على القيود المحددة لبيئة التطبيق.
حالات الاستخدام المثالية لـ YOLO11
- تحليلات الفيديو في الوقت الفعلي: بفضل سرعات استدلال T4 التي تصل إلى 1.5 مللي ثانية، يعد YOLO11n مثاليًا لمعالجة تدفقات الفيديو عالية الإطارات في الثانية لإدارة حركة المرور أو تحليلات الرياضة.
- أنظمة متعددة المهام: إذا كان التطبيق يتطلب تتبع الكائنات وتقدير الوضع في وقت واحد (على سبيل المثال، تحليل التمارين الرياضية في صالة الألعاب الرياضية)، فإن بنية الرأس المتعددة الاستخدامات YOLO11 تقلل من الحاجة إلى نماذج متعددة ثقيلة.
- النشر التجاري المتطور: التصدير السلس إلى NVIDIA أو Raspberry Pi يجعل YOLO11 لمنتجات إنترنت الأشياء التجارية.
حالات الاستخدام المثالية لـ YOLOX
- المقارنة الأكاديمية: يظل YOLOX أساسًا قويًا للباحثين الذين يقارنون طرق الكشف بدون مرساة من الفترة 2021-2022.
- الأنظمة القديمة: قد تجد المشاريع التي استثمرت بالفعل بشكل كبير في قاعدة كود YOLOX وخطوط الأنابيب المخصصة للتكامل أنه من الأكثر فعالية من حيث التكلفة الحفاظ عليها بدلاً من ترحيلها.
- قيود محددة على الأجهزة المحمولة: يتميز نموذج YOLOX-Nano بخفة وزنه الفائقة (0.91 مليون معلمة)، مما يجعله مفيدًا للأجهزة المحمولة ذات المساحة المحدودة للغاية، على الرغم من أن النماذج الأحدث مثل YOLO26n توفر الآن أحجامًا تنافسية مع دقة أعلى بكثير.
المستقبل: أدخل YOLO26
للمطورين الباحثين عن أحدث التقنيات، أطلقت Ultralytics YOLO26 (يناير 2026). يمثل هذا النموذج قفزة كبيرة إلى الأمام، حيث يحل محل كل من YOLO11 YOLOX في معظم حالات الاستخدام.
يقدم YOLO26 العديد من الابتكارات الرئيسية:
- نهاية إلى نهاية أصلاً: يزيل Non-Maximum Suppression (NMS)، وهي خطوة ما بعد المعالجة التي غالباً ما تسبب اختناقات في سرعة الاستدلال. وينتج عن ذلك مخرجات أسرع وحتمية.
- MuSGD Optimizer: مستوحى من تقنيات تدريب LLM، يضمن هذا المحسن تقاربًا مستقرًا ويقلل من وقت التدريب.
- الكفاءة: يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة، مما يجعله قوة دافعةGPU .
إذا كنت تبدأ مشروعًا جديدًا، فإننا نوصي بشدة بتقييم YOLO26 جنبًا إلى جنب مع YOLO11.
الخلاصة
اكتسب كل من YOLO11 YOLOX مكانتهما في تاريخ الرؤية الحاسوبية. كان YOLOX رائدًا أثبت جدوى الكشف بدون مرساة. ومع ذلك، YOLO11 حزمة أكثر إقناعًا للمطورين اليوم: فهو أسرع وأكثر دقة ويدعم مجموعة واسعة من المهام، كما أنه مدعوم بنظام بيئي يقلل بشكل كبير من وقت التطوير.
نماذج أخرى للاستكشاف
- YOLO26: أحدث نموذج متطور من Ultralytics يتميز بالكشف الشامل NMS.
- RT-DETR: كاشف قائم على المحولات يوفر دقة عالية، وهو مثالي للسيناريوهات التي تتوفر فيها GPU وفيرة.
- YOLOv9: معروف ببرمجية معلومات التدرج (PGI) وبنية GELAN.
- YOLOv8: نموذج كلاسيكي موثوق به ومعتمد على نطاق واسع ضمن عائلة YOLO.