YOLO26 مقابل YOLOX: تطور الكشف عن الكائنات في الوقت الفعلي
تطورت رؤية الكمبيوتر بسرعة خلال السنوات الخمس الماضية، حيث انتقلت من البنى المعقدة القائمة على المراسي إلى النماذج المبسطة عالية الأداء. تقارن هذه المقارنة بين نموذجين محوريين في هذا الخط الزمني: YOLOX، وهو كاشف مبتكر خالٍ من المراسي تم إصداره في عام 2021، و YOLO26، وهو نموذج الرؤية المتطور الذي أصدرته Ultralytics يناير 2026. في حين أن YOLOX مهد الطريق للعديد من القرارات المعمارية الحديثة، فإن YOLO26 يمثل ذروة هذه التطورات، حيث يوفر سرعة ودقة فائقتين وسهولة في النشر.
نظرة عامة على النموذج
Ultralytics YOLO26
تم إصدار YOLO26 في يناير 2026، وهو مصمم للجيل التالي من الذكاء الاصطناعي المتطور. ويقدم بنية أصلية شاملة (NMS)، مما يلغي الحاجة إلى خطوات المعالجة اللاحقة التي غالبًا ما تعيق عملية النشر. من خلال القضاء على Distribution Focal Loss (DFL) وتقديم مُحسّن MuSGD - المستوحى من تدريب نماذج اللغة الكبيرة - يحقق YOLO26 سرعات CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة، مما يجعله الخيار الأول لتطبيقات إنترنت الأشياء والروبوتات.
جلين جوشر وجينغ تشيو
Ultralytics
14 يناير 2026
GitHub | Docs
YOLOX
كان YOLOX، الذي أطلقته Megvii في عام 2021، أحد أوائل أجهزة الكشف "بدون مرساة" عالية الأداء التي تحولت إلى رأس منفصل وتعيين علامة SimOTA. نجح في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي في ذلك الوقت، حيث قدم تصميمًا أنظف من سابقيه (مثل YOLOv4 و YOLOv5) من خلال إزالة مربعات التثبيت NMS لاستقرار التدريب، على الرغم من أنه لا يزال يتطلب NMS .
Zheng Ge، Songtao Liu، وآخرون.
Megvii
18 يوليو 2021
ArXiv | GitHub
مقارنة الأداء الفني
يوضح الجدول التالي الفروق في الأداء بين النموذجين. يُظهر YOLO26 مكاسب كبيرة في كل من الدقة (mAP) والكفاءة، لا سيما في CPU حيث تم تحسين بنيته للتنفيذ بزمن انتقال منخفض.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
سياق الأداء
على الرغم من أن YOLOXnano تتميز بمعلمات و FLOPs أقل، إلا أنها تعمل بدقة (416px) ودقة (25.8 mAP) أقل بكثير مقارنة بـ YOLO26n (40.9 mAP 640px). عند تطبيعها للحصول على دقة فعالة، توفر YOLO26 زمن استدلال أفضل بكثير.
الابتكارات المعمارية
من البداية إلى النهاية مقابل المعالجة اللاحقة
يكمن الاختلاف الأكثر أهمية في خط أنابيب النشر. YOLOX لا يحتوي على مرساة ولكنه لا يزال يعتمد على Non-Maximum Suppression (NMS) لتصفية المربعات المحددة المكررة. NMS من الناحية الحسابية ويصعب تحسينه على الأجهزة الطرفية (مثل FPGAs أو NPUs) لأنه يتضمن عمليات فرز وتسلسل.
يستخدم YOLO26 تصميمًا أصليًا شاملاً، وهو مفهوم تم ابتكاره لأول مرة في YOLOv10. ينتج عن هذا التصميم الكشف النهائي مباشرة من الشبكة دون NMS. وينتج عن ذلك:
- زمن انتقال أقل: لا توجد تكاليف إضافية للمعالجة اللاحقة.
- الكمون الحتمي: وقت الاستدلال ثابت بغض النظر عن كثافة الكائنات.
- نشر مبسط: التصدير إلى ONNX أو TensorRT أمر سهل للغاية، حيث لا حاجة إلى NMS مخصصة NMS .
استقرار التدريب: MuSGD مقابل SGD
يستخدم YOLOX التدرج العشوائي القياسي (SGD) مع رؤوس منفصلة، والذي تم تطويره لعام 2021. ومع ذلك، يقدم YOLO26 مُحسِّن MuSGD، وهو مزيج من SGD ُحسِّن Muon (مستوحى من Kimi K2 من Moonshot AI). تضفي هذه الابتكار خصائص الاستقرار من تدريب نموذج اللغة الكبيرة (LLM) على الرؤية الحاسوبية، مما يتيح تقاربًا أسرع واستخراجًا أكثر قوة للميزات أثناء عملية التدريب.
دوال الخسارة
يستخدم YOLOX IoU واستراتيجية الرأس المنفصلة. يطور YOLO26 هذا باستخدام ProgLoss + STAL (خسارة التخصيص الهدف الناعم). تعالج هذه التركيبة على وجه التحديد التحدي المتمثل في اكتشاف الأجسام الصغيرة، وهو نقطة ضعف تقليدية في أجهزة الكشف أحادية المرحلة. يقوم ProgLoss بضبط وزن الخسارة ديناميكيًا أثناء التدريب، مما يسمح للنموذج بالتركيز على الأمثلة الأصعب (غالبًا الأجسام الصغيرة أو المحجوبة) مع تقدم التدريب.
النظام البيئي وسهولة الاستخدام
أحد الاختلافات الجوهرية بين الإطارين هو النظام البيئي المحيط بهما.
ميزة Ultralytics
يتيح استخدام YOLO26 الوصول إلى Ultralytics وهي مجموعة شاملة من الأدوات لإدارة البيانات والتعليق عليها وتدريب النماذج.
- واجهة برمجة تطبيقات موحدة: سواء كنت تقوم بالكشف عن الكائنات أو تقسيم المثيلات أو تقدير الوضع أو الكشف عن الصندوق المحدد الموجه (OBB) ، تظل واجهة برمجة التطبيقات متسقة.
- من الصفر إلى البطل: يمكنك الانتقال من التثبيت إلى التدريب على مجموعة بيانات مخصصة في أقل من 5 أسطر من python .
- مرونة التصدير: قم بتصدير النماذج بسلاسة إلى CoreMLو OpenVINO و TFLite والعديد من الأنظمة الأخرى باستخدام أمر واحد.
from ultralytics import YOLO
# Load the model
model = YOLO("yolo26n.pt")
# Train on custom data
model.train(data="coco8.yaml", epochs=100)
# Export for deployment
model.export(format="onnx")
تعقيد YOLOX
YOLOX هو في الأساس مستودع أبحاث. على الرغم من قوته، إلا أنه يتطلب المزيد من التكوين اليدوي لمجموعات البيانات وخطوط التدريب. يفتقر إلى الدعم الأصلي للمهام خارج نطاق الكشف القياسي (مثل الوضع أو التجزئة) داخل نفس المستودع، وغالبًا ما يتطلب التصدير إلى تنسيقات الحافة نصوصًا برمجية خارجية أو أدوات تابعة لجهات خارجية (مثل onnx-simplifier).
تطبيقات عملية في أرض الواقع
البيع بالتجزئة الذكي وإدارة المخزون
بالنسبة لبيئات البيع بالتجزئة التي تتطلب إدارة المخزون، فإن YOLO26 هو الخيار الأفضل. إن إزالة DFL (توزيع فقدان البؤرة) والهندسة المعمارية الشاملة تسمح له بالعمل بكفاءة على معالجات ARM منخفضة الطاقة الموجودة في كاميرات الرفوف الذكية. تضمن الدقة المحسنة لـ YOLO26s (48.6 mAP) مقارنة بـ YOLOX-s (40.5 mAP) دقة أفضل للمخزون مع عدد أقل من النتائج السلبية الخاطئة.
الملاحة الذاتية للطائرات بدون طيار
تتطلب الطائرات بدون طيار معالجة صور عالية الدقة بأقل تأخير ممكن. يتفوق YOLO26 في هذا المجال بفضل ProgLoss، الذي يعزز اكتشاف الأجسام الصغيرة مثل المركبات البعيدة أو خطوط الكهرباء من خلال الصور الجوية. يضمن الإخراج NMS أن تتلقى حلقة التحكم في الطائرة بدون طيار البيانات بمعدل ثابت، وهو أمر بالغ الأهمية لأنظمة تجنب الاصطدام. على العكس من ذلك، NMS يتسبب اعتماد YOLOX على NMS في حدوث ارتفاعات في زمن الاستجابة في البيئات المزدحمة (على سبيل المثال، الطيران فوق غابة أو حشد من الناس)، مما قد يعرض استقرار الطيران للخطر.
الروبوتات الصناعية
في مجال التصنيع، غالبًا ما تستخدم الأذرع الروبوتية الرؤية في مهام الالتقاط والوضع. يدعم نظام YOLO26 البيئي OBB (Oriented Bounding Boxes)، الذي يوفر زاوية الأجسام، وهو أمر بالغ الأهمية للإمساك بالأشياء غير المحاذاة للمحور. يتطلب YOLOX تعديلات كبيرة لدعم OBB، بينما يدعمه YOLO26 بشكل فوري.
الخلاصة
في حين كان YOLOX علامة فارقة مهمة في تعميم الكشف بدون مرساة، يمثل YOLO26 مستقبل الرؤية الحاسوبية الفعالة. بفضل تصميمه الشامل، ونسبة الدقة إلى زمن الاستجابة الفائقة، والدعم القوي من Ultralytics يعد YOLO26 الخيار الموصى به للبحث الأكاديمي والاستخدام التجاري في عام 2026.
للمطورين الذين يحتاجون إلى حلول معمارية مختلفة، YOLO11 يقدم بديلاً مثبتاً، ونماذج قائمة على المحولات مثل RT-DETR توفر دقة عالية للبيئات GPU.