تخطي إلى المحتوى

YOLOX مقابل YOLO26: التطور من الكشف عن الكائنات بدون مرساة إلى الكشف عن الكائنات من البداية إلى النهاية

شهد مجال الرؤية الحاسوبية تحولًا سريعًا على مدار نصف العقد الماضي، حيث انتقل من البنى المعقدة القائمة على المراسي إلى التصميمات المبسطة الخالية من المراسي، ووصل أخيرًا إلى أنظمة متكاملة أصلاً. تتعمق هذه المقارنة في الفروق التقنية بين YOLOX، وهو نموذج محوري خالٍ من المراسي تم إصداره في عام 2021، و YOLO26، وهو كاشف متطور (SOTA) شامل أطلقته Ultralytics عام 2026.

بينما وضع YOLOX معايير عالية للبحث والأداء في عصره، يقدم YOLO26 تحسينات ثورية مثل الاستدلالNMS ومحسن MuSGD، مما يجعله الخيار الأفضل لبيئات الإنتاج الحديثة التي تتطلب زمن انتقال منخفض ودقة عالية.

YOLOX: الرائد الخالي من الـ Anchor

أصدر باحثون في Megvii YOLOX في يوليو 2021، وهو يمثل تحولًا كبيرًا عن المنطق القائم على المراسي الذي ساد YOLO السابقة YOLO (مثل YOLOv4 و YOLOv5). من خلال التخلص من مربعات المراسي، سعى المؤلفون إلى تبسيط عملية التصميم وتقليل عبء ضبط المعلمات الفائقة المرتبط بتجميع المراسي.

الميزات التقنية الرئيسية:

  • آلية بدون مرساة: تلغي الحاجة إلى مربعات مرساة محددة مسبقًا، وتعامل اكتشاف الكائنات على أنه مشكلة انحدار نقطة.
  • رأس منفصل: يفصل مهام التصنيف والتحديد المكاني إلى فروع مختلفة من رأس الشبكة، مما ساعد على تحسين سرعة ودقة التقارب.
  • SimOTA: استراتيجية متقدمة لتخصيص العلامات تسمى " تخصيص النقل الأمثل المبسط" (Simplified Optimal Transport Assignment ) والتي تخصص العينات الإيجابية بشكل ديناميكي إلى الحقائق الأساسية.

على الرغم من ابتكاره، يعتمد YOLOX على تقنية Non-Maximum Suppression (NMS) التقليدية للمعالجة اللاحقة. تزيل هذه الخطوة المربعات المحددة المكررة، ولكنها تسبب تباينًا في زمن الاستجابة وعبءًا حسابيًا إضافيًا، مما قد يشكل عائقًا في التطبيقات التي تعمل في الوقت الفعلي بشكل صارم.

تفاصيل النموذج:

  • المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
  • المنظمة: Megvii
  • التاريخ: 2021-07-18
  • روابط:YOLOX Arxiv | YOLOX GitHub

تعرف على المزيد حول YOLOX

YOLO26: المعيار الشامل

أطلق في يناير 2026 بواسطة Ultralytics، يمثل YOLO26 قمة الكفاءة في مجال الرؤية الحاسوبية. فهو يتخلى تمامًا عن خط أنابيب NMS التقليدي، ويعتمد تصميمًا أصليًا شاملاً NMS. تسمح هذه البنية للنموذج بإخراج المجموعة النهائية من الكائنات المكتشفة مباشرةً، مما يقلل بشكل كبير من زمن الاستجابة ويبسط منطق النشر.

الميزات التقنية الرئيسية:

  • بنيةNMS: تقضي على التكلفة الحسابية لفرز وتصفية آلاف الصناديق المرشحة، مما ينتج عنه أوقات استدلال مستقرة ويمكن التنبؤ بها.
  • MuSGD Optimizer: مُحسِّن هجين يجمع SGD Muon (مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة مثل Kimi K2 من Moonshot AI). وهذا يضمن ديناميكيات تدريب أكثر استقرارًا وتقاربًا أسرع.
  • إزالة DFL: تعمل إزالة فقدان بؤرة التوزيع (DFL) على تبسيط رأس النموذج، مما يجعله أكثر توافقًا مع الأجهزة الطرفية وأدوات التكمية.
  • ProgLoss + STAL: وظائف خسارة متقدمة (خسارة برمجية وخسارة محاذاة نظرية المقياس) تعمل على تحسين التعرف على الأجسام الصغيرةبشكل كبير — وهي قدرة مهمة للغاية بالنسبة لصور الطائرات بدون طيار والتفتيش الصناعي.

تفاصيل النموذج:

  • المؤلفون: غلين جوشر وجينغ تشيو
  • المنظمة: Ultralytics
  • التاريخ: 2026-01-14
  • روابط:وثائق YOLO26 | Ultralytics

تعرف على المزيد حول YOLO26

لماذا يعتبر النهج الشامل مهماً

تنتج النماذج القديمة مثل YOLOX آلاف الصناديق الزائدة التي يجب ترشيحها باستخدام تقنية Non-Maximum Suppression (NMS). هذه العملية CPU ويصعب تحسينها على مسرعات الأجهزة مثل TPUs أو NPUs. تصميم YOLO26 الشامل يلغي هذه الخطوة، مما يسمح للشبكة العصبية بإخراج النتيجة النهائية مباشرة. وهذا يتيح استنتاج أسرع بنسبة تصل إلى 43% على وحدات المعالجة المركزية (CPU) مقارنة بالأجيال السابقة.

مقارنة الأداء

يوضح الجدول التالي الفارق في الأداء بين البنيتين. تظهر YOLO26 دقة (mAP) وكفاءة فائقتين، لا سيما في الإصدارات Nano و Small المستخدمة في تطبيقات الذكاء الاصطناعي المتطورة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

ملاحظة: سرعات YOLOX تكون عادةً أبطأ على الأجهزة الحديثة بسبب NMS بينما تتضمن مقاييس YOLO26 كل وقت المعالجة اللاحقة.

نظرة معمارية متعمقة

العمود الفقري والرأس

يستخدم YOLOX شبكة أساسية CSPDarknet معدلة مع التركيز على فصل رأس الكشف. على الرغم من فعالية هذا الفصل، إلا أنه يزيد من عدد المعلمات بشكل كبير مقارنة بتصميمات الرأس المشترك في الطرز السابقة.

في المقابل، يستخدم YOLO26 بنية أساسية عالية التحسين مصممة عبر مفاهيم البحث عن البنية العصبية (NAS). تم تبسيط هيكله الرئيسي عن طريق إزالة DFL، مما لا يقلل حجم النموذج فحسب، بل يتوافق تمامًا مع مسرعات الأجهزة التي تعاني من طبقات الإخراج المعقدة. وهذا يجعل التصدير إلى TensorRT أو ONNX بسلاسة.

وظائف الخسارة والتدريب

قدمت YOLOX SimOTA لحل مشكلة تخصيص التسميات بشكل ديناميكي. ومع ذلك، فإنها لا تزال تعتمد على وظائف الخسارة القياسية. تطورت YOLO26 من خلال دمج ProgLoss (الخسارة البرمجية) و STAL (خسارة المحاذاة النظرية للمقياس). تعمل هذه الخسائر على تعديل العقوبة بشكل ديناميكي لأخطاء الصندوق المحيط بناءً على حجم الكائن ومرحلة التدريب، مما يعالج الضعف التاريخي YOLO في اكتشاف الكائنات الصغيرة مثل المشاة البعيدين أو عيوب التصنيع.

علاوة على ذلك، يجلب مُحسِّن MuSGD في YOLO26 تقنيات الاستقرار من عالم LLM إلى مجال الرؤية. من خلال تطبيع التحديثات عبر الطبقات بشكل أكثر فعالية من SGD القياسي، يحقق YOLO26 دقة أعلى مع عدد أقل من فترات التدريب.

حالات الاستخدام المثالية

متى تستخدم YOLOX

يظل YOLOX مرجعاً قيماً في الأوساط الأكاديمية.

  • أساسيات البحث: بنيتها الواضحة والخالية من المراسي تجعلها أساسًا ممتازًا للباحثين الذين يدرسون استراتيجيات تخصيص العلامات.
  • المشاريع القديمة: قد يكون من المكلف للغاية ترحيل الأنظمة المدمجة بالفعل بشكل كبير مع MegEngine أو فروع YOLOX المحددة على الفور.

متى تستخدم YOLO26

YOLO26 هو الخيار الموصى به لجميع التطبيقات التجارية والصناعية الجديدة تقريبًا.

  • الحوسبة الطرفية: بفضل CPU الأسرع بنسبة تصل إلى 43٪، يعد YOLO26 مثاليًا لأجهزة Raspberry Pi و Jetson Nano والأجهزة المحمولة التي لا تتوفر فيها وحدات معالجة الرسومات.
  • الروبوتات والأنظمة المستقلة: التصميمNMS يزيل ارتفاعات زمن الاستجابة الناتجة عن المشاهد المزدحمة (مثل روبوت يتنقل في مستودع مزدحم)، مما يضمن أوقات استجابة حتمية.
  • فحص عالي الدقة: إن الجمع بين ProgLoss + STAL يجعل YOLO26 متفوقة في مهام مراقبة الجودة التي تتضمن عيوبًا دقيقة.
  • تطبيقات متعددة المهام: على عكس YOLOX، الذي يعد في المقام الأول أداة كشف، يدعم Ultralytics YOLO26 لتقسيم المثيلات وتقدير الوضع ومربعات الحدود الموجهة (OBB).

ميزة Ultralytics

اختيار YOLO26 يعني أيضًا الحصول على إمكانية الوصول إلى Ultralytics . في حين يوفر YOLOX مستودعًا مستقلًا، Ultralytics إطارًا موحدًا يبسط دورة حياة الذكاء الاصطناعي بأكملها.

  1. سهولة الاستخدام: تتيح لك Python المتسقة التبديل بين المهام (detect segment، والوضع) والنماذج (YOLO26، YOLO11، RT-DETR) عن طريق تغيير سطر واحد من التعليمات البرمجية.
  2. كفاءة التدريب: تم تحسين Ultralytics من أجل كفاءة الذاكرة أثناء التدريب. يمكنك تدريب مجموعات أكبر على وحدات معالجة الرسومات (GPU) الاستهلاكية مقارنة بالبنى القديمة أو المحولات الثقيلة.
  3. Ultralytics : توفر Ultralytics واجهة قائمة على الويب لإدارة مجموعات البيانات، والتعليق التلقائي، وتدريب النماذج بنقرة واحدة، مما يسهل التعاون بين الفرق.
  4. نظام بيئي جيد الصيانة: بفضل التحديثات المتكررة والوثائق الشاملة والدعم النشط من المجتمع، لا يترك المطورون وحدهم في مواجهة مشاكل التصحيح.

مثال على التعليمات البرمجية

تشغيل YOLO26 سهل للغاية باستخدام ultralytics الحزمة. يوضح المثال التالي تحميل نموذج مدرب مسبقًا وتشغيل الاستدلال على صورة.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

الخلاصة

يمثل كل من YOLOX و YOLO26 معالم بارزة في تاريخ اكتشاف الأجسام. نجح YOLOX في تحدي النموذج القائم على المراسي في عام 2021، مما يثبت أن النماذج الخالية من المراسي يمكن أن تحقق أداءً من الدرجة الأولى. ومع ذلك، يعيد YOLO26 تعريف المعيار لعام 2026 من خلال حل مشكلة "المرحلة الأخيرة" من الاستدلال: NMS .

بفضل هندسته المتكاملة ومُحسِّن MuSGD ووظائف الخسارة المتخصصة، يوفر YOLO26 توازنًا لا مثيل له بين السرعة والدقة وسهولة الاستخدام. بالنسبة للمطورين الذين يسعون إلى نشر حلول رؤية حاسوبية قوية — سواء على خوادم سحابية قوية أو أجهزة طرفية محدودة الموارد — فإنYOLO26 هو الخيار الأمثل.

للمهتمين باستكشاف هياكل معمارية حديثة أخرى، ننصحكم بمراجعة YOLO11 للكشف عن الأغراض العامة أو RT-DETR للتطبيقات القائمة على المحولات.


تعليقات