تخطي إلى المحتوى

YOLOX مقابل YOLOv10: التطور من الكشف بدون نقاط ارتكاز إلى الكشف الشامل

شهد مجال اكتشاف الأجسام تغيرًا جذريًا بين عامي 2021 و2024. شكّل YOLOX، الذي أطلقته Megvii، تحولًا كبيرًا عن الأساليب القائمة على المراسي، حيث قدم تصميمًا مبسطًا خاليًا من المراسي أصبح المفضل لخطوط الأساس البحثية. بعد ثلاث سنوات، كشف باحثون من جامعة تسينغهوا النقاب عن YOLOv10، مما دفع النموذج إلى الأمام من خلال القضاء على الحاجة إلى القمع غير الأقصى (NMS) تمامًا من خلال بنية شاملة.

تستكشف هذه المقارنة القفزات التقنية من الرؤوس المنفصلة في YOLOX إلى استراتيجية التعيين المزدوج YOLOv10، مما يساعد المطورين على اختيار الأداة المناسبة لخط أنابيب الرؤية الحاسوبية الخاصة بهم.

مقارنة سريعة

بينما يهدف كلا النموذجين إلى الأداء في الوقت الفعلي، إلا أنهما يحلان مشكلة الكشف بطرق مختلفة. يركز YOLOX على تبسيط عملية التدريب من خلال التعيين الديناميكي للعلامات، بينما YOLOv10 زمن الاستدلال عن طريق إزالة اختناقات ما بعد المعالجة.

YOLOX: الرائد الخالي من الـ Anchor

تم طرح YOLOX في يوليو 2021 من قبل Zheng Ge وفريق Megvii. وقد حولت YOLO إلى آلية خالية من المراسي، مما أدى إلى تقليل عدد معلمات التصميم (مثل أحجام صناديق المراسي) التي كان على المهندسين ضبطها.

  • الابتكار الرئيسي: الرأس المنفصل و SimOTA (تخصيص النقل الأمثل المبسط).
  • الهندسة المعمارية: شبكة CSPDarknet أساسية معدلة مع التركيز على تحقيق التوازن بين السرعة والدقة.
  • الحالة القديمة: يستخدم على نطاق واسع كأساس موثوق به في الأوراق الأكاديمية مثل تقرير YOLOX Arxiv.

تعرف على المزيد حول YOLOX

YOLOv10: كشف شامل في الوقت الفعلي

YOLOv10، الذي أطلقه باحثون في جامعة تسينغهوا في مايو 2024، يعالج مشكلة تكلفة زمن الاستجابة في NMS. من خلال استخدام استراتيجية مزدوجة متسقة أثناء التدريب، يتعلم البرنامج توقع مربع واحد لكل كائن، مما يسمح بنشر حقيقي من البداية إلى النهاية.

  • الابتكار الرئيسي: تدريب NMS عبر مهام التسمية المزدوجة (واحد إلى العديد للإشراف، وواحد إلى واحد للاستدلال).
  • الكفاءة: يقدم تصميم نموذج شامل قائم على الكفاءة والدقة، بما في ذلك تصميم الكتل الموجهة حسب الترتيب.
  • التكامل: مدعوم ضمن نظام Ultralytics لتسهيل التدريب والنشر.

تعرف على المزيد حول YOLOv10

تحليل الأداء

الفجوة في الأداء بين هذه الأجيال كبيرة، لا سيما من حيث الكفاءة (FLOPs) وسرعة الاستدلال على الأجهزة الحديثة. YOLOv10 كتل معمارية أحدث لتحقيق متوسط دقة أعلى (mAP) مع عدد أقل من المعلمات.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

الاختلافات الجوهرية

  1. الكمون: YOLOv10 NMS . على الأجهزة الطرفية، NMS تشكل NMS جزءًا كبيرًا من إجمالي وقت الاستدلال، مما يجعل YOLOv10 أسرع YOLOv10 في خطوط الإنتاج الواقعية.
  2. الدقة: يحقق YOLOv10x 54.4٪ mAP، وهو أعلى بشكل ملحوظ من YOLOX-x الذي يحقق 51.1٪، على الرغم من أن YOLOX-x لديه ما يقرب من ضعف المعلمات (99.1 مليون مقابل 56.9 مليون).
  3. كفاءة الحوسبة: عدد FLOPs YOLOv10 أقل عمومًا بالنسبة للدقة المكافئة، مما يقلل الضغط على GPU واستهلاك الطاقة.

نظرة معمارية متعمقة

YOLOX: رأس منفصل و SimOTA

اختلف YOLOX عن YOLO السابقة YOLO باستخدام رأس منفصل. في أجهزة الكشف التقليدية، كانت مهام التصنيف والتحديد المكاني تشترك في ميزات التلافيف. قام YOLOX بفصل هاتين الميزتين إلى فرعين، مما أدى إلى تحسين سرعة ودقة التقارب.

علاوة على ذلك، أدخلت YOLOX SimOTA، وهي استراتيجية ديناميكية لتعيين التسميات. بدلاً من القواعد الثابتة لمطابقة مربعات الحقيقة الأرضية مع المراسي، تعامل SimOTA عملية المطابقة على أنها مشكلة نقل مثالية، حيث تقوم بتعيين التسميات بناءً على حساب التكلفة الإجمالية. هذا النهج يجعل YOLOX قوية عبر مجموعات البيانات المختلفة دون الحاجة إلى ضبط المعلمات الفائقة بشكل مكثف.

YOLOv10: التعيينات المزدوجة المتسقة

تتمثل المساهمة الرئيسية YOLOv10 في حل التباين بين التدريب والاستدلال الموجود في النماذج NMS.

  • التدريب من واحد إلى العديد: أثناء التدريب، يقوم النموذج بتعيين عينات إيجابية متعددة لكائن واحد لتوفير إشارات إشرافية غنية.
  • الاستدلال الفردي: من خلال مقياس مطابقة متسق، يتعلم النموذج اختيار أفضل مربع واحد أثناء الاستدلال، مما يلغي الحاجة إلى NMS.

بالإضافة إلى ذلك، YOLOv10 وحدات التحويلات الكبيرة النواة والانتباه الذاتي الجزئي (PSA) لالتقاط السياق العام بفعالية دون التكلفة الحسابية الباهظة للمحولات الكاملة.

أهمية التخلص من NMS

القمع غير الأقصى (NMS) هو خوارزمية معالجة لاحقة تقوم بتصفية المربعات المحددة المتداخلة. على الرغم من فعاليتها، إلا أنها متسلسلة ويصعب تسريعها على أجهزة مثل FPGA أو NPU. إزالتها تجعل خط أنابيب النشر حتميًا تمامًا وأسرع.

حالات الاستخدام المثالية

متى تختار YOLOX

  • المعايير الأكاديمية: إذا كنت تكتب ورقة بحثية وتحتاج إلى أداة كشف نظيفة وقياسية وخالية من المراجع لمقارنتها.
  • الأنظمة القديمة: البيئات التي تم التحقق من صحتها بالفعل على قاعدة كود Megvii أو أطر عمل OpenMMLab حيث لا يمكن ترقية محرك الاستدلال بالكامل.

متى تختار YOLOv10

  • التطبيقات منخفضة التأخير: سيناريوهات مثل أنظمة الكبح الذاتية أو الفرز الصناعي عالي السرعة حيث كل ميلي ثانية من المعالجة اللاحقة مهمة.
  • الأجهزة الطرفية ذات الموارد المحدودة: تستفيد الأجهزة ذات CPU المحدودة بشكل كبير من إزالة خطوة NMS .

ميزة Ultralytics

في حين أن YOLOX و YOLOv10 بنى قوية، فإن Ultralytics يوفر الجسر بين كود النموذج الخام والتطبيقات الجاهزة للإنتاج.

تكامل سلس

Ultralytics YOLOv10 مما يتيح لك التبديل بين النماذج بسطر واحد من التعليمات البرمجية. وهذا يلغي الحاجة إلى تعلم واجهات برمجة تطبيقات أو تنسيقات بيانات مختلفة (مثل تحويل التسميات إلى COCO لـ YOLOX).

from ultralytics import YOLO

# Load YOLOv10n or the newer YOLO26n
model = YOLO("yolov10n.pt")

# Train on your data with one command
model.train(data="coco8.yaml", epochs=100, imgsz=640)

تعدد الاستخدامات والنظام البيئي

على عكس مستودع YOLOX المستقل، Ultralytics مجموعة واسعة من المهام التي تتجاوز الكشف، بما في ذلك تقسيم المثيلات وتقدير الوضع و OBB. يمكن إدارة كل ذلك عبر Ultralytics التي توفر إدارة قواعد البيانات عبر الويب والتدريب بنقرة واحدة والنشر إلى تنسيقات مثل CoreML و ONNX و TensorRT.

كفاءة التدريب

تم تحسين Ultralytics من أجل كفاءة الذاكرة. في حين أن بعض النماذج القائمة على المحولات (مثل RT-DETR) تتطلب CUDA كبيرة، فإنYOLO Ultralytics YOLO مصممة للتدريب على وحدات معالجة الرسومات (GPU) الاستهلاكية، مما يتيح الوصول إلى أحدث تقنيات الذكاء الاصطناعي.

المستقبل: YOLO26

بالنسبة للمطورين الذين يبحثون عن أفضل أداء وسهولة في الاستخدام على الإطلاق، نوصي بالبحث عن ما هو أبعد من YOLOv10 الإصدار الجديد YOLO26.

صدر YOLO26 في يناير 2026، وهو يعتمد على الاختراق الذي حققه YOLOv10 NMS YOLOv10 يحسنه من أجل استقرار الإنتاج والسرعة.

  • MuSGD Optimizer: مستوحى من ابتكارات تدريب LLM من Moonshot AI، يضمن هذا المحسن تقاربًا أسرع وتشغيلًا مستقرًا للتدريب.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يبسط YOLO26 الرسم البياني للنموذج، مما يجعل التصدير إلى الأجهزة الطرفية أكثر سلاسة وأقل عرضة لعدم التوافق مع المشغل.
  • السرعة: مُحسّن خصيصًا CPU ، ويوفر سرعات أعلى بنسبة تصل إلى 43٪ مقارنةً بالأجيال السابقة، مما يجعله مثاليًا لأجهزة إنترنت الأشياء القياسية.

تعرف على المزيد حول YOLO26

الخلاصة

يظل YOLOX علامة فارقة مهمة في تاريخ اكتشاف الأجسام، حيث أثبت أن الأساليب الخالية من المراسي يمكن أن تحقق دقة عالية. YOLOv10 يمثل الخطوة المنطقية التالية، حيث يزيل العائق الأخير لـ NMS بمعالجة حقيقية من البداية إلى النهاية.

ومع ذلك، للحصول على حل قوي وطويل الأمد، فإن Ultralytics الذي يقوده YOLO26الحزمة الأكثر اكتمالاً. بفضل الوثائق الفائقة الجودة والدعم النشط من المجتمع والمنصة التي تتولى كل شيء بدءاً من تعليق البيانات وحتى تصدير النماذج، Ultralytics نجاح مشاريع الرؤية الحاسوبية الخاصة بك من النموذج الأولي إلى الإنتاج.

مزيد من القراءة


تعليقات