YOLOX مقابل YOLOv10: مقارنة بين نماذج كشف الكائنات في الوقت الفعلي الخالية من المراسي والخالية من NMS

اتسم تطور نماذج رؤية الحاسوب في الوقت الفعلي بقفزات معمارية كبيرة. ومن أهم المحطات في هذه الرحلة نموذجا YOLOX و YOLOv10. ففي عام 2021، نجح YOLOX في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تقديم تصميم فعال للغاية خالٍ من المراسي (anchor-free). وبعد ثلاث سنوات، أحدث YOLOv10 ثورة في هذا المجال من خلال إلغاء الحاجة إلى خوارزمية كبت العناصر غير القصوى (NMS) أثناء المعالجة اللاحقة، مما دفع حدود الكفاءة والسرعة.

تستكشف هذه المقارنة التقنية الشاملة البنى المعمارية، ومقاييس الأداء، وحالات الاستخدام المثالية لكلا النموذجين، مما يوفر رؤى لمساعدتك في اختيار الأداة المناسبة لمشروعك القادم في كشف الكائنات.

أصول النموذج وبياناته الوصفية

يوفر فهم أصول هذه النماذج سياقًا لاختياراتها المعمارية وبيئات النشر المستهدفة.

تفاصيل YOLOX
المؤلفون: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, and Jian Sun
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
التوثيق: https://yolox.readthedocs.io/en/latest/

تعرف على المزيد حول YOLOX

تفاصيل YOLOv10
المؤلفون: Ao Wang, Hui Chen, Lihao Liu, Kai Chen, Zijia Lin, Jungong Han, and Guiguang Ding
المنظمة: جامعة تسينغhua
التاريخ: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
التوثيق: https://docs.ultralytics.com/models/yolov10/

اعرف المزيد عن YOLOv10

الابتكارات المعمارية

تكمن الاختلافات الجوهرية بين YOLOX و YOLOv10 في كيفية تعاملهما مع توقعات الصناديق المحيطة (bounding box) والمعالجة اللاحقة.

YOLOX: ريادة التصميم الخالي من المراسي

أحدث YOLOX ضجة كبيرة من خلال تحويل عائلة YOLO إلى معمارية خالية من المراسي. فمن خلال التنبؤ بمركز الكائن بدلاً من الاعتماد على صناديق مراسٍ محددة مسبقًا، قلل YOLOX بشكل كبير من عدد معاملات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المخصصة. علاوة على ذلك، قدم نموذجًا برأس مفصول (decoupled head)، مما أدى إلى فصل مهام التصنيف والانحدار إلى مسارات متميزة. حَل هذا النهج التضارب بين تحديد ماهية الكائن وتحديد مكانه، مما أدى إلى تحسن ملحوظ في سرعة التقارب والدقة.

YOLOv10: ثورة التخلص من NMS

بينما قام YOLOX بتبسيط رأس الكشف، إلا أنه كان لا يزال يعتمد على NMS لتصفية توقعات الصناديق المحيطة المتكررة. وقد عالج YOLOv10 هذا الاختناق الأساسي. فمن خلال استخدام تعيينات مزدوجة متسقة أثناء التدريب، يحقق YOLOv10 كشفًا أصليًا من البداية إلى النهاية. فهو يستخدم رأسًا بنمط "واحد إلى متعدد" أثناء التدريب لضمان إشارات إشراف غنية، بينما يستخدم رأسًا بنمط "واحد إلى واحد" أثناء الاستدلال لإخراج التوقعات النهائية مباشرة. هذا التصميم الشامل القائم على كفاءة الدقة يلغي الحاجة إلى NMS تمامًا، مما يقلل بشكل كبير من زمن انتقال الاستدلال على الرقائق المدمجة.

تأثير إزالة NMS

غالبًا ما تكون خوارزمية كبت العناصر غير القصوى (NMS) عملية معقدة للتسريع على وحدات المعالجة العصبية (NPUs). ومن خلال إزالتها، يسمح YOLOv10 للرسم البياني للنموذج بالكامل بالتنفيذ بسلاسة على الأجهزة المتخصصة، مما يحسن بشكل كبير من التوافق مع أطر التحسين مثل OpenVINO و TensorRT.

مقاييس الأداء والمقارنة

عند تقييم النماذج للإنتاج، يعد موازنة الدقة مع العبء الحسابي أمرًا بالغ الأهمية. يوضح الجدول أدناه المقايضات بين مختلف مقاييس YOLOX و YOLOv10.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

تحليل البيانات

تُظهر المقاييس بوضوح القفزة الجيلية لنموذج YOLOv10. على سبيل المثال، يحقق YOLOv10-S متوسط دقة متوسط بنسبة 46.7% مقارنة بـ 46.9% لنموذج YOLOX-m، لكنه يفعل ذلك باستخدام أقل من ثلث المعاملات (7.2 مليون مقابل 25.3 مليون) وبعدد أقل بكثير من عمليات النقطة العائمة (FLOPs). علاوة على ذلك، يدفع نموذج YOLOv10-X من الدرجة الأولى قيمة mAP إلى 54.4%، مما يجعله منافسًا قويًا للمهام التي تتطلب دقة عالية مع بقائه أسرع من معمارية YOLOX-x القديمة.

ميزة نظام Ultralytics البيئي

بينما يظل YOLOX تنفيذًا بحثيًا قويًا مفتوح المصدر، فإن اعتماد YOLOv10 يوفر وصولًا فوريًا إلى النظام البيئي المدار جيدًا الذي توفره Ultralytics. يضمن اختيار نموذج مدعوم من Ultralytics تجربة مستخدم مبسطة تتميز بواجهة برمجة تطبيقات (API) بسيطة ووثائق شاملة.

يستفيد المطورون بشكل كبير من متطلبات الذاكرة في الإطار؛ حيث يستهلك تدريب نماذج Ultralytics عادةً ذاكرة CUDA أقل بكثير من البدائل الثقيلة القائمة على Transformer مثل RT-DETR. تتيح بصمة التدريب الفعالة هذه أحجام دفعات أكبر على الأجهزة الاستهلاكية، مما يسرع الوقت من جمع البيانات إلى نشر النموذج. علاوة على ذلك، يوفر الإطار تنوعًا لا مثيل له، مما يسمح للمستخدمين بالتبديل بسلاسة بين كشف الكائنات، وتجزئة الحالات، وتقدير الوضعية بأقل قدر من تغييرات الكود.

مثال على التدريب والاستدلال

تجعل واجهة برمجة التطبيقات (API) الموحدة التحقق من الأفكار سريعًا للغاية. يوضح المقتطف التالي مدى سهولة تدريب ونشر نموذج YOLOv10 باستخدام الخلفية البرمجية PyTorch:

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export the model for edge deployment
model.export(format="engine", half=True)

من خلال الاستفادة من روتين التصدير المدمج، يتطلب تحويل النماذج إلى تنسيقات مثل TensorRT أو ONNX سطرًا واحدًا فقط من الكود، متجاوزًا تمامًا عقبات التجميع المعقدة.

حالات الاستخدام المثالية وسيناريوهات النشر

يعتمد الاختيار بين هذه البنى المعمارية إلى حد كبير على قيود أجهزتك ومتطلبات المجال المحددة.

تحليلات الفيديو في الوقت الفعلي

بالنسبة للتطبيقات التي تتطلب زمن انتقال منخفض للغاية، مثل القيادة الذاتية أو مراقبة حركة المرور في الوقت الفعلي، يعد YOLOv10 الخيار الأمثل. يضمن تصميمه الشامل الخالي من NMS أوقات تنفيذ حتمية، وهو أمر بالغ الأهمية لأنظمة السلامة حيث لا يمكن التسامح مع زمن انتقال المعالجة اللاحقة المتغير. تحقق هذه النماذج بسهولة معدلات إطارات عالية على أجهزة مثل سلسلة NVIDIA Jetson.

الأساسيات الأكاديمية والمتحكمات الدقيقة للحافة

لا يزال YOLOX يحتفظ بقيمته في الأوساط الأكاديمية حيث يرغب الباحثون في الحصول على أساس نظيف ومفصول الرأس للتجربة مع استراتيجيات تعيين التسميات. بالإضافة إلى ذلك، يمكن ضغط نموذج YOLOX-Nano الصغير بشكل استثنائي (أقل من مليون معلمة) على متحكمات دقيقة للحافة ذات قيود شديدة حيث تُقاس الذاكرة بالكيلوبايت، بشرط أن تكون الأجهزة قادرة على دعم عمليات الالتفاف القياسية.

المعيار النهائي: Ultralytics YOLO26

بينما سجل YOLOv10 قفزة هائلة من خلال إزالة NMS، فإن مجال رؤية الحاسوب يتقدم بسرعة. بالنسبة للمطورين الذين يهدفون إلى تنفيذ أفضل أداء في فئته اليوم، نوصي بشدة باستكشاف YOLO26.

باعتباره أحدث معيار في ذكاء الرؤية الاصطناعي، يأخذ YOLO26 الأفكار التأسيسية لأسلافه ويعززها. إنه يوفر التوازن الأمثل في الأداء، مع دعم أصلي للكشف، والتجزئة، والوضعية، وصناديق التوجيه الموجهة.

إليك سبب كون YOLO26 الخيار الموصى به لخطوط أنابيب رؤية الحاسوب الحديثة:

  • تصميم شامل خالٍ من NMS: بالبناء على اختراقات YOLOv10، يعد YOLO26 شاملاً (end-to-end) بشكل أصلي، مما يضمن أوقات استدلال أسرع وحتمية دون اختناقات في المعالجة اللاحقة.
  • استدلال أسرع على وحدة المعالجة المركزية (CPU) بنسبة تصل إلى 43%: تم تحسينه خصيصًا لحوسبة الحافة، مما يضمن أداءً استثنائيًا على معالجات الأجهزة المحمولة والأجهزة التي تفتقر إلى وحدات معالجة رسومية (GPU) منفصلة.
  • مُحسِّن MuSGD: مستوحى من تدريب النماذج اللغوية الكبيرة (تحديدًا Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD و Muon لتدريب مستقر بشكل لا يصدق وتقارب سريع.
  • ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية للمجالات الصعبة مثل الصور الجوية والملاحة بالطائرات بدون طيار.
  • إزالة DFL: من خلال إزالة خسارة التنسيق التوزيعي (Distribution Focal Loss)، يبسط YOLO26 الرسم البياني للنموذج من أجل تصدير سلس إلى أجهزة الحافة والأجهزة منخفضة الطاقة.
  • تحسينات خاصة بالمهمة: سواء كنت تستخدم تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضعية أو خسارة الزاوية المتخصصة لـ OBB، فإن YOLO26 مضبوط بدقة لكل مهمة رؤية رئيسية.

بالنسبة للمطورين المستعدين لترقية خطوط أنابيبهم باستخدام أكثر أدوات التدريب والنشر كفاءة، فإن الانتقال إلى منصة Ultralytics والاستفادة من YOLO26 يضمن بقاءك في طليعة الذكاء الاصطناعي. يمكن للمستخدمين المهتمين بالبنى القديمة ولكن المستقرة أيضًا مراجعة YOLO11 أو YOLOv8 للحصول على دعم مجتمعي واسع ومتانة مثبتة.

التعليقات