تخطي إلى المحتوى

YOLOX مقابل YOLOv10: مقارنة بين الكشف عن الكائنات في الوقت الحقيقي بدون مرساة NMS

تميز تطور نماذج الرؤية الحاسوبية في الوقت الفعلي بقفزات كبيرة في مجال الهندسة المعمارية. ويمثل YOLOX و YOLOv10 معلمتين بارزتين في هذه الرحلة. فقد نجح YOLOX، الذي تم إصداره في عام 2021، في سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي من خلال تقديم تصميم عالي الفعالية بدون مرساة. وبعد ثلاث سنوات، YOLOv10 هذا المجال من خلال التخلص من الحاجة إلى القمع غير الأقصى (NMS) أثناء المعالجة اللاحقة، مما أدى إلى توسيع حدود الكفاءة والسرعة.

تستكشف هذه المقارنة التقنية الشاملة البنى ومقاييس الأداء وحالات الاستخدام المثالية لكلا النموذجين، وتقدم رؤى تساعدك على اختيار الأداة المناسبة لمشروعك التالي في مجال اكتشاف الكائنات.

أصول النموذج والبيانات الوصفية

إن فهم أصول هذه النماذج يوفر سياقًا لخياراتها المعمارية وبيئات النشر المقصودة.

تفاصيل YOLOX
المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
المنظمة: Megvii
التاريخ: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
المستندات: https://yolox.readthedocs.io/en/latest/

تعرف على المزيد حول YOLOX

YOLOv10
المؤلفون: Ao Wang، Hui Chen، Lihao Liu، Kai Chen، Zijia Lin، Jungong Han، و Guiguang Ding
المنظمة: جامعة تسينغهوا
التاريخ: 2024-05-23
Arxiv: https://arxiv.org/abs/2405.14458
GitHub: https://github.com/THU-MIG/yolov10
المستندات: ultralytics

تعرف على المزيد حول YOLOv10

الابتكارات المعمارية

YOLOv10 الاختلافات الأساسية بين YOLOX و YOLOv10 في كيفية تعاملهما مع تنبؤات مربع الحدود والمعالجة اللاحقة.

YOLOX: تصميم رائد بدون مرساة

أحدثت YOLOX ضجة كبيرة من خلال تحويل YOLO إلى بنية خالية من المراسي. من خلال توقع مركز الكائن بدلاً من الاعتماد على مربعات المراسي المحددة مسبقًا، قللت YOLOX بشكل كبير من عدد معلمات التصميم والضبط التجريبي المطلوب لمجموعات البيانات المخصصة. علاوة على ذلك، أدخلت رأسًا منفصلاً، وفصلت مهام التصنيف والانحدار إلى مسارات متميزة. حل هذا النهج التضارب بين تحديد ماهية الكائن وتحديد مكانه ، مما أدى إلى زيادة ملحوظة في سرعة التقارب والدقة.

YOLOv10: ثورة NMS-Free

على الرغم من أن YOLOX بسطت رأس الكشف، إلا أنها لا تزال تعتمد على NMS تنبؤات المربعات المحيطة الزائدة. YOLOv10 هذا العائق الأساسي. من خلال استخدام التعيينات المزدوجة المتسقة أثناء التدريب، YOLOv10 الكشف الأصلي من البداية إلى النهاية. يستخدم رأسًا واحدًا إلى العديد أثناء التدريب لضمان إشارات إشرافية غنية، بينما يستخدم رأسًا واحدًا إلى واحد أثناء الاستدلال لإخراج التنبؤات النهائية مباشرةً. هذا التصميم الشامل الذي يحركه الكفاءة والدقة يلغي NMS مما يقلل بشكل كبير من زمن الاستدلال على الرقائق المدمجة.

تأثير إزالة NMS

غالبًا ما يكون عدم القمع الأقصى عملية معقدة لتسريع وحدات المعالجة العصبية (NPUs). من خلال إزالته، YOLOv10 بتنفيذ الرسم البياني للنموذج بالكامل بسلاسة على أجهزة متخصصة، مما يحسن بشكل كبير التوافق مع أطر العمل المُحسّنة مثل OpenVINO و TensorRT.

مقاييس الأداء والمقارنة

عند تقييم نماذج الإنتاج، من الضروري تحقيق التوازن بين الدقة والتكلفة الحسابية. يوضح الجدول أدناه المفاضلات بين مختلف مقاييس YOLOX و YOLOv10.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

تحليل البيانات

تُظهر المقاييس بوضوح القفزة الجيلية YOLOv10. على سبيل المثال، يحقق YOLOv10 متوسط دقة يبلغ 46.7٪ مقارنة بـ 46.9٪ لـ YOLOX-m، ولكنه يفعل ذلك باستخدام أقل من ثلث المعلمات (7.2 مليون مقابل 25.3 مليون) وعدد أقل بكثير من FLOPs. علاوة على ذلك، يرفع نموذج YOLOv10 من الدرجة الأولى متوسط mAP 54.4٪، مما يجعله شديد التنافسية في المهام التي تتطلب دقة عالية، مع الحفاظ على سرعته مقارنةً بهيكل YOLOX-x الأقدم.

ميزة النظام البيئي لـ Ultralytics

بينما يظل YOLOX تطبيقًا بحثيًا مفتوح المصدر قويًا، فإن اعتماد YOLOv10 وصولاً فوريًا إلى النظام البيئي الذي يتم صيانته جيدًا والذي توفره Ultralytics. يضمن اختيار نموذج Ultralytics تجربة مستخدم مبسطة تتميز بواجهة برمجة تطبيقات بسيطة ووثائق شاملة.

يستفيد المطورون بشكل كبير من متطلبات الذاكرة الخاصة بالإطار؛ حيث يستهلك تدريب Ultralytics عادةً CUDA أقل بكثير من البدائل الثقيلة القائمة على المحولات مثل RT-DETR. تسمح هذه البصمة التدريبية الفعالة بحجم دفعات أكبر على الأجهزة الاستهلاكية، مما يسرع الوقت من جمع البيانات إلى نشر النموذج. علاوة على ذلك، يوفر الإطار تنوعًا لا مثيل له، مما يسمح للمستخدمين بالتبديل بسلاسة بين اكتشاف الكائنات وتجزئة المثيلات وتقدير الوضع مع تغييرات بسيطة في الكود.

مثال على التدريب والاستدلال

تجعل واجهة برمجة التطبيقات الموحدة عملية التحقق من صحة الأفكار سريعة للغاية. يوضح المقتطف التالي مدى سهولة تدريب ونشر YOLOv10 باستخدام PyTorch الخلفية:

from ultralytics import YOLO

# Load a pre-trained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export the model for edge deployment
model.export(format="engine", half=True)

من خلال الاستفادة من إجراءات التصدير المدمجة، وتحويل النماذج إلى تنسيقات مثل TensorRT أو ONNX يتطلب سطرًا واحدًا فقط من التعليمات البرمجية، متجاوزًا تمامًا عقبات التجميع المعقدة.

حالات الاستخدام المثالية وسيناريوهات النشر

يعتمد الاختيار بين هذه البنى بشكل كبير على قيود الأجهزة ومتطلبات المجال المحددة.

تحليلات الفيديو في الوقت الفعلي

بالنسبة للتطبيقات التي تتطلب زمن انتقال منخفض للغاية، مثل القيادة الذاتية أو مراقبة حركة المرور في الوقت الفعلي، YOLOv10 الخيار الأفضل. يضمن تصميمه الشامل NMS أوقات تنفيذ حتمية، وهو أمر بالغ الأهمية لأنظمة السلامة التي لا يمكنها تحمل زمن انتقال متغير بعد المعالجة. تحقق النماذج بسهولة معدلات إطارات عالية على أجهزة مثل سلسلة NVIDIA .

الخطوط الأساسية الأكاديمية والميكروكونترولرات المتطورة

لا يزال YOLOX يحظى بأهمية في الأوساط الأكاديمية حيث يرغب الباحثون في الحصول على أساس نظيف ومنفصل لتجربة استراتيجيات تعيين التسميات. بالإضافة إلى ذلك، يمكن ضغط YOLOX-Nano الصغير للغاية (أقل من مليون معلمة) على وحدات التحكم الدقيقة ذات الحواف المقيدة للغاية حيث تقاس الذاكرة بالكيلوبايت، شريطة أن تدعم الأجهزة عمليات التحويل القياسية.

المعيار النهائي: Ultralytics

في حين أن YOLOv10 قفزة هائلة من خلال إزالة NMS فإن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمطورين الذين يهدفون إلى تحقيق أفضل أداء على الإطلاق في الوقت الحالي، نوصي بشدة باستكشاف YOLO26.

تم إصدار YOLO26 كأحدث معيار في مجال الذكاء الاصطناعي للرؤية، وهو يأخذ الأفكار الأساسية لسابقيه ويطورها بشكل كبير. يوفر هذا البرنامج توازنًا مثاليًا في الأداء، حيث يدعم بشكل أساسي الكشف والتجزئة والوضع والمربعات المحددة الموجهة.

إليك الأسباب التي تجعل YOLO26 الخيار الموصى به لخطوط إنتاج الرؤية الحاسوبية الحديثة:

  • تصميم شامل NMS: بناءً على الإنجازات الرائدة لـ YOLOv10، يتميز YOLO26 بطبيعته الشاملة، مما يضمن أوقات استدلال أسرع وحتمية دون عوائق في المعالجة اللاحقة.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : تم تحسينه خصيصًا للحوسبة الطرفية، مما يضمن أداءً استثنائيًا على المعالجات والأجهزة المحمولة التي تفتقر إلى وحدات معالجة رسومات منفصلة.
  • MuSGD Optimizer: مستوحى من تدريب نموذج اللغة الكبيرة (على وجه التحديد Moonshot AI's Kimi K2)، يستخدم YOLO26 مزيجًا من SGD Muon لتدريب مستقر للغاية وتقارب سريع.
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية للمجالات الصعبة مثل الصور الجوية وملاحة الطائرات بدون طيار.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يبسط YOLO26 الرسم البياني للنموذج من أجل التصدير السلس إلى الأجهزة الطرفية والأجهزة منخفضة الطاقة.
  • تحسينات خاصة بالمهام: سواء كنت تستخدم تقدير احتمالية السجل المتبقي (RLE) لتقدير الوضع أو فقدان الزاوية المتخصص لـ OBB، فإن YOLO26 تم ضبطه بدقة لكل مهمة رؤية رئيسية.

بالنسبة للمطورين المستعدين لترقية خطوط إنتاجهم باستخدام أدوات التدريب والنشر الأكثر كفاءة المتاحة، فإن الانتقال إلى Ultralytics والاستفادة من YOLO26 يضمن لك البقاء في طليعة الذكاء الاصطناعي. يمكن للمستخدمين المهتمين بالبنى القديمة ولكن المستقرة مراجعة YOLO11 أو YOLOv8 للحصول على دعم مجتمعي واسع النطاق ومتانة مثبتة.


تعليقات