YOLOX مقابل YOLOv5: مقارنة متعمقة للهندسة المعمارية والأداء

يعد اختيار نموذج اكتشاف الكائنات المناسب قراراً حاسماً يحدد نجاح أي مشروع رؤية حاسوبية. يقدم هذا الدليل مقارنة تقنية شاملة بين نموذجين محوريين في مشهد الذكاء الاصطناعي: YOLOX الخاص بـ Megvii و Ultralytics YOLOv5. من خلال تحليل بنيتهما، ومقاييس الأداء، وأنظمة التدريب البيئية، نهدف إلى مساعدة المطورين والباحثين على اتخاذ خيار مستنير لبيئات النشر الخاصة بهم.

مقدمة عن النماذج

ظهر كلا النموذجين خلال فترة من التقدم السريع في اكتشاف الكائنات في الوقت الفعلي، ومع ذلك فقد تبنيا فلسفات معمارية مختلفة لتحقيق أدائهما.

YOLOX: نهج خالٍ من نقاط الارتكاز (Anchor-Free)

تم إصداره من قبل الباحثين Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii في 18 يوليو 2021، وقدم YOLOX تحولاً مهماً من خلال الابتعاد عن صناديق الارتكاز التقليدية. كما ورد في تقريرهم التقني على Arxiv، دمج YOLOX تصميماً خالياً من نقاط الارتكاز مع رأس مفكك واستراتيجية تعيين التسميات SimOTA. يهدف هذا التصميم إلى سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، مما يوفر أداءً قوياً على مجموعات البيانات القياسية.

اعرف المزيد عن YOLOX

YOLOv5: المعيار القياسي للذكاء الاصطناعي البصري في الإنتاج

من تأليف Glenn Jocher وإصدار Ultralytics في 26 يونيو 2020، أصبح YOLOv5 بسرعة المعيار الصناعي للرؤية الحاسوبية المنشورة. تم بناؤه أصلاً على إطار عمل PyTorch، وعمل على إتاحة الذكاء الاصطناعي المتطور للجميع من خلال توفير سهولة استخدام لا تضاهى، وتدريب سريع للغاية، ومستودع مصقول للغاية. ركزت بنية YOLOv5 على توازن مثالي بين السرعة والدقة وسهولة النشر، مما جعله المفضل لكل شيء بدءاً من أجهزة الحافة وصولاً إلى عمليات النشر السحابي الضخمة.

اعرف المزيد حول YOLOv5

الاختلافات المعمارية

إن فهم الاختلافات الميكانيكية الجوهرية بين هذه الشبكات يوضح سبب اختلاف أدائها عبر المهام المختلفة.

خالٍ من نقاط الارتكاز مقابل قائم على نقاط الارتكاز

التباين الأكثر تحديداً هو آلية YOLOX الخالية من نقاط الارتكاز. تعتمد النماذج التقليدية مثل YOLOv5 على صناديق ارتكاز محددة مسبقاً للتنبؤ بصناديق الإحاطة، وهو ما يتطلب تحليلاً عنقودياً على مجموعة بيانات التدريب لتحديد أحجام الارتكاز المثلى. يلغي YOLOX هذا، حيث يتنبأ بإحداثيات صندوق الإحاطة مباشرة في كل موقع مكاني. في حين أن النهج الخالي من نقاط الارتكاز يقلل من عدد معلمات التصميم والضبط التجريبي، فإن نهج YOLOv5 القائم على نقاط الارتكاز والمحسّن، بمساعدة وظيفة الارتكاز التلقائي، يضمن تقارب تدريب مستقر للغاية ويمكن التنبؤ به مباشرة بمجرد الاستخدام.

رأس مفكك (Decoupled Head) مقابل رأس مقترن (Coupled Head)

يستخدم YOLOX رأساً مفككاً، مما يعني أن مهام التصنيف والانحدار مفصولة إلى فروع شبكة عصبية متميزة. جادل المؤلفون بأن هذا يحل الصراعات بين تعلم الميزات المكانية والدلالية. على العكس من ذلك، استخدم YOLOv5 رأساً مقترناً عالي التحسين (في إصداراته السابقة) مما زاد من الكفاءة الحسابية وقلل من زمن انتقال الاستدلال، وهو أمر بالغ الأهمية للحوسبة الطرفية في الوقت الفعلي.

التطور المعماري

بينما ناصر YOLOX الرأس المفكك في عام 2021، تبنت Ultralytics لاحقاً البنى المفككة وأتقنتها في نماذج لاحقة مثل YOLOv8 ونموذج YOLO26 المتطور، مما يجمع بين أفضل ما في العالمين.

استراتيجية تعيين التسميات

يستخدم YOLOX تقنية SimOTA لتعيين التسميات، والتي تصيغ اقتران كائنات الحقيقة الأرضية بالتنبؤات كمسألة نقل أمثل. يحسن هذا التعيين الديناميكي التعامل مع المشاهد المزدحمة. يستخدم YOLOv5 تعييناً قوياً قائماً على قواعد الشكل، مما يضمن تغذية عينات إيجابية عالية الجودة باستمرار إلى دالة الخسارة، مما يساهم في استقرار التدريب الأسطوري الخاص به.

الأداء والمعايير

المقايضة بين السرعة والدقة هي الاختبار النهائي لهذه البنى. يوضح الجدول أدناه أداء أحجام النماذج المختلفة على المعايير القياسية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

بينما يحقق YOLOX درجات mAP تنافسية، خاصة في متغيراته الأكبر، يحتفظ YOLOv5 بميزة ملحوظة في سرعة استدلال TensorRT بشكل عام. على سبيل المثال، يوفر نموذج YOLOv5s نسب سرعة إلى دقة استثنائية، مما يجعله مرغوباً للغاية للتطبيقات في الوقت الفعلي حيث يكون كل جزء من الألف من الثانية مهماً.

ميزة Ultralytics: التدريب وسهولة الاستخدام

عند الانتقال من البحث إلى الإنتاج، غالباً ما يكون النظام البيئي المحيط بالنموذج بنفس أهمية النموذج نفسه. وهنا، تصبح مزايا نظام Ultralytics البيئي واضحة بشكل صارخ.

تجربة مستخدم مبسطة

يُشاد بـ YOLOv5 عالمياً لتجربة المطور "من الصفر إلى الاحتراف". تسمح لك واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics و CLI بتحميل النماذج وتدريبها ونشرها بأسطر برمجية واحدة. في المقابل، يتطلب تشغيل YOLOX من مستودع Megvii GitHub مزيداً من التكوين اليدوي لمتغيرات البيئة، وإعدادات مسار Python المعقدة، ومنحنى تعلم أكثر حدة وهو أمر نموذجي لقواعد بيانات البحث الأكاديمي.

كفاءة التدريب ومتطلبات الذاكرة

تم تصميم نماذج Ultralytics بدقة لتقليل استخدام الذاكرة أثناء التدريب. يتطلب YOLOv5 ذاكرة CUDA أقل بكثير مقارنة بنماذج المحولات ذات المعلمات الكثيفة مثل RT-DETR أو نماذج الأبحاث غير المحسنة. وهذا يسمح للمطورين بتدريب أحجام دفعات أكبر على الأجهزة المخصصة للمستهلكين، مما يسرع دورة التطوير التكرارية.

تعدد الاستخدامات عبر المهام

بينما يعد YOLOX إطار عمل لاكتشاف الكائنات فقط، فقد طور نظام Ultralytics البيئي YOLOv5 لدعم مهام رؤية متعددة. بمجرد الاستخدام، يمكنك إجراء تصنيف الصور، وتجزئة المثيلات، واكتشاف الكائنات باستخدام نفس بناء جملة واجهة برمجة التطبيقات تماماً.

الابتكار المستمر

إذا كنت بحاجة إلى مهام أكثر تقدماً مثل تقدير الوضع أو اكتشاف صندوق الإحاطة الموجه (OBB)، فإننا نوصي بشدة بالترقية إلى أحدث بنية Ultralytics YOLO26، والتي تدعم كل ذلك بشكل أصلي مع دقة متطورة.

مقارنة الكود

يتم إظهار الفرق في سهولة الاستخدام بشكل أفضل من خلال الكود.

التدريب باستخدام YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

التدريب باستخدام YOLOX: (يتطلب استنساخ المستودع يدوياً، وتثبيت setup.py، ووسيطات CLI معقدة)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

يزيل نهج Ultralytics الاحتكاك، مما يسمح لك بالتركيز على مجموعة بياناتك ومنطق التطبيق بدلاً من تصحيح ملفات التكوين. علاوة على ذلك، فإن تتبع تجاربك سلس مع عمليات تكامل مدمجة لـ Weights & Biases و Comet ML.

حالات الاستخدام المثالية والتطبيقات الواقعية

يعتمد الاختيار بين هذه النماذج على البيئة التشغيلية لمشروعك.

أين يتفوق YOLOX

يظل YOLOX مرشحاً قوياً في البيئات الأكاديمية حيث يدرس الباحثون صراحةً النماذج الخالية من نقاط الارتكاز أو استراتيجيات تعيين التسميات. كما أنه مفيد في السيناريوهات التي يكون فيها اكتشاف المشاهد المزدحمة هو المقياس الأساسي المطلق وتكون سرعات النشر على الحافة ثانوية.

حيث يتفوق YOLOv5

YOLOv5 هو البطل بلا منازع للنشر العملي.

  • التصنيع عالي السرعة: بالنسبة لـ اكتشاف العيوب في خط التجميع، يضمن الحد الأدنى من زمن استدلال YOLOv5 على وحدات معالجة الرسومات الطرفية فحص المنتجات دون إبطاء حزام الإنتاج.
  • الطائرات بدون طيار والتصوير الجوي: تسمح بصمته الذاكرية الفعالة بتشغيله على أجهزة كمبيوتر مرافقة خفيفة الوزن على الطائرات بدون طيار لمهام مثل مراقبة الزراعة وتتبع الحياة البرية.
  • تجزئة التجزئة الذكية: من الدفع الآلي إلى إدارة المخزون، يصدر YOLOv5 بسهولة إلى TensorRT و ONNX للنشر الشامل عبر آلاف كاميرات المتاجر.

نظرة مستقبلية: ميزة YOLO26

على الرغم من أن YOLOv5 نموذج أسطوري، إلا أن مجال الذكاء الاصطناعي يتقدم بسرعة. إذا كنت تبدأ مشروعاً جديداً اليوم، فإننا ننصح بشدة بالنظر في أحدث جيل من نماذج Ultralytics.

تم إصداره في عام 2026، ويمثل Ultralytics YOLO26 قفزة هائلة إلى الأمام. يتميز بـ تصميم شامل خالٍ من NMS، مما يلغي تماماً الحاجة إلى معالجة لاحقة لـ Non-Maximum Suppression، وهو ما يبسط منطق النشر بشكل كبير. من خلال إزالة Distribution Focal Loss (DFL) واستخدام مُحسِّن MuSGD المتطور، يحقق YOLO26 استدلالاً أسرع لوحدة المعالجة المركزية بنسبة تصل إلى 43% مقارنة بالأجيال السابقة مع الحفاظ على دقة أعلى، خاصة على الكائنات الصغيرة بفضل دوال خسارة ProgLoss + STAL الجديدة.

سواء اخترت الموثوقية التي تم اختبارها في المعارك لـ YOLOv5 أو أداء YOLO26 المتطور، تضمن لك منصة Ultralytics حصولك على أفضل الأدوات المتاحة لنقل حلول الرؤية الحاسوبية الخاصة بك من المفهوم إلى الإنتاج بسلاسة. تأكد من استكشاف وثائق Ultralytics الشاملة لفتح الإمكانات الكاملة لخط أنابيب الذكاء الاصطناعي الخاص بك.

التعليقات