YOLOX مقابل YOLOv5: مقارنة متعمقة بين البنية والأداء
يعد اختيار نموذج الكشف عن الكائنات المناسب قرارًا حاسمًا يحدد نجاح أي مشروع للرؤية الحاسوبية. يقدم هذا الدليل مقارنة تقنية شاملة بين نموذجين محوريين في مجال الذكاء الاصطناعي: YOLOX من Megvii و Ultralytics YOLOv5من Ultralytics. من خلال تحليل هياكلهما ومقاييس أدائهما وأنظمة التدريب الخاصة بهما، نهدف إلى مساعدة المطورين والباحثين على اتخاذ قرار مستنير بشأن بيئات النشر الخاصة بهم.
مقدمة إلى النماذج
ظهر كلا النموذجين خلال فترة من التقدم السريع في مجال الكشف عن الأجسام في الوقت الفعلي، لكنهما اتبعا فلسفتين مختلفتين في البنية لتحقيق أدائهما.
YOLOX: نهج خالٍ من المرساة
أطلق الباحثون Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii في 18 يوليو 2021، YOLOX الذي أحدث تغييرًا كبيرًا بالابتعاد عن مربعات الربط التقليدية. وفقًا لتقريرهم الفني المنشور في Arxiv، دمج YOLOX تصميمًا خاليًا من المربعات المرجعية مع رأس منفصل واستراتيجية تعيين العلامات SimOTA. يهدف هذا التصميم إلى سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، مما يوفر أداءً قويًا على مجموعات البيانات القياسية.
YOLOv5: المعيار القياسي للذكاء الاصطناعي البصري في الإنتاج
صممه Glenn Jocher وأصدرته Ultralytics 26 يونيو 2020، YOLOv5 أصبح YOLOv5 المعيار الصناعي للرؤية الحاسوبية المطبقة. تم بناؤه أصلاً على PyTorch وقد ساهم في تعميم أحدث تقنيات الذكاء الاصطناعي من خلال توفير سهولة استخدام لا مثيل لها، وتدريب سريع للغاية، ومستودع مصقول للغاية. ركزت بنية YOLOv5 على تحقيق التوازن المثالي بين السرعة والدقة وسهولة النشر، مما جعلها المفضلة لكل شيء بدءًا من الأجهزة الطرفية وحتى عمليات النشر السحابية الضخمة.
الاختلافات المعمارية
فهم الاختلافات الميكانيكية الأساسية بين هذه الشبكات يوضح سبب اختلاف أدائها في المهام المختلفة.
خالية من المراسي مقابل قائمة على المراسي
التباين الأكثر تحديدًا هو آلية YOLOX الخالية من المراسي. YOLOv5 النماذج التقليدية مثل YOLOv5 على مربعات مرساة محددة مسبقًا للتنبؤ بمربعات الحدود، الأمر الذي يتطلب تحليل التجميع على مجموعة بيانات التدريب لتحديد أحجام المراسي المثلى. يستبعد YOLOX هذا الأمر، حيث يتنبأ بإحداثيات مربعات الحدود مباشرة في كل موقع مكاني. في حين أن النهج الخالي من المراسي يقلل من عدد معلمات التصميم والضبط التجريبي، فإن نهج YOLOv5 المحسن القائم على المراسي، بمساعدة وظيفة المراسي التلقائية، يضمن تقارب تدريب مستقر للغاية ويمكن التنبؤ به فورًا.
الرأس المنفصل مقابل الرأس المقترن
يستخدم YOLOX رأسًا منفصلًا، مما يعني أن مهام التصنيف والانحدار يتم فصلها إلى فروع شبكة عصبية متميزة. ويرى المؤلفون أن هذا يحل التضارب بين تعلم السمات المكانية والدلالية. على العكس من ذلك، YOLOv5 رأسًا مقترنًا ومُحسّنًا للغاية (في إصداراته السابقة) مما أدى إلى تعظيم الكفاءة الحسابية وتقليل زمن الاستدلال، وهو أمر بالغ الأهمية للحوسبة الحافة في الوقت الفعلي.
التطور المعماري
بينما دافعت YOLOX عن الرأس المنفصل في عام 2021، قامت Ultralytics بتبني وتطوير البنى المنفصلة في النماذج اللاحقة مثل YOLOv8 و YOLO26 المتطورة، حيث جمعت بين أفضل ما في كلا العالمين.
استراتيجية تخصيص التسميات
يستخدم YOLOX SimOTA لتعيين التسميات، والذي يصوغ إقران الكائنات الحقيقية على الأرض بالتنبؤات كمشكلة نقل مثالية. يعمل هذا التعيين الديناميكي على تحسين التعامل مع المشاهد المزدحمة. YOLOv5 تعيينًا قويًا قائمًا على قواعد الشكل، مما يضمن تغذية وظيفة الخسارة باستمرار بعينات إيجابية عالية الجودة، مما يساهم في استقرار التدريب الأسطوري.
الأداء والمعايير
التوازن بين السرعة والدقة هو الاختبار النهائي لهذه البنى. يوضح الجدول أدناه أداء أحجام النماذج المختلفة على معايير قياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
بينما يحقق YOLOX mAP تنافسية، خاصة في إصداراته الأكبر حجماً، YOLOv5 ميزة ملحوظة في سرعة TensorRT على جميع الأصعدة. على سبيل المثال، يوفر نموذج YOLOv5s نسب سرعة إلى دقة استثنائية، مما يجعله مرغوباً للغاية للتطبيقات في الوقت الفعلي حيث كل ميلي ثانية مهمة.
Ultralytics : التدريب وسهولة الاستخدام
عند الانتقال من مرحلة البحث إلى مرحلة الإنتاج، غالبًا ما يكون النظام البيئي المحيط بالنموذج مهمًا بقدر أهمية النموذج نفسه. وهنا، تظهر مزايا Ultralytics بوضوح تام.
تجربة مستخدم مبسطة
YOLOv5 بإشادة عالمية لتجربة المطورين "من الصفر إلى القمة" التي يوفرها. CLI لك Python Ultralytics Python CLI تحميل النماذج وتدريبها ونشرها باستخدام سطور برمجية واحدة. في المقابل، يتطلب تشغيل YOLOX من مستودع Megvii GitHub مزيدًا من التكوين اليدوي لمتغيرات البيئة، وإعدادات Python المعقدة، ومنحنى تعلم أكثر صعوبة، وهو ما يميز قواعد بيانات البرمجة البحثية الأكاديمية.
كفاءة التدريب ومتطلبات الذاكرة
تم تصميم Ultralytics بدقة لتقليل استخدام الذاكرة أثناء التدريب. YOLOv5 CUDA أقل بكثير مقارنة بنماذج المحولات ذات المعلمات الكثيرة مثل RT-DETR أو نماذج البحث غير المُحسّنة. وهذا يتيح للمطورين تدريب أحجام دفعات أكبر على أجهزة المستهلكين، مما يسرع دورة التطوير التكرارية.
تعدد الاستخدامات عبر المهام
في حين أن YOLOX هو إطار عمل مخصص حصريًا لاكتشاف الكائنات، فإن Ultralytics قد طور YOLOv5 مهام رؤية متعددة. يمكنك القيام بتصنيف الصور وتقسيم الحالات واكتشاف الكائنات باستخدام نفس صيغة API.
الابتكار المستمر
إذا كنت بحاجة إلى مهام أكثر تقدمًا مثل تقدير الوضع أو الكشف عن الصندوق المحيط الموجه (OBB) ، فإننا نوصي بشدة بالترقية إلى أحدث بنية Ultralytics التي تدعم كل هذه المهام بشكل أصلي بدقة متطورة.
مقارنة التعليمات البرمجية
يمكن توضيح الفرق في قابلية الاستخدام بشكل أفضل من خلال الكود.
التدريب باستخدام YOLOv5:
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()
التدريب باستخدام YOLOX:(يتطلب استنساخ مستودع يدويًا وتثبيت setup.py CLI معقدة)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o
يُزيل Ultralytics الاحتكاك، مما يتيح لك التركيز على مجموعة البيانات ومنطق التطبيق بدلاً من تصحيح أخطاء ملفات التكوين. علاوة على ذلك، أصبح تتبع تجاربك سهلاً بفضل التكاملات المدمجة لـ Weights & Biases و Comet .
حالات الاستخدام المثالية والتطبيقات الواقعية
يعتمد الاختيار بين هذه النماذج على بيئة تشغيل مشروعك.
أين يتفوق YOLOX
يظل YOLOX مرشحًا قويًا في البيئات الأكاديمية حيث يدرس الباحثون بشكل صريح نماذج خالية من المراسي أو استراتيجيات تعيين التسميات. كما أنه مفيد في السيناريوهات التي يكون فيها اكتشاف المشاهد المزدحمة هو المقياس الأساسي المطلق وتكون سرعات نشر الحواف ثانوية.
أين يتفوق YOLOv5
YOLOv5 البطل بلا منازع في مجال النشر العملي.
- التصنيع عالي السرعة: بالنسبة لاكتشاف العيوب في خط التجميع، يضمن زمن الاستدلال الأدنى YOLOv5 على وحدات معالجة الرسومات الطرفية فحص المنتجات دون إبطاء الحزام.
- الصور الملتقطة بواسطة الطائرات بدون طيار والصور الجوية: تسمح سعة الذاكرة الفعالة لهذا البرنامج بتشغيله على أجهزة كمبيوتر مصاحبة خفيفة الوزن مركبة على طائرات بدون طيار لأداء مهام مثل مراقبة الزراعة وتتبع الحياة البرية.
- التجزئة الذكية: من الدفع الآلي إلى إدارة المخزون، يمكن تصدير YOLOv5 إلى TensorRT و ONNX لنشره على نطاق واسع عبر آلاف كاميرات المتاجر.
التطلع إلى المستقبل: ميزة YOLO26
على الرغم من YOLOv5 نموذج أسطوري، YOLOv5 مجال الذكاء الاصطناعي يتطور بسرعة. إذا كنت تبدأ مشروعًا جديدًا اليوم، فإننا ننصحك بشدة بالاطلاع على أحدث جيل من Ultralytics .
صدر في عام 2026، Ultralytics قفزة هائلة إلى الأمام. يتميز بتصميم شامل NMS مما يلغي تمامًا الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression، مما يبسط بشكل كبير منطق النشر. من خلال إزالة Distribution Focal Loss (DFL) واستخدام MuSGD Optimizer المتطور، يحقق YOLO26 CPU أسرع CPU تصل إلى 43٪ من الأجيال السابقة مع الحفاظ على دقة أعلى، خاصة على الكائنات الصغيرة بفضل وظائف الخسارة الجديدة ProgLoss + STAL.
سواء اخترت الموثوقية التي أثبتت جدواها في YOLOv5 الأداء المتطور في YOLO26، تضمن لك Ultralytics الحصول على أفضل الأدوات المتاحة لتحويل حلول الرؤية الحاسوبية من مرحلة التصميم إلى مرحلة الإنتاج بسلاسة. تأكد من استكشاف Ultralytics الشاملة Ultralytics لإطلاق العنان للإمكانات الكاملة لخط أنابيب الذكاء الاصطناعي الخاص بك.