YOLOv5 مقابل YOLOX: مقارنة تقنية شاملة
شهد تطور الرؤية الحاسوبية في الوقت الفعلي معالم عديدة، حيث ساهمت بنيات مختلفة في تجاوز حدود السرعة والدقة. ومن بين النماذج المؤثرة للغاية في هذا المجال نموذجا YOLOv5 و YOLOX. وعلى الرغم من شهرة كليهما بأدائهما العالي في اكتشاف الأشياء، إلا أنهما يتبعان نهجين معماريين مختلفين جذرياً.
يوفر هذا الدليل تحليلاً تقنياً متعمقاً لهذين النموذجين، حيث يقارن بين بنيتهما، ومقاييس أدائهما، ومنهجيات التدريب، وسيناريوهات النشر المثالية لمساعدة المطورين والباحثين على اختيار الأداة المناسبة لمشاريع الرؤية الذكية الخاصة بهم.
نظرة عامة على النماذج والاختلافات المعمارية
Ultralytics YOLOv5
- المؤلف: Glenn Jocher
- المؤسسة: Ultralytics
- التاريخ: 2020-06-26
- GitHub: مستودع Ultralytics YOLOv5
- التوثيق: وثائق YOLOv5 الرسمية
تم تقديم YOLOv5 بواسطة Ultralytics، وسرعان ما أصبح معياراً صناعياً نظراً لتوازنه الاستثنائي بين الأداء وسهولة الاستخدام وكفاءة الذاكرة. وباعتماده على إطار العمل PyTorch، يستخدم YOLOv5 بنية قائمة على المراسي (anchor-based). وهو يعتمد على أشكال صناديق إحاطة محددة مسبقاً للتنبؤ بمواقع الأشياء، مما يجعله فعالاً للغاية لمهام اكتشاف الأشياء القياسية.
إحدى أكبر نقاط قوة YOLOv5 هي نظامه البيئي الذي يحظى بصيانة جيدة. فهو يفتخر بتوثيق شامل، وواجهة برمجة تطبيقات (API) بسيطة بشكل لا يصدق بلغة Python، وتكامل أصلي مع منصة Ultralytics. وهذا يتيح للمطورين الانتقال بسلاسة من تصنيف مجموعات البيانات إلى التدريب والتصدير إلى تنسيقات مثل ONNX و TensorRT.
تتطلب نماذج Ultralytics YOLO عادةً ذاكرة GPU أقل بكثير أثناء التدريب مقارنة بالبدائل المعقدة القائمة على المحولات (Transformers). هذه البصمة المنخفضة للذاكرة تجعل YOLOv5 سهل الوصول للغاية للباحثين الذين يعملون باستخدام أجهزة بمعايير استهلاكية.
Megvii YOLOX
- المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
- المؤسسة: Megvii
- التاريخ: 2021-07-18
- Arxiv: YOLOX: تجاوز سلسلة YOLO في عام 2021
- GitHub: مستودع Megvii YOLOX
- التوثيق: وثائق YOLOX على ReadTheDocs
قام باحثون في Megvii بتطوير YOLOX، وسلكوا مساراً مختلفاً من خلال تقديم تصميم خالٍ من المراسي (anchor-free) إلى عائلة YOLO. فمن خلال التخلص من صناديق المراسي (anchor boxes)، يبسط YOLOX رأس الاكتشاف ويقلل بشكل كبير من عدد المعلمات التجريبية التي تتطلب ضبطاً يدوياً أثناء التدريب.
يدمج YOLOX أيضاً رأساً مفصولاً (decoupled head) - حيث يفصل بين مهام التصنيف والانحدار إلى فروع شبكة مختلفة - ويستخدم استراتيجية تعيين التسميات SimOTA. هذه الابتكارات تسد الفجوة بين البحث الأكاديمي والتطبيقات الصناعية، مما يجعل YOLOX فعالاً بشكل خاص في البيئات ذات أحجام الأشياء المتفاوتة للغاية.
الأداء والمقاييس
عند تقييم نماذج الرؤية الحاسوبية، يعد المقايضة بين متوسط دقة الاكتشاف (mAP) وسرعة الاستدلال أمراً بالغ الأهمية. يوفر كلا النموذجين مجموعة من الأحجام (من Nano إلى Extra-Large) لتناسب قيود الأجهزة المختلفة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
بينما يحقق YOLOXx دقة ذروة أعلى قليلاً (51.1 mAP)، يوفر YOLOv5 خط أنابيب نشر أكثر قوة واختباراً بشكل شامل عبر أجهزة CPU و GPU. تسلط سرعات TensorRT لنموذج YOLOv5 الضوء على تحسينه العميق لأجهزة الحوسبة الطرفية، مما يجعله خياراً موثوقاً للغاية لتحليلات الفيديو في الوقت الفعلي.
منهجيات التدريب وسهولة الاستخدام
تختلف تجربة المطور بشكل كبير بين هاتين البنيتين.
نهج YOLOX
يتطلب تدريب YOLOX عادةً استنساخ المستودع الأصلي، وإدارة تبعيات محددة، وتنفيذ نصوص برمجية معقدة عبر سطر الأوامر. وعلى الرغم من أنه يدعم ميزات متقدمة مثل التدريب بالدقة المختلطة وإعدادات العقد المتعددة عبر MegEngine، فقد يكون منحنى التعلم حاداً للمطورين الذين يحتاجون إلى نماذج أولية سريعة.
ميزة Ultralytics
في المقابل، تعطي Ultralytics الأولوية لتجربة مستخدم مبسطة بشكل استثنائي. فمع حزمة ultralytics بلغة Python، يمكن للمطورين تحميل وتدريب والتحقق من صحة نموذج باستخدام الحد الأدنى من الكود الإضافي. تتعامل Ultralytics تلقائياً مع عمليات تعزيز البيانات المعقدة، وتطوير المعلمات الفائقة، وجدولة معدل التعلم.
from ultralytics import YOLO
# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()علاوة على ذلك، يمتد تنوع YOLOv5 إلى ما هو أبعد من اكتشاف الأشياء القياسي، حيث يوفر دعماً قوياً لـ تصنيف الصور و تجزئة المثيلات ضمن نفس واجهة برمجة التطبيقات المتماسكة تماماً.
عند اكتمال التدريب، يكون تصدير نموذج YOLOv5 إلى CoreML أو TFLite أو OpenVINO بسيطاً مثل تشغيل model.export(format="onnx"). وهذا يلغي الحاجة إلى نصوص تحويل تابعة لجهات خارجية التي عادة ما تكون مطلوبة في المستودعات التي تركز على الأبحاث.
تطبيقات العالم الحقيقي
يعتمد الاختيار بين هذه النماذج على بيئة النشر الخاصة بك والمتطلبات التقنية:
- تجزئة التجزئة وإدارة المخزون: للتطبيقات التي تتطلب التعرف على المنتجات في الوقت الفعلي على الأجهزة الطرفية مثل NVIDIA Jetson، يعد YOLOv5 مناسباً بشكل استثنائي. بصمته الذاكرية الدنيا وسرعات استدلال TensorRT السريعة تتيح تتبع كاميرات متعددة دون فقدان إطارات.
- البحث الأكاديمي والبنى المخصصة: يحظى YOLOX بتقدير كبير في مجتمع البحث. إن رأسه المفصول وطبيعته الخالية من المراسي تجعله خط أساس ممتازاً للمهندسين الذين يتطلعون إلى تجربة استراتيجيات جديدة لتعيين التسميات أو أولئك الذين يعملون على مجموعات بيانات حيث تفشل صناديق المراسي التقليدية في التعميم.
- الذكاء الاصطناعي الزراعي: بالنسبة لمهام الزراعة الدقيقة مثل اكتشاف الثمار أو تحديد الأعشاب الضارة عبر الطائرات بدون طيار، فإن سهولة تدريب ونشر نماذج YOLOv5 باستخدام منصة Ultralytics تتيح لخبراء المجال تنفيذ حلول الذكاء الاصطناعي دون الحاجة إلى خلفيات عميقة في هندسة تعلم الآلة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv5 و YOLOX على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv5
YOLOv5 هو خيار قوي لـ:
- أنظمة الإنتاج المثبتة: عمليات النشر الحالية التي يتم فيها تقدير سجل YOLOv5 الطويل من الاستقرار، والتوثيق المكثف، والدعم المجتمعي الهائل.
- التدريب بموارد محدودة: البيئات ذات موارد GPU المحدودة حيث يكون خط أنابيب التدريب الفعال ومتطلبات الذاكرة الأقل لـ YOLOv5 ميزة كبيرة.
- دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX، و TensorRT، و CoreML، و TFLite.
متى تختار YOLOX
يُنصح بـ YOLOX من أجل:
- أبحاث الاكتشاف الخالي من المراسي: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من المراسي كقاعدة لتجربة رؤوس اكتشاف جديدة أو دوال خسارة (loss functions).
- أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الهاتف المحمول القديمة حيث يعد البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91M معامل) أمراً بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
مستقبل رؤية الذكاء الاصطناعي: مرحباً بـ YOLO26
بينما رسخ كل من YOLOv5 و YOLOX مكانتهما في تاريخ الرؤية الحاسوبية، فإن المجال يتقدم بسرعة. بالنسبة للمطورين الذين يبدأون مشاريع جديدة اليوم، توصي Ultralytics بشدة باستكشاف أحدث نماذجها الرائدة، YOLO26.
تم إطلاق YOLO26 في يناير 2026، ويمثل قفزة هائلة إلى الأمام في كل من الأداء وسهولة الاستخدام. فهو يقدم تصميماً ثورياً شاملاً (end-to-end) خالٍ من NMS، مما يلغي تماماً معالجة ما بعد الاستدلال (Non-Maximum Suppression). هذا يقلل بشكل كبير من تباين زمن الوصول ويبسط منطق النشر على الأجهزة ذات الطاقة المنخفضة.
علاوة على ذلك، يستخدم YOLO26 مُحسِّن MuSGD الجديد - وهو مزيج من SGD و Muon مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM) - لتحقيق تقارب سريع ومستقر بشكل لا يصدق. مع إزالة DFL (تمت إزالة خسارة التوزيع البؤري لتسهيل التصدير وتحسين التوافق مع الأجهزة الطرفية/منخفضة الطاقة)، يحقق YOLO26 سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%، مما يعزز مكانته كنموذج نهائي للحوسبة الطرفية الحديثة، والروبوتات، وتطبيقات IoT. بالإضافة إلى ذلك، تقدم ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهو أمر بالغ الأهمية لتطبيقات IoT، والروبوتات، والتصوير الجوي. قد ينظر المستخدمون المهتمون بالأجيال السابقة أيضاً في YOLO11، على الرغم من أن YOLO26 هو الخيار الأفضل بلا منازع في هذا المجال.
خاتمة
يقدم كل من YOLOv5 و YOLOX قدرات مذهلة في اكتشاف الأشياء. لقد دفع YOLOX حدود البنية من خلال إثبات أن التصاميم الخالية من المراسي يمكنها منافسة وتجاوز الأساليب التقليدية في عام 2021. ومع ذلك، يظل YOLOv5 قوة مهيمنة بسبب سهولة استخدامه التي لا تضاهى، ونظامه البيئي الواسع، ومتطلبات الذاكرة الأقل أثناء التدريب.
بالنسبة للغالبية العظمى من التطبيقات التجارية، يوفر نظام Ultralytics البيئي أسرع مسار من مجموعة بيانات أولية إلى نموذج إنتاج منشور. سواء كنت تستخدم YOLOv5 المجرب والموثوق أو الترقية إلى YOLO26 المتطور، يستفيد المطورون من إطار عمل مصمم لجعل الرؤية الحاسوبية بالذكاء الاصطناعي سهلة الوصول وفعالة وعالية الأداء.