YOLOX مقابل YOLOv5: جسر بين الأبحاث الخالية من المراسي والكشف الصناعي عن الأجسام

تطور اكتشاف الأجسام في الوقت الفعلي مدفوع بفلسفتين متميزتين: السعي الأكاديمي لتحقيق النقاء المعماري والطلب الصناعي على التطبيق العملي. YOLOX و YOLOv5 يمثلان التقارب بين هذين المسارين. قدم YOLOX كاشفًا عالي الأداء بدون مرساة يبسط الهندسة الأساسية للكشف، بينما YOLOv5 المعيار العالمي للاستخدام والمتانة وسهولة النشر في بيئات الإنتاج.

تستكشف هذه المقارنة التفصيلية كيفية مقارنة هذين النموذجين المؤثرين من حيث الخيارات المعمارية وسرعة الاستدلال وقابلية التطبيق في العالم الواقعي، مما يساعدك على تحديد الإطار الذي يناسب احتياجاتك في مجال الرؤية الحاسوبية.

المواصفات الفنية الرئيسية

يوضح الجدول التالي مقاييس أداء كلا النموذجين. في حين يُظهر YOLOX نتائج نظرية قوية، YOLOv5 يوفر YOLOv5 ملفًا أكثر توازنًا للنشر العملي، لا سيما عند النظر إلى نضج نظامه البيئي للتصدير.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOX: المبتكر الخالي من المراسي

شكلت YOLOX، التي أطلقتها Megvii في عام 2021، تحولًا مهمًا في YOLO من خلال التخلي عن مربعات الربط، التي كانت عنصرًا أساسيًا في الإصدارات السابقة مثل YOLOv2 و YOLOv3. من خلال اعتماد آلية خالية من الربط، بسطت YOLOX عملية التدريب وألغت الحاجة إلى ضبط المعلمات الفائقة للربط يدويًا، الأمر الذي كان يتطلب في كثير من الأحيان خبرة خاصة بالمجال.

أبرز الملامح المعمارية

آلية بدون مرساة: بدلاً من توقع الإزاحات من المربعات المحددة مسبقًا، يتنبأ YOLOX بإحداثيات المربع المحيط مباشرةً. تقلل هذه الطريقة من تعقيد بنية الرأس وتحسن التعميم عبر أشكال الكائنات المتنوعة.
الرأس المنفصل: يتم فصل مهام التصنيف والتحديد المكاني إلى فروع مختلفة من الشبكة. يؤدي هذا الفصل إلى حل التضارب بين ثقة التصنيف ودقة التحديد المكاني، مما يؤدي إلى تقارب أسرع أثناء التدريب.
تعيين علامة SimOTA: قدمت YOLOX SimOTA، وهي استراتيجية متقدمة لتعيين العلامات تعتبر إجراء التعيين مشكلة نقل مثالية. يتيح هذا التعيين الديناميكي للنموذج تعلم عينات إيجابية أكثر فعالية أثناء التدريب.
MixUp الفسيفساء MixUp : مستوحى بشكل كبير من Ultralytics YOLOv4 و Ultralytics ، يستخدم YOLOX استراتيجيات قوية لتوسيع البيانات لتعزيز المتانة دون زيادة تكلفة الاستدلال.

سياق البحث

لعبت YOLOX دور الجسر الحيوي بين البحث الأكاديمي والتطبيق الصناعي، حيث أثبتت أن أجهزة الكشف الخالية من المراسي يمكن أن تضاهي أداء الأنظمة المثلى القائمة على المراسي مثل YOLOv5.

تفاصيل YOLOX:

المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
المؤسسة:Megvii
التاريخ: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

تعرف على المزيد حول YOLOX

YOLOv5: المعيار الصناعي

YOLOv5، Ultralytics هو بلا شك نموذج الكشف عن الكائنات الأكثر استخدامًا في العالم. وقد أعطى الأولوية لسهولة الاستخدام والاستقرار وتجربة "يعمل ببساطة". بينما ركز YOLOX على الجدة المعمارية، YOLOv5 على التميز الهندسي — بإنشاء نموذج سهل التدريب والنشر والتوسع عبر آلاف حالات الاستخدام في العالم الحقيقي.

لماذا يختار المطورون YOLOv5؟

سهولة استخدام لا مثيل لها: تعمل Ultralytics على إزالة التعقيدات المرتبطة بتدريب نماذج التعلم العميق. يمكن للمستخدم الانتقال من مجموعة البيانات إلى النموذج المدرب في بضع أسطر فقط من Python مما يقلل بشكل كبير من العوائق التي تحول دون اعتماد الذكاء الاصطناعي.
نظام بيئي شامل: على عكس مستودعات الأبحاث التي غالبًا ما يتم التخلي عنها بعد النشر، YOLOv5 دعم YOLOv5 من خلال نظام بيئي ضخم. ويشمل ذلك تكاملًا سلسًا مع أدوات MLOps مثل Weights & Biasesو Cometو ClearML، مما يضمن سير عمل تطوير احترافي.
إدارة فعالة للذاكرة: YOLOv5 تصميم YOLOv5 لتحقيق الكفاءة. عادةً ما يتطلب GPU أقل أثناء التدريب مقارنةً بالعديد من المنافسين، مما يتيح للمستخدمين تدريب نماذج فعالة على أجهزة المستهلكين أو حتى موارد سحابية مجانية مثل Google .
تعدد الاستخدامات يتجاوز الكشف: في حين أن YOLOX هو في الأساس إطار عمل للكشف، فإن YOLOv5 يدعم YOLOv5 تقسيم الحالات وتصنيف الصور، مما يجعله أداة متعددة الوظائف لمتطلبات المشاريع المتنوعة.

YOLOv5 :

المؤلف: جلين جوتشر
المؤسسة:Ultralytics
التاريخ: 2020-06-26
الوثائق:وثائق YOLOv5
GitHub:ultralytics/yolov5

تعرف على المزيد حول YOLOv5

تحليل الأداء والنشر

عند اختيار نموذج للإنتاج، نادراً ما mAP الخام هو العامل الوحيد. فقيود النشر وتوافق الأجهزة والصيانة عوامل مهمة بنفس القدر.

سرعة الاستدلال وكفاءته

YOLOv5 في سيناريوهات النشر. تم تحسين بنيته بشكل كبير للتصدير إلى تنسيقات مثل ONNXو TensorRTو CoreMLو TFLite. كما هو موضح في جدول المقارنة، يحقق YOLOv5n (Nano) سرعات استدلال أسرع بكثير (1.12 مللي ثانية على T4 TensorRT) مقارنة بالنماذج الخفيفة المماثلة، مما يجعله مثاليًا للأجهزة الطرفية حيث كل مللي ثانية مهمة.

على الرغم من أداء YOLOX الجيد، إلا أنه قد يواجه أحيانًا تحديات تتعلق بتوافق التصدير بسبب مكوناته المعمارية المحددة (مثل الرأس المنفصل)، مما قد يتطلب مزيدًا من الهندسة المخصصة لتحسين أداء بعض محركات الاستدلال.

تجربة التدريب

تعد كفاءة التدريب سمة مميزة لنظام Ultralytics . تعمل آلية التثبيت التلقائي YOLOv5 على إعادة حساب نقاط التثبيت تلقائيًا لتناسب مجموعة البيانات المخصصة الخاصة بك على النحو الأمثل، مما يوفر مزايا نقاط التثبيت المخصصة دون الحاجة إلى التدخل اليدوي. علاوة على ذلك، فإن توفر أوزان عالية الجودة مدربة مسبقًا يسرع عملية نقل التعلم، مما يسمح للنماذج بالوصول إلى دقة عالية باستخدام مجموعات بيانات أصغر.

from ultralytics import YOLO

# Load a model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5su.pt")  # YOLOv5s with newer head

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

سير عمل مبسط

يوضح مقتطف الشفرة أعلاه واجهة Ultralytics الموحدة Ultralytics . تعمل هذه الواجهة البسيطة نفسها مع YOLOv5 و YOLOv8 و YOLO26 المتطورة، مما يتيح لك التبديل بين النماذج على الفور دون الحاجة إلى إعادة كتابة قاعدة الشفرة.

توصيات حالات الاستخدام

مناسب بشكل مثالي لـ YOLOX

البحث الأكاديمي: إن تطبيقه النظيف الخالي من المراسي يجعله أساسًا ممتازًا للباحثين الذين يدرسون استراتيجيات تخصيص التسميات أو هياكل رؤوس الكشف.
سيناريوهات محددة عالية الدقة: بالنسبة للمهام التي mAP تعظيم mAP الأولوية الوحيدة وتكون فيها زمن الاستدلال أقل أهمية، توفر المتغيرات الأكبر من YOLOX (مثل YOLOX-x) دقة تنافسية.

مناسب بشكل مثالي لـ YOLOv5

النشر التجاري: إن قنوات التصدير القوية والاستقرار يجعلان YOLOv5 المفضل للشركات التي تنشر على آلاف الأجهزة، من Raspberry Pis إلى خوادم السحابة.
Edge AI: تتميز الإصدارات خفيفة الوزن (Nano/Small) بسرعتها الاستثنائية، مما يجعلها مثالية لتحليل الفيديو في الوقت الفعلي على الهواتف المحمولة أو الطائرات بدون طيار.
النماذج الأولية السريعة: تجربة "من الصفر إلى القمة" تعني أن المطورين يمكنهم التحقق من صحة الأفكار في غضون ساعات بدلاً من أيام.

المستقبل: Ultralytics

في حين أن YOLOv5 YOLOX لا تزالان أدوات قوية، إلا أن هذا المجال قد تطور. بالنسبة للمطورين الذين يبحثون عن أفضل أداء على الإطلاق، يمثل Ultralytics الجيل التالي من الذكاء الاصطناعي للرؤية.

يجمع YOLO26 بين أفضل ما في العالمين:

NMS من البداية إلى النهاية: مثل معظم نماذج البحث المتقدمة، فإن YOLO26 خالٍ من NMS من البداية إلى النهاية، مما يلغي الحاجة إلى NMS . وينتج عن ذلك استنتاج أسرع وحتمي، مما يبسط عمليات النشر.
محسّن MuSGD: مستوحى من ابتكارات تدريب LLM، يستخدم YOLO26 محسّن MuSGD لتحقيق استقرار أكبر وسرعة تقارب أعلى.
تحسين الحافة: تم تصميمه خصيصًا للحوسبة الطرفية، حيث يوفر CPU أسرع CPU تصل إلى 43٪ مقارنةً بالأجيال السابقة، مما يجعله خيارًا متميزًا لتطبيقات CPU المحمولة وإنترنت الأشياء.
تعدد الاستخدامات: يدعم جميع المهام — الكشف والتجزئة والتصنيف والوضع و OBB — ضمن إطار عمل واحد موحد.

تعرف على المزيد حول YOLO26

الخلاصة

يعتمد الاختيار بين YOLOX و YOLOv5 على أهدافك. إذا كنت باحثًا ترغب في تجربة بنى خالية من المراسي، فإن YOLOX هو خيار قوي. ومع ذلك، بالنسبة للغالبية العظمى من المطورين والشركات التي تركز على بناء تطبيقات موثوقة في الوقت الفعلي، YOLOv5— وخليفته YOLO26—يوفر توازنًا فائقًا بين السرعة والدقة وسهولة الاستخدام. يضمن Ultralytics دعم مشاريعك من خلال الصيانة النشطة والوثائق الشاملة والمجتمع النشط.

لمزيد من الاستكشاف، قد تكون مهتمًا أيضًا بمقارنة YOLOv8 YOLOv5 أو التعرف على إمكانات YOLOv10 في الوقت الفعلي.