تخطي إلى المحتوى

YOLOX مقابل YOLOv7: استكشاف تطور اكتشاف الكائنات في الوقت الفعلي

شهد مجال الرؤية الحاسوبية تطوراً سريعاً، حيث أصبحت بنى الكشف عن الأجسام أكثر تعقيداً وكفاءة. ومن المعالم البارزة في هذه الرحلة نذكر YOLOX و YOLOv7. وقد مثل كلا النموذجين قفزة كبيرة إلى الأمام عند إطلاقهما، حيث وفرا للمطورين أساليب متميزة لحل مشاكل الكشف. تتعمق هذه المقارنة في المواصفات الفنية والاختلافات في البنية ومقاييس الأداء لمساعدتك على اتخاذ قرارات مستنيرة بشأن تطبيقاتك.

تحليل معايير الأداء

عند تقييم نماذج الكشف، فإن المفاضلة بين السرعة والدقة أمر بالغ الأهمية. يوضح الجدول التالي أداء YOLOv7 YOLOX و YOLOv7 القياسية على COCO .

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOX: المبتكر الخالي من المراسي

أطلق باحثون في Megvii نظام YOLOX في عام 2021، والذي شكل تحولاً عن النماذج القائمة على المراسي التي كانت سائدة YOLO السابقة YOLO . ومن خلال اعتماد آلية خالية من المراسي ورأس منفصل، كان الهدف منه تبسيط عملية الكشف وتحسين التعميم عبر مجموعات بيانات متنوعة.

  • المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
  • المؤسسة:Megvii
  • التاريخ: 2021-07-18
  • الروابط:Arxiv, GitHub, الوثائق

تعرف على المزيد حول YOLOX

أبرز الملامح المعمارية

يتميز YOLOX بعدة خيارات تصميمية رئيسية:

  1. آلية بدون مرساة: على عكس سابقاتها (مثل YOLOv4 أو YOLOv5) التي كانت تعتمد على مربعات مرساة محددة مسبقًا، تتنبأ YOLOX بمربعات الحدود مباشرةً. وهذا يقلل من عدد معلمات التصميم ويقضي على الحاجة إلى ضبط المرساة المعقد، مما يجعلها قوية بشكل خاص بالنسبة للأشكال المتنوعة للأجسام.
  2. رأس منفصل: يتم فصل مهام التصنيف والانحدار إلى فروع مختلفة من رأس الشبكة. يساعد هذا الفصل في حل التضارب بين ثقة التصنيف ودقة التوطين، مما يؤدي إلى تقارب أسرع أثناء التدريب.
  3. SimOTA: استراتيجية متقدمة لتخصيص العلامات تسمى Simplified Optimal Transport Assignment (SimOTA) تقوم بتخصيص العينات الإيجابية بشكل ديناميكي للحقيقة الأساسية، مما يؤدي إلى تحسين عملية التدريب على المستوى العالمي بدلاً من المستوى المحلي.

حالات الاستخدام المثالية

يظل YOLOX منافسًا قويًا في سيناريوهات محددة:

  • البحث الأكاديمي: بنيته النظيفة تجعله أساسًا بحثيًا ممتازًا لاختبار النظريات الجديدة في الكشف بدون مرساة.
  • الأجهزة المحمولة القديمة: تعد طرازات Nano و Tiny خفيفة الوزن للغاية، ومناسبة لشرائح الهواتف المحمولة القديمة حيث يكون كل ملي واط من استهلاك الطاقة مهمًا.
  • الكشف للأغراض العامة: بالنسبة للمهام التي تتضمن كائنات ذات نسب عرض إلى ارتفاع متطرفة، غالبًا ما يكون التصميم الخالي من المراسي أفضل من الأنظمة الصارمة القائمة على المراسي.

YOLOv7: محطة القوة لـ "حقيبة الميزات المجانية"

بعد عام واحد، في عام 2022، YOLOv7 حدود السرعة والدقة إلى أبعد من ذلك. تم تطويره من قبل نفس المؤلفين الذين طوروا YOLOv4 و Scaled-YOLOv4، وركز على تحسين عملية التدريب والبنية دون زيادة تكاليف الاستدلال.

  • المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
  • المؤسسة: معهد علوم المعلومات، أكاديميا سينيكا
  • التاريخ: 2022-07-06
  • الروابط:Arxiv, GitHub, الوثائق

تعرف على المزيد حول YOLOv7

الابتكارات المعمارية الرئيسية

YOLOv7 عدة تقنيات متطورة لتحقيق أقصى قدر من الأداء:

  1. E-ELAN (شبكة تجميع الطبقات الفعالة الموسعة): تعزز هذه البنية قدرة الشبكة على التعلم من خلال التحكم في مسار التدرج. وهي تسمح للنموذج بتعلم ميزات أكثر تنوعًا دون تدمير تدفق التدرج الأصلي، مما يؤدي إلى تقارب أفضل.
  2. تحجيم النموذج: YOLOv7 طريقة تحجيم مركبة تعمل على تعديل عمق وعرض الشبكة في وقت واحد، مما يضمن الكفاءة المثلى عبر أحجام النماذج المختلفة (من Tiny إلى E6E).
  3. حقيبة الهدايا القابلة للتدريب: يشتمل النموذج على تقنيات إعادة تحديد المعلمات المخطط لها واستراتيجيات تعيين العلامات الديناميكية التي تعمل على تحسين الدقة أثناء التدريب ولكن يتم دمجها أثناء الاستدلال، دون التسبب في أي تأخير.

حالات الاستخدام المثالية

غالبًا ما YOLOv7 في التطبيقات الصناعية عالية الأداء:

  • المراقبة في الوقت الحقيقي: بفضل معدل الإطارات في الثانية (FPS) العالي على GPU ، فإنه يتفوق في أنظمة الإنذار الأمني ومراقبة حركة المرور حيث يكون زمن الاستجابة أمراً بالغ الأهمية.
  • الروبوتات: التوازن بين السرعة والدقة يدعم الملاحة الذاتية ومهام المناولة الروبوتية.
  • الفحص التفصيلي: توفر الإصدارات الأكبر حجماً (YOLOv7 و YOLOv7) دقة فائقة في الكشف عن العيوب الصغيرة في خطوط الإنتاج.

ميزة Ultralytics

في حين أن YOLOX و YOLOv7 بنى رائعتان، إلا أن مشهد تطوير الذكاء الاصطناعي قد تحول نحو أنظمة بيئية متكاملة تعطي الأولوية لتجربة المطورين إلى جانب المقاييس الأولية. وهنا يأتي دور Ultralytics مثل YOLOv8و YOLO11و YOLO26 .

تجربة مطور مبسطة

تعد إحدى أكبر العقبات التي تواجه المستودعات الموجهة للبحث (مثل YOLOv7 YOLOX أو YOLOv7 الأصلية) هي تعقيد الإعداد والاستخدام. Ultralytics هذه المشكلة من خلال توحيد جميع النماذج تحت Python واحدة ومتسقة.

مثال على واجهة برمجة التطبيقات الموحدة

يتطلب التبديل بين البنى تغيير سلسلة واحدة فقط، مما يضمن أن خط أنابيبك جاهز للمستقبل.

from ultralytics import YOLO

# Load YOLOX, YOLOv7, or the new YOLO26
model_yolox = YOLO("yolox_s.pt")
model_v7 = YOLO("yolov7.pt")
model_26 = YOLO("yolo26n.pt")  # Recommended for new projects

# Train with a standard command
results = model_26.train(data="coco8.yaml", epochs=100)

الكفاءة وإدارة الموارد

تم تصميم Ultralytics الحديثة لتحقيق الكفاءة. على عكس النماذج القائمة على المحولات (مثل RT-DETR) التي قد تستهلك الكثير من الذاكرة، تتطلبYOLO Ultralytics YOLO عادةً GPU أقل بكثير أثناء التدريب. تتيح هذه الديمقراطية للمطورين تدريب النماذج الحديثة على أجهزة المستهلكين أو استخدام أحجام دفعات أكبر لتحقيق تقارب أكثر استقرارًا.

ما وراء الكشف: تنوع حقيقي

في حين أن YOLOX هو في المقام الأول أداة للكشف عن الأشياء، فإن Ultralytics يدعم مجموعة واسعة من مهام الرؤية الحاسوبية ضمن نفس الإطار.

  • تجزئة المثيلات: اعزل الكائنات عن الخلفية بدقة تصل إلى مستوى البكسل.
  • تقدير الوضع: اكتشاف النقاط الرئيسية على أجسام البشر لأغراض تحليل الأداء الرياضي أو الرعاية الصحية.
  • مربعات الحدود الموجهة (OBB): اكتشاف الأجسام الدوارة مثل السفن في صور الأقمار الصناعية أو الطرود على حزام ناقل.
  • التصنيف: تصنيف الصور بالكامل بكفاءة.

أداء الجيل التالي: YOLO26

بالنسبة للمطورين الذين يبدأون مشاريع جديدة في عام 2026، يمثل YOLO26 ذروة هذه التطورات. فهو يعالج قيود كل من YOLOX و YOLOv7 تحسينات جذرية في البنية:

  • تصميمNMS: YOLO26 هو نظام شامل أصلاً، مما يلغي الحاجة إلى تقنية Non-Maximum Suppression (NMS). وهذا يزيل أحد العوائق الرئيسية في النشر، ويقلل من تقلب زمن الاستجابة ويبسط التصدير إلى الأجهزة الطرفية.
  • السرعة والدقة: مع CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة، تم تحسينها خصيصًا للحوسبة الطرفية.
  • تدريب متقدم: يستخدم MuSGD Optimizer، مما يجلب ابتكارات الاستقرار من تدريب نموذج اللغة الكبيرة إلى الرؤية الحاسوبية.
  • إتقان الكائنات الصغيرة: توفر وظائف الخسارة المحسّنة (ProgLoss + STAL) مكاسب ملحوظة في اكتشاف الكائنات الصغيرة، وهي نقطة ضعف تقليدية للعديد من أجهزة الكشف.

تعرف على المزيد حول YOLO26

الخلاصة

YOLOv7 يعتمد الاختيار بين YOLOX و YOLOv7 على قيودك القديمة المحددة أو أهدافك البحثية. يوفر YOLOX تصميمًا أبسط وخاليًا من المراسي، وهو أمر رائع لخطوط الأساس البحثية والمجالات المتخصصة المحددة في مجال الأجهزة المحمولة. YOLOv7 يوفر قوة وسرعة خام GPU متطور في البيئات الصناعية.

ومع ذلك، بالنسبة لغالبية التطبيقات الحديثة، فإن الاستفادة من Ultralytics يوفر أفضل مسار للمضي قدمًا. سواء اخترت YOLOv8 الذي تم اختباره في المعارك، أو YOLO11 متعدد الاستخدامات، أو YOLO26 الثوري، فستستفيد من منصة جيدة الصيانة وخيارات نشر سلسة ومجتمع يضمن بقاء حلول الذكاء الاصطناعي الخاصة بك في الطليعة.

لمزيد من القراءة عن نماذج مماثلة، راجع مقارناتنا حول YOLOv6 و YOLOv9، أو استكشف Ultralytics لبدء تدريب نماذجك الخاصة اليوم.


تعليقات